한글 단어 유사도 측정

한글 단어 유사도 측정

  1. 음절을 음소로 나눠서 비교 (ex: 정승현 -> ㅈㅓㅇㅅㅡㅇㅎㅕㄴ)
  2. 초성에는 가산점 (ex: 정승현 -> ㅈㅓ@ㅇㅅ@ㅡㅇㅎ@ㅕㄴ)
    (참고 자료: 한글_edit_distance.pd)

한글 문장 형태소 기반 비교

  1. 형태소 기반은 큰 의미가 없음.
  2. 일단 딜이나 옵션의 제목은 그 특성상 명사 외의 형태소를 쓰는 경우가 드물기 때문.
    1. 옴파로스 겨울 신상
    2. 더마시오 옛날 통닭
  3. 브랜드나 상품의 특징을 나타내는 고유 명사가 아닌 이상 정확도가 매우 떨어짐.
    1. 위의 예에서 "겨울", "신상", "옛날", "통닭" 등의 단어는 큰 의미가 없음. "옴파로스", "더마시오"와 같은 단어가 결정적인 단어임.
    2. 하지만 일반 명사가 필요 없는 것은 아님. "나이키 운동화"와 "나이키 패딩"은 구분해야하기 때문.

비교 수단

  1. 상품코드 (Optional)
    1. 제목에서 찾아야함.
      1. MTM-N포인트 올리브:2XL
      2. MTM-69 블랙:2XL
      3. BTS3211M_RED-100
      4. J1000MREBKS-100
      5. 10030BNAS-105
      6. Z34193-95
      7. TR01BKP-110
      8. K41-O-722_베이지/M
      9. PK-301CC (Black)
      10. 424TF-L424-ST 245
      11. SHD-FR130BT
      12. 644869-601(GS)
      13. 16. [MEN] 브이넥 스웨터 #42330186 / 그레이 헤더 S
      14. 선택32)캐시어하이넥N669 / 차콜(Charcoal)
      15. 선택 13 폴로 걸즈 럭비 드레스 / 13-1 Fuchsia-5
      16. 선택 7 타미 힐피거 여성 스웨터 / 7-2 Heather Grey-M
      17. 선택2. 3-5세/주황-M1411002
      18. 선택6) 얼스프렌들리 유아섬유세제 1,500ml
      19. 선택4)[오후출발]4박5일-아동399000원 / 03월 03일 화요일
      20. 02_밀키드레스 필굿 코튼 15sheet x 2
      21. 선택6)간식용품 / 6-18. 논슬립 양손 이유볼-옐로우
  2. 위치 정보 (Optional)
    1. API에서 제공.
  3. 브랜드 or 회사 정보 (Optional)
    1. API에서 제공
    2. 제목에서 찾기
  4. 카테고리 정보
    1. 전혀 다른 카테고리는 비교 대상에서 제외
  5. 딜 및 옵션 제목 유사도

비교 수단별 특징

  1. 상품코드 (Optional)
    1. 같은 상품일 확률 매우 높음. 결정적임.
    2. 숫자 하나만 달라도 다른 상품이기 때문에 유사도 점수가 아닌 Boolean 결과 리턴
  2. 위치 정보 (Optional)
    1. 같은 상품일 확률 높음.
    2. 로컬에선 결정적임.
    3. 조금 달라도 같은 상품일 확률이 높음. 일정 범위 안에 있는 지 확인.
  3. 브랜드 or 회사 정보 (Optional)
    1. 같은 상품일 확률 높은 편이지만 결정적이진 않음.
  4. 카테고리 정보
    1. 같은 상품일 확률을 조금 좁여 줌.
    2. 대신 다를 경우는 다를 확률이 매우 높음.
  5. 딜 및 옵션 제목 유사도
    1. 최후의 수단

댓글

  1. 안녕하세요~ 혹시 메일 주소를 를 좀 알수 있을까요?

    저에게 메일좀 보내주시면 개발관련 이야기를 나누고 싶어요 ~ ^^ 감사합니다.

    답글삭제

댓글 쓰기

이 블로그의 인기 게시물

DBCP2

내부망에서 SBT 사용법

groupadd