한글 단어 유사도 측정
한글 단어 유사도 측정
- 음절을 음소로 나눠서 비교 (ex: 정승현 -> ㅈㅓㅇㅅㅡㅇㅎㅕㄴ)
- 초성에는 가산점 (ex: 정승현 -> ㅈㅓ@ㅇㅅ@ㅡㅇㅎ@ㅕㄴ)
(참고 자료: 한글_edit_distance.pd)
한글 문장 형태소 기반 비교
- 형태소 기반은 큰 의미가 없음.
- 일단 딜이나 옵션의 제목은 그 특성상 명사 외의 형태소를 쓰는 경우가 드물기 때문.
- 옴파로스 겨울 신상
- 더마시오 옛날 통닭
- 브랜드나 상품의 특징을 나타내는 고유 명사가 아닌 이상 정확도가 매우 떨어짐.
- 위의 예에서 "겨울", "신상", "옛날", "통닭" 등의 단어는 큰 의미가 없음. "옴파로스", "더마시오"와 같은 단어가 결정적인 단어임.
- 하지만 일반 명사가 필요 없는 것은 아님. "나이키 운동화"와 "나이키 패딩"은 구분해야하기 때문.
비교 수단
- 상품코드 (Optional)
- 제목에서 찾아야함.
- MTM-N포인트 올리브:2XL
- MTM-69 블랙:2XL
- BTS3211M_RED-100
- J1000MREBKS-100
- 10030BNAS-105
- Z34193-95
- TR01BKP-110
- K41-O-722_베이지/M
- PK-301CC (Black)
- 424TF-L424-ST 245
- SHD-FR130BT
- 644869-601(GS)
- 16. [MEN] 브이넥 스웨터 #42330186 / 그레이 헤더 S
- 선택32)캐시어하이넥N669 / 차콜(Charcoal)
- 선택 13 폴로 걸즈 럭비 드레스 / 13-1 Fuchsia-5
- 선택 7 타미 힐피거 여성 스웨터 / 7-2 Heather Grey-M
- 선택2. 3-5세/주황-M1411002
- 선택6) 얼스프렌들리 유아섬유세제 1,500ml
- 선택4)[오후출발]4박5일-아동399000원 / 03월 03일 화요일
- 02_밀키드레스 필굿 코튼 15sheet x 2
- 선택6)간식용품 / 6-18. 논슬립 양손 이유볼-옐로우
- 제목에서 찾아야함.
- 위치 정보 (Optional)
- API에서 제공.
- 브랜드 or 회사 정보 (Optional)
- API에서 제공
- 제목에서 찾기
- 카테고리 정보
- 전혀 다른 카테고리는 비교 대상에서 제외
- 딜 및 옵션 제목 유사도
비교 수단별 특징
- 상품코드 (Optional)
- 같은 상품일 확률 매우 높음. 결정적임.
- 숫자 하나만 달라도 다른 상품이기 때문에 유사도 점수가 아닌 Boolean 결과 리턴
- 위치 정보 (Optional)
- 같은 상품일 확률 높음.
- 로컬에선 결정적임.
- 조금 달라도 같은 상품일 확률이 높음. 일정 범위 안에 있는 지 확인.
- 브랜드 or 회사 정보 (Optional)
- 같은 상품일 확률 높은 편이지만 결정적이진 않음.
- 카테고리 정보
- 같은 상품일 확률을 조금 좁여 줌.
- 대신 다를 경우는 다를 확률이 매우 높음.
- 딜 및 옵션 제목 유사도
- 최후의 수단
안녕하세요~ 혹시 메일 주소를 를 좀 알수 있을까요?
답글삭제저에게 메일좀 보내주시면 개발관련 이야기를 나누고 싶어요 ~ ^^ 감사합니다.