idiometry 구현 #43

ArtemisDicoTiar · 2021-10-06T06:33:36Z

WHY?

기존의 용례 수집 방식은 속담이 언급되어 있는 문장만을 이용하려고했다. 이를 변경하려고 한다. 온갖 한글 문장 → 속담 언급 검색 가능 으로.
이렇게 변경하게 되면 속담이 언급되어 있지 않은 문장은 언급되어 있지 않은 대로의 가치가 그리고 언급되어 있다면 그대로의 가치가 있다.

WHAT?

이번에 시도하는 형태는 온갖 문장을 모두 수집하고 속담이 언급되어 있는 문장을 ES로 검색가능하게 하려고한다.
이떄, 속담의 변형형태도 가능하면 검색가능하게하려한다.

이는 이 논문 (idiometry)를 참고한다. 해당 논문에서 공개한 리포도 참고. 해당 논문에서 사용한 ES endpoint도 참고하자.

TODOs?

논문에서 사용한 ES 시스템 리뷰
논문에서 사용한 로직 이해 (논문 리뷰)
논문에서 공개한 코드 이해 (백엔드만 이해하면 됨.)
한글에 맞게 코드 구현.

ArtemisDicoTiar · 2021-10-06T06:36:05Z

카디프 대학에서 작성한 논문에 사용한 analyzer

아니 논문에서는 그럴듯하게 적어놨길래, 자기들만의 분석기를 달아서 사용하는 줄 알았는데 기본 standard analyzer를 이용한다.
그러면 그냥 한글도 기본 nori analyzer를 이용하면 될거 같다.

심지어 analyzer가 적용되어 있는 proeprty도 sentence (예제)가 전부다. 나머지는 메타 정보처럼 제공됨. term-vector의 용도만 이해하면 될듯!

ArtemisDicoTiar · 2021-10-06T08:02:21Z

논문에서 제공한 검색 로직

부정사 제거 → 한글에는 부정사가 없지 않나...?
POS 태그 생성 (1) → 이건 nori에서 해주는 데?
SLOP 계산 (2)
대명사 제거 (3) → 한글 대명사 리스트를 텍스트로 구축해서 filter에 추가하면 되려나?
수동태화 (4) → 속담의 수동태화도 고민해야하나?
검색 쿼리 작성
검색
검색 결과 highlighting
- 검색 결과 별 데이터 설명 → 어차피 검색 후 해당 doc의 id를 이용해 정보를 얻으면 그만
- 검색 결과 별 score 설명 → 이건 논문에서 제공한 서버에서도 similarity로 땡치던데 굳이?

ArtemisDicoTiar assigned teang1995 and ArtemisDicoTiar Oct 6, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

idiometry 구현 #43

idiometry 구현 #43

ArtemisDicoTiar commented Oct 6, 2021 •

edited

Loading

ArtemisDicoTiar commented Oct 6, 2021 •

edited

Loading

ArtemisDicoTiar commented Oct 6, 2021 •

edited

Loading

idiometry 구현 #43

idiometry 구현 #43

Comments

ArtemisDicoTiar commented Oct 6, 2021 • edited Loading

WHY?

WHAT?

TODOs?

ArtemisDicoTiar commented Oct 6, 2021 • edited Loading

카디프 대학에서 작성한 논문에 사용한 analyzer

ArtemisDicoTiar commented Oct 6, 2021 • edited Loading

논문에서 제공한 검색 로직

ArtemisDicoTiar commented Oct 6, 2021 •

edited

Loading

ArtemisDicoTiar commented Oct 6, 2021 •

edited

Loading

ArtemisDicoTiar commented Oct 6, 2021 •

edited

Loading