Skip to content
This repository has been archived by the owner on Oct 14, 2021. It is now read-only.

idiometry 구현 #43

Open
1 of 4 tasks
ArtemisDicoTiar opened this issue Oct 6, 2021 · 2 comments
Open
1 of 4 tasks

idiometry 구현 #43

ArtemisDicoTiar opened this issue Oct 6, 2021 · 2 comments
Assignees

Comments

@ArtemisDicoTiar
Copy link
Member

ArtemisDicoTiar commented Oct 6, 2021

WHY?

기존의 용례 수집 방식은 속담이 언급되어 있는 문장만을 이용하려고했다. 이를 변경하려고 한다. 온갖 한글 문장 → 속담 언급 검색 가능 으로.
이렇게 변경하게 되면 속담이 언급되어 있지 않은 문장은 언급되어 있지 않은 대로의 가치가 그리고 언급되어 있다면 그대로의 가치가 있다.

WHAT?

이번에 시도하는 형태는 온갖 문장을 모두 수집하고 속담이 언급되어 있는 문장을 ES로 검색가능하게 하려고한다.
이떄, 속담의 변형형태도 가능하면 검색가능하게하려한다.

이는 이 논문 (idiometry)를 참고한다. 해당 논문에서 공개한 리포도 참고. 해당 논문에서 사용한 ES endpoint도 참고하자.

TODOs?

  • 논문에서 사용한 ES 시스템 리뷰
  • 논문에서 사용한 로직 이해 (논문 리뷰)
  • 논문에서 공개한 코드 이해 (백엔드만 이해하면 됨.)
  • 한글에 맞게 코드 구현.
@ArtemisDicoTiar
Copy link
Member Author

ArtemisDicoTiar commented Oct 6, 2021

카디프 대학에서 작성한 논문에 사용한 analyzer

아니 논문에서는 그럴듯하게 적어놨길래, 자기들만의 분석기를 달아서 사용하는 줄 알았는데 기본 standard analyzer를 이용한다.
그러면 그냥 한글도 기본 nori analyzer를 이용하면 될거 같다.
Screenshot 2021-10-06 at 15 35 25
심지어 analyzer가 적용되어 있는 proeprty도 sentence (예제)가 전부다. 나머지는 메타 정보처럼 제공됨. term-vector의 용도만 이해하면 될듯!
Screenshot 2021-10-06 at 15 36 57

@ArtemisDicoTiar
Copy link
Member Author

ArtemisDicoTiar commented Oct 6, 2021

논문에서 제공한 검색 로직

  1. 부정사 제거 → 한글에는 부정사가 없지 않나...?
  2. POS 태그 생성 (1) → 이건 nori에서 해주는 데?
  3. SLOP 계산 (2)
  4. 대명사 제거 (3) → 한글 대명사 리스트를 텍스트로 구축해서 filter에 추가하면 되려나?
  5. 수동태화 (4) → 속담의 수동태화도 고민해야하나?
  6. 검색 쿼리 작성
  7. 검색
  8. 검색 결과 highlighting
    • 검색 결과 별 데이터 설명 → 어차피 검색 후 해당 doc의 id를 이용해 정보를 얻으면 그만
    • 검색 결과 별 score 설명 → 이건 논문에서 제공한 서버에서도 similarity로 땡치던데 굳이?

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants