Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

word pruning system 개발 #3

Open
1 of 3 tasks
shin285 opened this issue Aug 25, 2021 · 2 comments
Open
1 of 3 tasks

word pruning system 개발 #3

shin285 opened this issue Aug 25, 2021 · 2 comments
Assignees

Comments

@shin285
Copy link
Member

shin285 commented Aug 25, 2021

배경

  • 세종 코퍼스에는 수십만 개의 단어가 존재
  • 브론스끼, 내무국장 등과 같이 현재는 거의 사용되지 않는 단어들이 다수 포함되어 있음
  • 코퍼스 내 단어 출현 빈도로 pruning 을 하면 코퍼스 내 출현 빈도가 낮지만 현재도 자주 사용되는 평정심 (freq. : 1) 과 같은 단어들이 사라지는 현상 발생

Tasks

  • 빈도수 n 개 미만인 NNG 리스트 구축
  • 구글에 exact match query를 통해 검색된 문서의 수를 확인
  • 문서의 수에 따라 사전에서 사용할 NNG 추출 후 사전 등록

AC

  • 세종 코퍼스에서 출현한 단어들 중 현재도 자주 사용되는 단어들의 리스트를 확인할 수 있다.
@shin285 shin285 self-assigned this Aug 25, 2021
@shin285
Copy link
Member Author

shin285 commented Aug 26, 2021

빈도수 5개 미만인 NNG, NNP 리스트
excluded_nouns.txt

@shin285
Copy link
Member Author

shin285 commented Aug 26, 2021

@mercileesb 님 excluded_nouns.txt 파일 참고하시면 될 것 같습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant