Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

안녕하세요. 혹시 Apache Tika 프로젝트에 integrate 가능할까요?? #50

Open
kyoungseok-joo opened this issue May 16, 2019 · 2 comments

Comments

@kyoungseok-joo
Copy link

여러 포멧의 문서파일들에 대한 형식추출 및 본문추출을 개발하기 위해 라이브러리를 찾던중에 Apache Tika 프로젝트를 발견해서 사용중에 있습니다.
대부분의 문서 포멧이 지원하나, 한글 문서는 지원을 안하더라고요.
hwp-v3, hwp-v5 는 위에 https://issues.apache.org/jira/browse/TIKA-1728 이슈로 인하여 타 라이브러리를 통해서 detect만 가능한 상황입니다.

아무래도 한글파일(hwp)을 사용하는 나라가 거의 없다보니, 지원이 안되고 있는거 같습니다.
혹시 Apache Tika 에 hwp 파일 관련 parser 로 추가되도록 지원 가능할까요??

https://issues.apache.org/jira/browse/TIKA-1731?focusedCommentId=16840414&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-16840414

위 이슈 댓글보시고 가능하실때 검토 부탁드립니다.
감사합니다!

@neolord0
Copy link
Owner

네.. 좋은 의견 감사합니다.
검토해보고.. 반영해보도록 노력하겠습니다.
제가 회사일이 많아서.. 아마도 연말 쯤에.. 시간이 나지 않을까.. 생각됩니다.

@gon1942
Copy link

gon1942 commented May 23, 2019

안녕하세요.

저는 개방형 OS인 하모니카OS에서 한글 사용자들의 업무 환경을 개선하고자
다양한 문서들의 원문 검색 엔진을 만들어 하모니카 OS에 배포하며, Apache Tika에 반영을 하여 누구나 사용할 수 있도록 오픈소스로 운영할 계획을 가지고 프로젝트를 운영하던중
Apache Tika에서 한글(hwp)에 관련되 이슈를 발견하였고 Apache Tika 이슈에서 kyoungseok-joo님이 올리신 해당 글을 발견하였습니다.
저 또한 neolord0님의 한글 라이브러리를 Apache Tika에 hwp parser로 추가되도록 동참을 하고 싶습니다.

감사합니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants