You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
여러 포멧의 문서파일들에 대한 형식추출 및 본문추출을 개발하기 위해 라이브러리를 찾던중에 Apache Tika 프로젝트를 발견해서 사용중에 있습니다.
대부분의 문서 포멧이 지원하나, 한글 문서는 지원을 안하더라고요.
hwp-v3, hwp-v5 는 위에 https://issues.apache.org/jira/browse/TIKA-1728 이슈로 인하여 타 라이브러리를 통해서 detect만 가능한 상황입니다.
아무래도 한글파일(hwp)을 사용하는 나라가 거의 없다보니, 지원이 안되고 있는거 같습니다.
혹시 Apache Tika 에 hwp 파일 관련 parser 로 추가되도록 지원 가능할까요??
저는 개방형 OS인 하모니카OS에서 한글 사용자들의 업무 환경을 개선하고자
다양한 문서들의 원문 검색 엔진을 만들어 하모니카 OS에 배포하며, Apache Tika에 반영을 하여 누구나 사용할 수 있도록 오픈소스로 운영할 계획을 가지고 프로젝트를 운영하던중
Apache Tika에서 한글(hwp)에 관련되 이슈를 발견하였고 Apache Tika 이슈에서 kyoungseok-joo님이 올리신 해당 글을 발견하였습니다.
저 또한 neolord0님의 한글 라이브러리를 Apache Tika에 hwp parser로 추가되도록 동참을 하고 싶습니다.
여러 포멧의 문서파일들에 대한 형식추출 및 본문추출을 개발하기 위해 라이브러리를 찾던중에 Apache Tika 프로젝트를 발견해서 사용중에 있습니다.
대부분의 문서 포멧이 지원하나, 한글 문서는 지원을 안하더라고요.
hwp-v3, hwp-v5 는 위에 https://issues.apache.org/jira/browse/TIKA-1728 이슈로 인하여 타 라이브러리를 통해서 detect만 가능한 상황입니다.
아무래도 한글파일(hwp)을 사용하는 나라가 거의 없다보니, 지원이 안되고 있는거 같습니다.
혹시 Apache Tika 에 hwp 파일 관련 parser 로 추가되도록 지원 가능할까요??
https://issues.apache.org/jira/browse/TIKA-1731?focusedCommentId=16840414&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-16840414
위 이슈 댓글보시고 가능하실때 검토 부탁드립니다.
감사합니다!
The text was updated successfully, but these errors were encountered: