한컴, PDF 추출 엔진 ‘오픈데이터로더 PDF’ 공개

등록 2025.09.17 11:35:23 수정 2025.09.17 11:35:31

[FETV=신동현 기자] 한글과컴퓨터(이하 한컴)는 AI 학습 과정에서 난제로 지적돼 온 PDF 데이터 추출 문제를 해결할 수 있는 핵심 기술을 글로벌 오픈소스로 공개했다고 17일 밝혔다.

 

이번에 공개된 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 정형화된 데이터(JSON, Markdown, HTML)로 변환하는 기술이다. 한컴은 지난 7월 PDF 전문기업 듀얼랩(Dual Lab)과 협력해 해당 엔진을 공동 개발했다.

 

 

공식 벤치마크 결과에 따르면 오픈데이터로더 PDF는 사람의 읽기 순서를 평가하는 NID(Normalized Indel Distance) 지표에서 경쟁 오픈소스 대비 85% 수준의 성능을 기록했다. 또 네트워크 연결 없이 오프라인 환경에서 작동해 금융·공공기관 등 민감한 데이터 활용 시 보안성을 확보할 수 있다.

 

최근 AI 업계의 주요 과제인 데이터 안전성도 반영됐다. 악의적 콘텐츠 삽입을 통한 ‘프롬프트 인젝션(Prompt Injection)’을 탐지·차단하는 기능이 탑재돼 학습 데이터의 안정성과 신뢰성을 높였다.

 

한컴은 향후 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동을 강화하고 깃허브를 통한 글로벌 개발자 커뮤니티와 협업을 이어갈 계획이다. 연말에는 AI 기반 문서 인식 기능을 추가하는 등 오픈소스 프로젝트 고도화도 추진한다.

 

정지환 한컴 최고기술책임자(CTO)는 “오픈소스는 기업과 사회 전반의 혁신을 위한 필수 전략”이라며 “전 세계 개발자와 협력해 PDF 데이터 추출 기술을 글로벌 최고 수준으로 발전시키겠다”고 말했다.



신동현 기자 tlsehdgus735@fetv.co.kr
Copyright @FETV 무단전재 & 재배포 금지





PC버전으로 보기

제호: FETV | 법인명: ㈜뉴스컴퍼니 | 등록및발행일: 2011.03.22 | 등록번호: 서울,아01559 | 발행인·편집인: 김대종 | 주소: 서울특별시 마포구 월드컵북로 59 레이즈빌딩 5층 | 전화: 02-2070-8316 | 팩스: 02-2070-8318 Copyright @FETV. All right reserved. FETV의 모든 컨텐츠는 저작권법의 보호를 받으며, 무단 복제 및 복사 배포를 금지합니다.