2025.10.17 (금)

  • 흐림동두천 15.1℃
  • 흐림강릉 15.7℃
  • 흐림서울 16.5℃
  • 흐림대전 19.4℃
  • 흐림대구 19.1℃
  • 흐림울산 19.5℃
  • 흐림광주 22.1℃
  • 흐림부산 21.7℃
  • 구름많음고창 23.2℃
  • 맑음제주 26.3℃
  • 흐림강화 15.4℃
  • 흐림보은 18.0℃
  • 구름많음금산 19.7℃
  • 흐림강진군 23.0℃
  • 흐림경주시 18.6℃
  • 흐림거제 21.8℃
기상청 제공


IT일반


한컴, PDF 추출 엔진 ‘오픈데이터로더 PDF’ 공개

[FETV=신동현 기자] 한글과컴퓨터(이하 한컴)는 AI 학습 과정에서 난제로 지적돼 온 PDF 데이터 추출 문제를 해결할 수 있는 핵심 기술을 글로벌 오픈소스로 공개했다고 17일 밝혔다.

 

이번에 공개된 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 정형화된 데이터(JSON, Markdown, HTML)로 변환하는 기술이다. 한컴은 지난 7월 PDF 전문기업 듀얼랩(Dual Lab)과 협력해 해당 엔진을 공동 개발했다.

 

 

공식 벤치마크 결과에 따르면 오픈데이터로더 PDF는 사람의 읽기 순서를 평가하는 NID(Normalized Indel Distance) 지표에서 경쟁 오픈소스 대비 85% 수준의 성능을 기록했다. 또 네트워크 연결 없이 오프라인 환경에서 작동해 금융·공공기관 등 민감한 데이터 활용 시 보안성을 확보할 수 있다.

 

최근 AI 업계의 주요 과제인 데이터 안전성도 반영됐다. 악의적 콘텐츠 삽입을 통한 ‘프롬프트 인젝션(Prompt Injection)’을 탐지·차단하는 기능이 탑재돼 학습 데이터의 안정성과 신뢰성을 높였다.

 

한컴은 향후 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동을 강화하고 깃허브를 통한 글로벌 개발자 커뮤니티와 협업을 이어갈 계획이다. 연말에는 AI 기반 문서 인식 기능을 추가하는 등 오픈소스 프로젝트 고도화도 추진한다.

 

정지환 한컴 최고기술책임자(CTO)는 “오픈소스는 기업과 사회 전반의 혁신을 위한 필수 전략”이라며 “전 세계 개발자와 협력해 PDF 데이터 추출 기술을 글로벌 최고 수준으로 발전시키겠다”고 말했다.