국내 최초 인공지능(AI) 기반 한글 타자기록 문자인식 기술 개발

2020년 12월 22일 by finance-info-news

    목차 (Content)
반응형

국내 최초 인공지능(AI) 기반 한글 타자기록 문자인식 기술 개발 

- 국가기록원, 인공지능 스타트업 기업과 연구개발 통해 이용자 접근성 확대 -

 1960년대부터 1990년대까지 정부에서 주로 사용되었던 타자기록을 쉽고 간편하게 검색하고 활용할  있게 된다. 

 국가기록원은 딥러닝 기반으로  22 개의 한글 타자체 단어를 학습시켜 국내최초로 비전자 타자기록의 인공지능(AI) 문자인식(OCR)* 기술 개발에 성공하였다고 밝혔다.

    * 사람이 쓰거나 기계로 인쇄한 문자의 이미지를 기계가 읽을 수 있는 문자로 변환하는 기술 

  이러한 기술은 국가기록원이 20 연구개발 사업의 일환으로 인공지능 스타트업기업과 협업하여 수행한 「소장기록물 특성을 고려한 OCR 인식 성능 개선방안 연구」 과제를 통해 개발되었다.

 국가기록원은 그동안 문서를 이미지로 스캔한 파일을 제공해왔으나, 문서내용 검색에는 한계가 있어 이용자들의 불편이 있었다. 

  특히 기존의 문자인식 기술은 활자체에 최적화되어 있어, 사람이 손으로 쓰거나 타자를 이용하여 작성된 문서의 경우에는 효과가 크지 않았다.

  타자기록은 1950년대에 최초로 세벌식 타자기가 양산되면서 정부의 공문서 작성에 쓰이기 시작했으며, 1969년에 네벌식, 1982년에 두벌식 자판이 사용되는 글꼴이 매우 다양하고 시각적으로 활자체와 차이 있어 기존의 기술로는인식성능이 떨어진다.

 

 이번 개발에 사용된 학습데이터는 19601990년대까지 재무부, 외무부, 건설교통부 등에서 생산한 도시계획, 경제계획 문서와 국무회의, 경제장관회의 등의 회의록 각종 법령 등을 대상으로 하고 있다.

  올해는 1단계로 공공기관에서 컴퓨터가 보급되기 이전에 주로 사용해 왔던 타자기록에 대해 문자인식 연구를 추진했다. 

   결과, 기존의 문자인식 기술과는 달리 문자탐지와 문자인식의 2단계로 구성된딥러닝 기반의 인공지능 문자인식 모델을 개발하여 학습 속도를 개선하고 인식성능을 90% 이상 획기적으로 높였다.

 앞으로 국가기록원은 문자인식 기술을 적용·발전시켜 국민들이 보다 쉽고 편리하게기록물을 활용할  있도록 비전자 기록물의 원문 검색  색인 등의 정보 활용서비스에 확대 적용 계획이다.

  아울러, 이번에 구축된 학습데이터는 국가기록원 누리집을 통해 공개될 예정이다.

(예시) 1973년 외무부 기안문, 문자인식 전·후 비교표

 

 

문자인식 전

문자인식 후

 안경원 국가기록원장 직무대리는 “이번 연구를 통해 개발된 기술은 국가기록원의기록물 접근성 향상에 기여했다는 점에서  의미 있다.”며 “국가기록원은 앞으로도 인공지능 기술 등의 접목을 통해 국민들이 필요한 서비스를 제공  있도록노력하겠다.”라고 밝혔다.

 

참고1

 

 한글 타자기록 문자인식 기술 개발 추진개요

□ 추진배경

  국가기록원은 정부 부처에서 주로 19601990년대까지,  40 동안 생산한타자기록 11만권* 이상 보유

     * 1960년대 1.9만권, 1970년대 3.9만권, 1980년대 2.8만권, 1990년대 2.7만권 보유

  타자기록은 활자체에 최적화된 기존 문자인식* 기술의 한계로 단어 검색이 안되는스캔 이미지로 제공되는  문자인식 성능개선 필요

     * 문자인식(Optical Character Recognition, OCR) : 사람이 쓰거나 기계로 인쇄한 문자의 이미지를 기계가 읽을 수 있는 문자로 변환하는 기술

□ 추진 내용

  (인식대상) 19601980년대 재무부, 외무부, 건설교통부 등에서 생산한 타자기록 1,970 (전체 22 단어)

  (인식방법) 데이터 수집  데이터 라벨링  텍스트 전사  OCR모델 학습

     데이터 수집 : 타자기록의 스캔 이미지 선별

            * 생산년도·생산기관 등 다양하게 포함

     데이터 라벨링 : 인식대상 기록물의  단어를 감싸는 바운딩박스 생성

     텍스트 전사 : 작업자가  바운딩박스  텍스트  입력

     OCR모델 학습 : 딥러닝 기반으로 22 단어를 학습시켜 OCR모델 인식성능 개선

       

 

 

 

 

데이터 수집

데이터 라벨링

텍스트 전사

OCR모델 학습

출처 : 행정안전부 

반응형

댓글