"숨은 데이터 다 찾는다"…정부, AI 학습 데이터 첫 전수조사

박건희 기자
2026.04.10 12:00
배경훈 부총리 겸 과학기술정보통신부 장관이 지난달 31일 오후 서울 중구 웨스틴조선호텔에서 매닌더 시두(Maninder Sidhu) 캐나다 통상장관과 과학기술 협력방안을 논의하고 있다. /사진=과학기술정보통신부 제공

과학기술정보통신부가 전 부처, 공공기관별로 흩어져 있던 AI 학습용 데이터를 처음으로 전수조사한다.

과기정통부와 한국지능정보사회진흥원(NIA)은 10일부터 'AI 학습용 데이터 현황조사'(AI 학습용 데이터 센서스)를 실시한다고 밝혔다.

각 부처 및 공공기관별로 보유 중인 학습용 데이터의 현황을 파악한 뒤, 향후 가공을 통해 AI 학습에 활용 가능한 데이터를 분류한다.

과기정통부는 AI 기본법 제15조(인공지능 학습용 데이터 관련 시책의 수립 등)에 근거해 전 부처를 대상으로 첫 전수 조사를 실시한다. 이중 AI 학습 활용 가능성이 높은 데이터 100종을 발굴해 'AI 학습용 데이터 통합제공체계'를 통해 연계할 계획이다.

통합제공체계는 공공·민간이 보유한 AI 학습용 데이터를 집적해 누구나 활용할 수 있도록 한 국가 플랫폼이 될 전망이다. 구축을 위해 사업비 약 60억원을 투입한다.

선정된 데이터 100종은 품질 보완, 비식별조치 등의 데이터 가공 작업을 거쳐 제공한다. 온라인 공개가 어려운 경우 '데이터 안심 구역'을 통해 제공한다. 데이터 안심 구역은 '데이터 산업법'에 따라 미개방 데이터를 확인할 수 있도록 기술적, 물리적 보안 대책이 갖춘 시설로 현재 국내 11개 기관에서 14개 구역을 운영 중이다.

김경만 인공지능정책실장은 "이번 조사를 통해 공공부문이 보유하고 있는 AI 학습용 데이터 자산을 체계적으로 발굴하고 이를 편리하게 활용할 수 있는 AI 학습용 데이터 통합제공 기반을 조성하겠다"고 했다.

<저작권자 © ‘돈이 보이는 리얼타임 뉴스’ 머니투데이. 무단전재 및 재배포, AI학습 이용 금지>

관련 기사