더벨'머니투데이 thebell'에 출고된 기사입니다.
크라우드웍스는 과학기술정보통신부(이하 과기정통부)가 추진하는 '독자 AI 파운데이션 모델 프로젝트(국가대표 AI)'에 선정된 5개 개발팀이 활용할 공동 데이터 공급기업으로 지원한다고 5일 밝혔다.
과기정통부는 지난 4일 국가대표 AI 개발 사업에 선정된 5개 개발팀(네이버, LG AI연구원, NC AI, SK텔레콤, 업스테이지)을 선정했다. 이들은 정부로부터 전방위적 지원을 받게 된다. 데이터 분야에서는 5개 팀에 데이터 공동구매(100억원), 팀별 데이터셋 구축(28억원), 고품질 방송영상 데이터(200억원) 등 지원이 예정돼 있다.
이와 관련해 크라우드웍스는 5개 개발팀이 AI 개발에 활용할 공동 데이터 제공에 나선다. 한국데이터산업진흥원(K-DATA)에 공급 기업으로 서류 제출을 마쳤다. 적격성 검토를 마치면 5개 정예팀에게 데이터를 판매할 수 있다.
품질과 신뢰성을 안정적으로 확보한 고품질 데이터를 무기로 삼았다. 여기에는 저작권 문제를 해결한 'STEM 데이터셋'이 포함된다. STEM 데이터셋은 과학(Science), 기술(Technology), 공학(Engineering), 수학(Mathematics) 등 고차원적 전문 지식이 담긴 데이터셋이다. 이밖에 국내 최다 규모 도서 데이터셋, 국내외 뉴스 데이터, 국어학 데이터 등도 갖췄다.
모든 데이터는 크라우드웍스가 직접 구축하거나 자체 검수 시스템을 통해 전문성과 품질을 검증한 것으로 데이터 정확도와 신뢰도를 높인 것이 특징이다. 이를 바탕으로 개발팀의 개발 방향에 따라 맞춤형 데이터셋 공급이 가능하다는 점도 큰 강점으로 작용한다.
김우승 크라우드웍스 대표는 "AI 모델의 성능은 결국 데이터를 기반으로 결정된다"며 "국내외에서 인정받은 데이터 품질과 전문성을 바탕으로, 개발팀의 성공적인 AI 모델 개발에 기여할 수 있기를 기대한다"고 말했다.