더벨'머니투데이 thebell'에 출고된 기사입니다.
크라우드웍스(3,230원 ▼180 -5.28%)는 인공지능(AI) 기술 고도화에 따라 고품질 데이터 수요가 빠르게 늘어남에 따라 최근 수행한 고난도 대규모언어모델(LLM) 학습 데이터 구축 사례를 공개했다고 18일 밝혔다.
이번에 공개된 주요 사례는 △인포그래픽 텍스트 매칭 데이터셋 △텍스트 기반 SQL 파인튜닝 데이터셋 △전문 의학지식 질의응답 데이터셋 등으로 AI 레디 데이터(AI-Ready Data) 등에 대한 높은 수준의 전문성과 데이터 설계 역량이 요구되는 프로젝트다.
단순한 텍스트 수집·라벨링·가공을 넘어서 도메인 전문 지식, 복잡한 논리 구조 분석, 텍스트와 이미지 정보 간의 의미적 일치성 확보 등이 필요하다는 것이 회사 측 설명이다.
대표 사례인 인포그래픽과 텍스트 매칭 데이터셋 프로젝트는 도표·순서도·계층 구조 등 복잡한 시각 요소가 포함된 문서 이미지에서 구성 요소(컴포넌트)와 작업 단계(노드)를 식별하고, 각 요소를 설명하는 의미 단위 텍스트를 생성하는 과업이었다.
크라우드웍스는 데이터 일관성을 확보하기 위해 VLM(Vision-Language Model)을 활용해 이미지 설명문 생성을 자동화하고, 까다로운 검수 과정을 개선하고자 JSON 시각화 툴을 개발했다고 전했다. 그 결과 당초 4개월로 계획된 프로젝트를 3개월 만에 마쳤다..
김우승 크라우드웍스 대표는 "모델 성능은 평준화되고 데이터가 모델을 차별화하는 시대가 되고 있다"며 "크라우드웍스는 고난도 데이터 구축 역량을 바탕으로 산업별 AI 고도화를 지원하고, 기업들이 진정한 데이터 경쟁력을 확보할 수 있도록 앞장서겠다"고 말했다.