
"수능을 잘 보는 것과 일을 잘하는 것은 다르다."
정부가 지난해 2월 '국가대표 AI(인공지능)'를 선발하겠다고 밝힌 지 1년이 지났다. AI업계에선 대기업도 단독으로 감당하기 어려운 규모의 자금을 정부가 지원해 국내 AI 생태계가 활성화됐다고 입을 모은다. 대기업뿐 아니라 스타트업까지 대규모 AI모델 개발 노하우를 축적해 글로벌 진출 가능성을 높였다는 평가다. 이 과정에서 AI 인재양성도 이뤄진다.
비판의 목소리도 있다. 벤치마크 중심으로 평가가 이뤄져 자칫 시험 잘 보는 AI 선발전으로 변질할 수 있다는 우려다. 벤치마크는 AI모델이 특정 문제를 얼마나 잘 푸는지 점수화한 지표로 여러 모델을 비교해 '줄세우기'엔 탁월한 도구다. 그러나 AI모델의 혁신성·효율성, 연구의 난이도까지 평가하진 못한다. 정부도 이를 보완하기 위해 전문가(35점)와 사용자(25점) 평가를 병행하지만 벤치마크 배점이 총 40점으로 가장 높다.
일각에선 AI가 시험을 잘 보도록 족보(평가문제)를 외우게 하는 '벤치마크 오버피팅' 의혹도 제기한다. 현재처럼 6개월마다 AI 성능을 평가하는 구조에선 이런 유혹에 취약할 수밖에 없다는 설명이다. 한 AI업계 관계자는 "모델을 설계해 학습·평가·개선까지 3~4개월 걸리는데 한 번이라도 삐끗하면 다음 평가에서 탈락할 것"이라며 "탈락시 이미지 타격 등을 고려하면 개발사는 가장 안전하면서도 쉬운 선택을 할 수밖에 없다"고 꼬집었다.
각 기업의 자존심을 건 대결인 만큼 불확실성이 큰 도전과제는 국가대표 AI 선발이 완료된 내년 이후로 밀릴 가능성이 높다. 그 사이 글로벌 빅테크(대형 IT기업)는 파괴적 혁신을 거듭한다. 현재 국가대표 AI 선발전은 수능을 기반으로 문제풀이에 특화된 학생을 양산한 '한국식 줄세우기 교육'과 닮았다. 이런 구조에선 선진국의 뒤를 좇는 '패스트 팔로어'는 나올 수 있지만 새로운 길을 여는 '퍼스트 펭귄'을 배출하긴 어렵다. 막대한 예산을 투입하고도 글로벌 경쟁력을 확보하지 못할 수 있다고 우려하는 이유다.
정부는 오는 8월 2차단계 평가에서도 기존 평가의 틀을 유지하겠다고 밝혔다. 국가대표 AI가 '점수경쟁'에 그치지 않도록 혁신성·효율성을 반영한 평가체계로 보완해야 할 때다.
