수능 푼 AI, 9등급 맞았다…질문 바꿨더니 단숨에 '1등급', 이유는

유효송 기자
2025.11.21 10:31
/사진제공=진학사

생성형 인공지능(AI)이 지시(프롬프트)에 따라 문제 풀이 방식이 극명하게 달라진다는 실험 결과가 나왔다.

진학사 블랙라벨사업부는 2026학년도 대학수학능력시험(수능) 국어 영역 시험지를 챗GPT에게 풀게 한 결과를 21일 발표했다. 같은 모델에 동일한 시험지를 입력했음에도 지시 방식에 따라 성적이 9등급에서 1등급까지 극단적으로 갈리는 현상이 나타났다는 설명이다.

실험에는 'ChatGPT 5.1 오토(Auto)' 모드를 사용했고, 유일한 변수는 지시 방식이었다. 진학사는 △시험지 전체를 이미지로 제공하고 정답만 요구한 A 방식 △문항 세트별 PDF를 제공해 정답만 요구한 B 방식 △PDF 제공과 함께 단계별 풀이를 요구한 C 방식 등 세 가지 방식으로 문제 풀이 결과를 비교했다.

시험지는 2026학년도 수능 국어 영역(홀수형)으로, 공통과목 1~34번(76점)과 선택과목 '화법과 작문', '언어와 매체' 각각 35~45번(24점)으로 구성됐다.

그 결과 '정답만 말해줘'라는 단순 지시만 제공한 A방식에서 GPT는 최소한의 추론만 수행한 것으로 나타났다. A 방식의 점수는 공통 3점, 화법과 작문 5점, 언어와 매체 4점에 그쳤다. 공통+화작 점수는 8점, 공통+언매는 7점으로 모두 진학사 가채점 배치표 기준으로 9등급에 해당하는 성적이다.

문항 세트별 PDF를 제공한 B 방식에서는 공통 39점, 화법과 작문 14점, 언어와 매체 6점으로 성적이 크게 올랐다. 세트별 구조가 추가되면서 일부 추론 과정이 보완됐지만, 여전히 깊이 있는 분석에는 미치지 못한 것으로 평가됐다. 공통+화작은 53점(5등급), 공통+언매는 45점(6등급)으로 중위권 성적을 보인 것이다.

단계별 비교와 근거 제시 등 정밀한 풀이 과정을 요구한 C 방식에서는 성능이 가장 크게 향상됐다. 단순히 '문제를 풀라'는 지시가 아닌 지문과 선지를 읽고 서로 의미를 비교하고, 지문에서 근거가 되는 내용을 확인하라는 구체적인 방향이 제공됐다. 그 결과 공통 74점, 화법과 작문 21점, 언어와 매체 14점을 기록해 총점 95점(1등급)이 나왔다. 그러나 방식 B에서 정답을 맞혔던 문항을 방식 C에서는 오히려 틀리는 사례도 나타났다.

진학사 관계자는 "GPT가 정밀한 절차를 따르는 과정에서 판단 경로가 예상치 못하게 바뀌거나, 제시된 근거를 과도하게 복잡하게 해석해 오류가 발생한 것으로 보인다"고 설명했다.

진학사 블랙라벨사업부 관계자는 "같은 AI 모델이라도 어떤 방식으로 지시하느냐에 따라 성능이 크게 달라진다"며 "AI는 높은 지능을 갖고 있지만 지시를 정교하게 이해하는 능력은 아직 충분하지 않은 만큼 사용자 프롬프트 설계가 성능 차이를 만드는 핵심 요소"라고 말했다.

<저작권자 © ‘돈이 보이는 리얼타임 뉴스’ 머니투데이. 무단전재 및 재배포, AI학습 이용 금지>