유리벽으로 둘러싸인 샌프란시스코의 회의실에서 뉴턴 쳉은 노트북의 버튼을 클릭하여 인공지능 프로그램의 복사본 1000개를 실행했다. 각각의 복사본에는 특별한 지시가 있었다. 컴퓨터나 웹사이트에 해킹하여 데이터를 훔치라는 것이었다.
"인공지능이 소스 코드를 보고 있어요," 쳉이 실행 중인 복사본 하나를 살펴보며 말했다. "취약점이 어디 있는지, 어떻게 이용할 수 있는지 파악하려는 거죠." 몇 분 안에 AI는 해킹이 성공했다고 알렸다.
"우리의 접근법이 완벽하게 성공했습니다." AI가 보고했다.
쳉은 실리콘밸리에서 손꼽히는 AI 스타트업 앤트로픽에서 일하며, '프런티어레드팀'이라고 불리는 부서의 사이버보안 테스트를 담당하고 있다.
가상의 타깃에 대해 수행된 이러한 해킹 시도는 앤트로픽의 최신 AI 모델이 매우 위험한 일들을 얼마나 잘 수행할 수 있는지 알아보기 위해 2024년 10월에 팀이 실행한 수천 개의 안전성 테스트 중 하나였다.
2022년 챗GPT의 등장은 AI가 곧 인간의 지능을 능가할 수 있다는 공포를 불러일으켰다. 그러한 능력으로 초인적인 해악을 끼칠 수 있는 잠재성도 따라왔다.
테러리스트들이 AI 모델을 사용하여 백만 명을 죽일 수 있는 생물학 무기를 만드는 법을 배울 수 있을까? 해커들이 이를 이용해 수백만 건의 사이버 공격을 동시에 실행할 수 있을까? AI가 스스로를 재프로그래밍하고 심지어 자가 복제까지 할 수 있을까?
그럼에도 기술은 계속해서 앞으로 나아갔다. 미국에는 기업들이 AI 안전성 평가를 수행하거나 받도록 요구하는 구속력 있는 규칙이 없다.
지금까지는 기업들이 자체적으로 안전성 테스트를 수행하거나 외부 테스트를 받았으며, 얼마나 엄격해야 하고 잠재적 위험에 대해 어떻게 대처해야 하는지에 대한 기준도 자발적이었다.
(계속)
PADO 웹사이트(https://www.pado.kr)에서 해당 기사의 전문을 읽을 수 있습니다. 국제시사·문예 매거진 PADO는 통찰과 깊이가 담긴 롱리드(long read) 스토리와 문예 작품으로 우리 사회의 창조적 기풍을 자극하고, 급변하는 세상의 조망을 돕는 작은 선물이 되고자 합니다.