쿠팡 전직원(공격자)이 정보를 유출한 방식은 크롤링이다. 크롤링은 인터넷에 공개된 웹페이지나 앱 등에서 필요한 정보를 자동으로 수집하는 기술이다. 인터넷상의 로봇이 웹페이지를 돌아다니며 알아서 목록을 만들어 데이터를 쌓는 것으로 이해하면 쉽다.
사람이 직접 웹사이트를 하나씩 열어서 복사하고 필요정보를 정리하는 대신 프로그램이 웹에 접속해 정해진 규칙대로 정보를 가져오다 보니 빠른 시간 내 다량의 데이터를 확보할 수 있다. 공격자 역시 공격 스크립트를 작성해 자동으로 개인정보를 끌어모은 것으로 보인다.
10일 과학기술정보통신부와 민관합동조사단이 '3367만여건 개인정보 유출' 외에 1억4000만여건의 조회수를 들고 나온 이유기도 하다.
조사단은 내 정보 수정 페이지에서 이용자 정보 3367만3817건이 유출됐다고 했다. 그러나 △배송지 목록 페이지(1억4805만회) △배송지 목록 수정페이지(5만474회) △주문목록 페이지(10만2682회)에선 조회수를 언급했다.
크롤링 기법을 썼기 때문에 해당 웹페이지에 있던 정보는 모두 탈취됐을 것으로 보고 조회수를 따진 것이다. 조회수는 곧 공격자의 공격횟수기도 하다. 쿠팡 회원뿐 아니라 비회원의 개인정보도 빠져나갔을 것으로 추정된다.
실제 공격자는 지난해 11월16일과 25일 2차례 쿠팡에 개인정보를 탈취했다는 이메일을 보내면서 1억2000만개 이상 배송주소 데이터, 5억6000만개 이상 주문데이터, 3300만개 이상 이메일주소 데이터를 모았다고 적었다.
또 공격자는 개인정보 유출을 위해 2313개 IP(인터넷 프로토콜)주소를 사용한 것으로 조사됐다. 웹크롤링 도구에 VPN(가상사설망)을 연결해 다량의 IP로 대규모 정보를 끌어모았을 수 있다.
최우혁 과기정통부 네트워크실장은 이날 브리핑에서 "(공격자가) 1억4000만여건을 조회했고 그 조회정보는 명확히 유출된 것으로 본다"면서 "개인정보보호위원회(개보위)나 경찰청도 우리와 숫자를 동일하게 보고 있다"고 말했다.
이동근 민관합동조사단 부단장은 "배송지 목록 페이지에 본인이 등록한 주소들이 등록돼 있는데 굉장히 많다. 그 페이지를 1억4000만회 들어간 것"이라며 "이 정보들을 다 추려내고 발라내야 해서 세세한 유출건수는 개보위가 발표할 예정"이라고 밝혔다.
다만 조회수가 의미 없다는 지적도 있다. 이는 중복 카운팅된 것으로 1억여개 개인정보가 나갔다는 뜻은 아니다.
김용대 카이스트 전기전자공학부 교수는 "접근권한이 있으니까 해커가 개인정보에 접근했던 것이고 그 수법이 웹크롤링이었던 것뿐"이라며 "쿠팡의 가장 큰 문제는 퇴직자에게서 인증키 회수를 안한 것"이라고 짚었다. 그러면서 "개인정보가 유출된 것은 맞지만 실제 피해정도는 입증하기 어려울 것같다"고 했다.