0과 1의 빅데이터로 민심 톺아보기

0과 1의 빅데이터로 민심 톺아보기

테크M 조은아 기자
2015.12.13 05:02

총선 레이스, 데이터 분석 어떻게?

제20대 국회의원선거가 5개월도 채 남지 않은 지금, 민심은 어디로 움직이고 있을까.

버락 오바마 미국 대통령이 빅데이터를 활용한 마이크로 타겟팅으로 대선을 승리로 이끈 후 빅데이터는 민심을 읽고 선거 전략을 짜는 수단으로 주목받았다. 국내에서도 2012년 대선 당시 소셜네트워크서비스(SNS) 데이터를 바탕으로 한 선거 분석 시도가 화제가 됐다. 하지만 국내 선거판에서 빅데이터 분석은 세간의 기대에 못 미쳤다.

관련 업체가 우후죽순 생겼지만 대부분 업체가 선거 분석 서비스를 포기했다. 2014년 지방선거 당시 빅데이터 분석 서비스를 제공한 곳은 와이즈넛, 코난테크놀로지, 다음소프트 정도에 불과했다. 실시간 검색어와 데이터 분석이 중요한 선거 분석 서비스 특성상 별도 운영팀이 필요한데 투자비용 대비 성과가 크지 않다는 점이 걸림돌이었다.

선거 분석의 시작은 자연어 처리

그럼에도 불구하고 빅데이터 기반 선거 분석기술은 발전하고 있다. 2016년 선거전에서는 좀 더 업그레이드된 빅데이터의 힘을 볼 수 있을 것으로 기대된다.

빅데이터 기반 선거 분석을 위해서는 데이터 수집이 먼저다. 초기에는 트위터와 언론사 뉴스에만 의존했지만 이제는 블로그, 카페 같은 커뮤니티의 데이터도 수집한다. 코난테크놀로지의 경우 수집한 데이터 수가 2013년 이후 누적 기준 약 40억 건에 달한다.

코난테크놀로지 측은 “2012년 서비스를 선보였을 당시 데이터 분석 품질에 대한 문제 제기가 있었다”며 “SNS나 온라인 콘텐츠는 실시간 기하급수적으로 데이터양이 늘어나는데 이런 데이터가 즉각 반영되지 않아 정확성이 떨어질 수밖에 없었다. 지금은 어느 정도 개선된 상태”라고 설명했다.

수집한 데이터는 주요 후보자별 키워드에 따라 분류한다. 후보자와 관련된 주요 이슈어를 뽑아내는데 이때 중요한 것은 데이터를 조각내는 것이다. 우리말은 주어, 목적어, 서술어로 된 기본 형태에 조사가 붙고 어미에 따라 형태가 다양하게 변한다. 예를 들어 ‘인천국제공항’을 키워드로 찾으면 ‘인천’, ‘국제’, ‘공항’으로 추려져야 하는데 엉뚱하게 ‘천국’이 포함된 정보가 끼어들 수 있다. 이를 위해 1차적으로 형태소 사전에 따라 검열해 유의미한 데이터가 나오도록 걸러낸다. 이때 띄어쓰기나 오타 교정도 함께 진행한다.

분석 주제에 맞는 데이터를 뽑아내기 위해서는 동의어 처리가 무엇보다 중요하다. 철자를 잘못 쓴 경우나 온라인 신조어도 빠지지 않도록 동의어 사전을 만들어두는 것이다. 예컨대 ‘치킨’의 경우 온라인상에서 널리 쓰이는 ‘칙힌’, ‘치느님’으로도 추려져 실제 분석에 필요한 데이터를 놓치지 않는다. 정치인의 이름 역시 다양한 동의어 사전 데이터베이스(DB)를 구축해둔다. ‘박근혜’의 경우 ‘박그네’와 같이 소리 나는 대로 적은 표기도 동의어로 처리하는 식이다.

김예슬 코난테크놀로지 기업영업팀 담당자는 “빅데이터 기반 선거 분석은 누굴 뽑았는지 답변을 유도하는 출구조사와 같은 기존의 선거 예측 서비스와 분석 대상 자체가 다르다”며 “다만 실제 투표와 근접한 결과치를 낼 수 있도록 키워드를 설정하는 데 공을 들인다. 당선 유력 후보자에 대한 사실적인 근거 수치를 제시할 수 있도록 신경 쓰고 있다”고 설명했다.

형태소 분석 기술을 이용해 키워드와 같이 언급된 단어도 함께 분석한다. 일간, 주간, 월간 등 시기별로 해당 후보를 언급한 데이터(버즈량)를 비교해 관계를 살핀다. 총선을 키워드로 삼았을 때 새누리당, 새정치민주연합이 같이 언급된 정도가 각각 어느 정도인지 분류에 따른 점유율을 살피는 것이다. 과거에는 단순히 언급량만 비교했지만 이제는 언급한 내용이 긍정적인지 또는 부정적인지에 대한 분석도 가능하다. 이때 정확성을 높일 수 있도록 반어법에 따른 표현도 걸러내 반영한다.

선거 분석 서비스를 제공하는 업체들의 분석 시스템은 여기까진 대동소이하다. 차별화 포인트는 동의어 DB 시스템과 긍.부정 분석을 얼마나 정교하게 하는지에 달려있다. 단순히 긍정, 부정만 따지는 것이 아니라 중립 여부까지 살펴 단계별 분석결과를 보여주는 식이다.

개인정보보호법 탓에 정교한 분석 어려워

아직 국내 빅데이터 기반 선거 분석시장은 갈 길이 멀다. 이환옥 와이즈넛 디노클팀장은 “트위터를 비롯한 SNS의 주요 이용자는 대부분 20~40대여서 국민 전체의 여론이라고 보기 어렵다. 특히 정치적인 부분에서는 침묵하는 다수가 더 많기 때문에 한계가 있다”며 “하지만 여론으로 발전할 수 있기 때문에 무시할 수만은 없으며, 만약 여기에 폐쇄형 SNS에서 오가는 내용까지 분석된다면 좀 더 최적화된 서비스가 가능해질 것”이라고 설명했다. 게다가 개인정보보호법상 선거 분석에 필요한 지역별, 나이별 정보를 수집할 수 없다. 해외의 빅데이터 선거 활용사례 역시 특정 사이트와 협약을 맺고 진행됐다. 개인정보보호법의 제약이 완화된다면 개인화 분석이 가능해져 선거 결과 예측도 더 정확해질 것으로 보인다.

민경희 코난테크놀로지 마케팅팀 과장은 “선거용 빅데이터 분석 서비스는 크게 선거 전략을 세우거나 결과 예측을 하는 두 가지 측면에서 이뤄지고 있다”며 “현재 서비스는 전자에 활용되는 것이 맞는 것 같다. 후자는 동향을 살피는 차원에서 확인할 수 있을 것”이라고 설명했다. 즉, 공약을 세울 때 최근 이슈를 반영해 검토할 수 있는 근거 자료로 활용하는 것이 가능하다.

과연 내년 총선에서 빅데이터는 어떤 메시지를 전달하게 될까. 세월호 사고, 메르스 사태, 역사교과서 국정화 논란 등 굵직굵직한 이슈가 이어지며 혼돈의 정국이 계속되는 가운데 0과 1의 세상에서 그 답을 찾을 수 있을까?

▶미래를 여는 테크 플랫폼 '테크엠(테크M)' 바로가기◀

▶어릴 적 감성을 간직한 당신에게① 조종 본능을 살려라

▶우주개척 새 역사 쓴 블루오리진과 스페이스X의 경쟁

▶기다렸던 시장 VR…승부는 플랫폼과 콘텐츠에서

▶테슬라 CEO, 엘론 머스크의 삶과 말말말

▶세그웨이에서 전기자전거까지 나만의 이동수단

<저작권자 © ‘돈이 보이는 리얼타임 뉴스’ 머니투데이. 무단전재 및 재배포, AI학습 이용 금지>

공유