데이터 기반 새로운 선거 시대 열리다

● 토픽 2012. 4. 23. 08:53 Posted by SisaHan

데이터 모아 유권자 행동특성 분석
후보들 지난 연설·토론도 한 눈에
 
지난 선거자료 지도에 입체 시각화
SNS기반 선거 데이터들도 쏟아져

2012년은 한국과 미국 모두 중요한 선거의 해다. 기존의 선거와 차이가 있다면 데이터를 기반으로 한 선거가 더욱 활발하게 이뤄진다는 점이다. 선거는 후보자와 유권자 사이의 상호작용으로, 서로의 마음을 얻어야 하는 이 과정에서 데이터의 역할은 날로 중요해지고 있다. 지난 4.11 제 19대 국회의원 선거를 시작으로 11월 미국 대통령 선거, 12월 한국 대통령 선거 과정의 다양한 데이터 분석·시각화 사례는 올해 선거의 중요한 관전 포인트다.

“우리는 통계학자, 예측 모델 전문가, 데이터 마이닝전문가, 수학자, 소프트웨어 개발자, 일반 분석가와 기획자로 구성된 다분야 융합팀입니다. 우리와 함께 일할 예측 모델 전문가와 데이터 마이닝 과학자, 그리고 분석가를 찾고 있습니다.” 
이것은 과학 기술 분야 연구소의 구인 공고가 아니다. 오는 11월에 있을 미국 대통령 선거에서 재선을 노리며 준비하고 있는 오바마 대통령의 선거본부가 작년 7월 내놓은 구인 공고의 일부다. 오바마 대통령의 선거본부에서는 대체 무슨 일을 하기에 선거와 크게 관련 없어 보이는 이런 생소한 전문가들을 찾는 것일까?
 
시카고에 차려진 오바마 대통령 선거본부에서는 완전히 공개되지 않은 두 가지 프로젝트를 진행 중이다. 프로젝트 이름이 재밌다. 각각 ‘드림캐쳐(dreamcatcher)’와 ‘외뿔고래(Narwhal)’다. ‘드림캐쳐’는 현재 오바마 정부의 정책이 유권자 자신의 삶에 어떤 영향을 미쳤는지 자유롭게 기술한 텍스트 데이터를 모으고 분석하는 프로젝트다. 유권자들이 다양한 방식으로 기술한 이야기는 유권자 한 명 당 최소한 6만 개 이상의 단어로 구성된 텍스트이며, 오바마 선거본부에서는 현재 수백만 명 분량의 데이터를 가지고 있는 것으로 알려졌다. 오바마 선거본부 데이터팀에서는 이러한 방대한 분량의 텍스트 데이터를 모아 유권자의 기대와 소망을 데이터 마이닝(data mining: 대규모 데이터를 체계적으로 분석해 데이터 안에 숨겨져 있는 통계적 규칙이나 패턴을 찾아내는 것) 기술을 이용해 분석하고, 이를 유권자 개개인에게 최적화한 새로운 선거 전략을 반영하는 작업을 하고 있다.
 
‘외뿔고래’는 유권자의 행동 특성을 분석하는 프로젝트다. 유권자의 온라인 활동, 과거의 투표 행동, 선거 자금 기부 행태, 선거 운동 자원봉사 패턴 데이터 등을 유기적으로 분석해 유권자들의 정보를 입체적으로 구성하는 작업을 수행하고 있다. 앞서 소개한 생소한 구인 공고가 필요했던 이유가 여기에 있다. 오바마 선거본부는 올해 재선을 노리며 이처럼 데이터 기반의 새로운 선거 전략을 철저하게 준비하고 있던 것이다. 이러한 데이터 기반 선거 운동을 위해 공식 직함이 ‘수석 과학자’인 레이드 가니(Rayid Ghani)가 이 모든 작업을 총괄하고 있다. 
데이터 기반 선거는 비단 선거를 준비하는 후보자 진영에만 국한된 주제는 아니다. 후보를 지지하고 표를 행사하는 유권자도 데이터 기반 선거에 주인공으로 참여하고 있다. Politilines 서비스(http://politilines.periscopic.com)가 바로 대표적인 예다.
 
Politilines은 CNN 방송 자료와 UC 산타바바라 대학교의 미 대통령 선거 관련 데이터베이스인 ‘The American Presidency Project’의 데이터를 기반으로, 2011년부터 2012년 2월까지 공화당의 대선 후보를 결정하는 경선 과정에 참여한 후보들의 토론 주제와 키워드를 쉽게 비교·분석할 수 있는 서비스다. 이 서비스는 근 2년간 여러 후보가 토론 과정에서 말한 모든 문장을 일정한 알고리즘으로 분석해 후보와 주요 키워드 간의 상관관계가 명확히 드러나는 데이터 형태로 가공하고 조직화했다. 단순히 텍스트 형식의 데이터로 제공하는 것이 아니라, 복잡한 데이터를 더 직관적이고 효율적으로 탐색할 수 있도록 인터랙티브 형태로 시각화했다. 이를 통해 유권자들은 언제, 어떤 후보가, 어떤 주제를 놓고, 어떤 단어를 중심으로 서로 토론을 벌이고 주장을 펼쳐 나갔는지 쉽게 알 수 있다. 
 
한국에서도 지난 총선과 18대 대통령선거를 앞두고 데이터를 기반으로 한 선거 흐름이 다양하게 나타나고 있다. 데이터 기반 선거의 핵심인 과거 선거 데이터 분석 과정에서도 이러한 움직임이 두드러진다. 연합뉴스 미디어랩에서 제작한 17·18대 국회의원선거 인터랙티브 데이터 지도가 그 대표적인 예 중 하나다. 이 데이터 지도는 전국 1만 3,167곳(17대)과 1만 3,246곳(18대)의 투표소에서 2,158만 1,550명(17대), 1,741만 5,666명(18대)의 투표자가 만들어낸 선거 데이터를 지리정보시스템(GIS)과 연결해 실제 지도상에 입체적으로 시각화한 것이다. 이를 통해 이용자는 다양한 조건을 조합해 17·18대 국회의원선거를 다각도로 조망해 향후 선거의 기반 자료로 이용할 수 있다. 인터랙티브 데이터 시각화가 아니었다면 한 번에 대용량 데이터를 조망하고 분석하는 일은 불가능했을 것이다.
 
SNS와 모바일 환경을 기반으로 한 선거 관련 데이터도 많이 쏟아져 나오고 있다. 또 이를 이용한 데이터 기반 선거 정보 서비스도 언론사들과 각 포털 사이트를 중심으로 이뤄지고 있다. 특히 트위터나 페이스북, 미투데이와 같은 소셜미디어 상의 데이터를 대상으로 이뤄지는 사회관계망 분석(social network analysis)과 시각화는 이번 국회의원선거에 이어 대통령선거에도 중요한 선거 데이터 분석·시각화 사례로 주목받을 전망이다. 데이터 기반의 새로운 선거 시대가 시작된 것이다.