[경제칼럼] 빅 데이터(Big Data)는 만능인가

입력 2012-12-12 07:28:13

대선이 며칠 남지 않았다. 언론 및 여론조사기관들은 후보자들의 지지율 조사를 매일 발표하다시피 하며 차기 대통령이 누가 될 것인가에 대한 예측을 하고 있다.

우리나라와 마찬가지로 올해 대선을 치른 미국에서는 네이트 실버라는 청년이 정확한 대선 결과 예측을 내놓아 눈길을 끌었다. 그는 최근 주목받고 있는 빅 데이터와 통계이론을 이용해 매우 정확한 대선 예측을 해냈다. 그가 사용한 데이터는 여론조사기관에서 발표한 조사결과들은 물론 미국의 각 지역별 이라크전 철군 지지도 등 인터넷에서 얻을 수 있는 방대한 양의 관련 조사결과들이었다.

이처럼 방대한 자료와 그에 필요한 분석기법을 사용해 예측하는 것을 빅 데이터(Big Data) 예측이라고 부른다.

빅 데이터란 과거에는 저장되지 않았거나 저장되었더라도 컴퓨터의 처리 속도나 저장 용량의 한계로 인해 분석되지 못하고 버려졌으나 기술 발달로 분석, 저장이 가능하게 된 방대한 양의 데이터를 말한다. 그 전형적인 예로 트위터나 페이스북 등을 통해 수많은 사람들이 매일 쏟아내고 있는 방대한 양의 데이터나 30억 개의 염기쌍으로 구성된 인간의 유전자 염기서열 데이터 등을 들 수 있다.

사람들이 빅 데이터 예측을 하고 싶어하는 분야는 다양하다. 영화 '마이너리티 리포트'처럼 범죄자가 언제, 어디서, 어떻게 범죄를 저지를 것인지를 예측해 범죄가 일어나기 전에 미리 방지하는 것을 목표로 할 수도 있다. 실제 작년 7월 미국 캘리포니아에서 컴퓨터 프로그램 예측을 통해 미리 출동한 경찰이 자동차 절도범을 현장에서 체포하기도 했다.

또한 기업 관련자들은 고객들의 구매 패턴과 관련된 데이터를 분석해 고객들이 필요한 상품을 추천하거나 SNS에 올라온 소비자들의 글을 분석해 신제품을 개발하고, 제조 공정에 설치된 센서로부터 수집한 데이터를 분석하여 제품 불량 원인을 찾아낼 수도 있다. 신입사원의 전공이나 인'적성 관련 데이터를 분석하여 일을 잘할 수 있는 부서에 배치하기를 희망한다.

빅 데이터 예측은 이와 같이 다양한 분야에서 중요한 역할을 할 것으로 기대되긴 하지만 여러 가지 문제도 갖고 있다. 특히 너무 많은 데이터가 생성되는 관계로 필요한 데이터를 찾아내기 어려울 뿐만 아니라 이를 제대로 분석하고 예측하기는 더욱 어려워질 가능성이 있다.

다음과 같은 이야기는 기술적 관점에서 빅 데이터 분석이 가질 수 있는 문제를 잘 드러내고 있다. 어느 증권회사에서 회사의 주가 예측 능력의 정확함을 설명하기 위해서 고객들 중 반에게는 내일 주가가 오른다고, 나머지 반 사람들에겐 주가가 하락한다고 예측하는 메일을 보낸다고 하자. 그러면 당연히 둘 중 한 그룹은 올바른 예측 결과를 받게 될 것이다. 그 다음날, 올바른 예측 결과를 받은 그룹을 대상으로 또다시 그중 반에게 다음날의 주가 상승을, 나머지 반의 사람들에는 주가 하락을 예측하는 메일을 보낸다면 그 두 그룹 중 한 그룹은 이틀 계속해서 정확한 예측 결과를 받게 될 것이다. 이러한 절차를 10일 동안 반복하면 10일 모두 정확한 예측 결과를 받게 되는 작은 그룹이 생길 것이며 이 그룹의 사람들은 해당 증권회사의 정확한 예측능력에 놀라워하게 될 것이고, 회사의 주가 예측 능력을 광고하는 데 기꺼이 참여하려 할 것이다.

위의 이야기는 의미 없는 랜덤예측기법을 사용한다고 해도 데이터가 방대한 경우 (무수히 많은 고객들) 일부분의 선택된 데이터들(10일간 계속하여 정확한 예측 결과를 받게 되는 그룹에 속한 고객들)에 대해 매우 만족스러운 결과를 제공할 수 있다는 점을 보여주고 있다.

빅 데이터 분석에서 이와 같은 경우가 발생할 확률이 높은데 이를 방지하기 위해서는 어떻게 해야 할까? 가장 기본적인 해결책은 빅 데이터 예측 기법 및 결과를 기존에 알려진 이론이나 결과와 항상 비교 확인하는 절차를 거치는 것이다. 이를테면 새로 사용한 빅 데이터 분석 기법이 기존의 통계 이론과 어긋나지 않는지, 예측결과가 실제 상황과 얼마나 일치하는지를 면밀하게 검토(reality check)하는 과정이 반드시 필요하다.

현재의 기술 및 실제 상황을 무시한 채 빅 데이터 예측에 대해 지나친 기대와 환상을 갖는 것은 빅 데이터 예측을 하고자 하는 사람들이 항상 경계해야 할 부분이다.

김태윤/계명대 통계학과 교수

최신 기사