[야고부] 표본 선택 편의

입력 2016-01-23 00:01:00

통계학에 '표본 선택 편의'라는 용어가 있다. 전체를 아우르지 못하는 표본을 선정해 발생하는 잘못된 결과를 가리킨다. 대표적인 예가 1936년 미국 대통령 선거 결과의 예측이다. 당시 대중잡지 '리터러리 다이제스트'는 1천만 명, 여론조사 기관인 갤럽은 5만 명을 표본으로 선정해 설문조사를 했다. 전자는 공화당의 랜던 후보. 후자는 민주당 루스벨트 후보의 당선을 예측했다.

표본의 규모로 보아 리터러리 다이제스트의 조사가 더 정확할 것 같았지만, 선거 결과는 리터러리 다이제스트의 완패였다. 루스벨트가 62%의 압도적 지지로 당선한 것이다. 그 원인은 잘못된 표본 추출이었다. 리터러리 다이제스트는 표본의 대부분을 정기 구독자 중에서, 나머지는 자동차등록부, 사교클럽 인명부, 전화번호부에서 임의로 선정했다. 당시에 잡지를 정기 구독하거나, 자동차와 전화를 갖고 있거나, 사교클럽 회원이라면 중산층이었다. 설문조사에서 공화당 지지가 높게 나온 것은 당연했다.

이는 비의도적인 실수이지만, 일부러 그렇게 하는 경우도 흔하다. 경제 현실을 호도하기 위한 정부 기관의 통계 조작이 바로 그렇다. 그 방법은 조사해야 할 것은 빼고, 빼야 할 것은 넣는 것이다. 구직포기자를 비경제활동인구로 분류해 실업률을 실제보다 낮추는 수법이 이에 해당한다. 이 수법은 1961년 케네디 정부가 처음 개발했다고 한다.

물가상승률 역시 이런 수법으로 얼마든지 낮출 수 있다. 레이건 행정부가 인플레 산정 기준에서 주택값을 빼고 임대료를 넣은 것이 그런 경우다. 임대료가 매매가보다 낮으니 소비자물가 지수가 체감 물가보다 낮게 수치화되는 것은 당연하다.

중소기업청이 벤처기업의 성장을 부풀려 대통령에게 보고했다는 의혹이 일고 있다. 국내 벤처기업 가운데 매출액 10억원 이하는 48.4%, 100억원 초과는 10.4%인데 중소기업청은 10억원 이하에서 20.1%, 100억원 초과에서 26.9%를 표본으로 추출해 전체 매출액을 산정했다. 규모가 큰 기업은 조사 대상에 실제보다 더 많이 포함시키고 영세 업체는 확 줄인 것이다.

누가 봐도 의도적인 표본 왜곡이다. 이 보고를 근거로 박근혜 대통령은 지난 13일 대국민담화에서 '창조경제'의 성과를 자랑했지만, 관료들의 '통계 마사지'에 속은 것은 아닌지 모르겠다.

최신 기사