빅데이터 : 통계 안에서도 의미 있는 존재로

[몽글이의 과학다반사]

통계(statistics)는 관심을 가지는 대상을 알기 위해 자료를 모으고 분석하고 상관관계를 찾고 이를 알기 쉽게 표현하는 수학의 한 분야다. 일상생활에 밀접한 영향을 줄 뿐만 아니라 많은 의사결정에 통계는 중요한 역할을 하고 있다. 가장 실용적인 수학의 영역이고 컴퓨터를 비롯한 계산 과학의 발전으로 통계의 모든 영역은 빠르게 발전하고 있다. 그러나 통계가 말해 주는 많은 정보들이 우리가 정말 믿을 만한 내용인지 개인의 중요한 결정을 하는 데 충분한 근거를 가질 수 있는지 알기 위해서라도 통계에 대해 조금 다른 시선으로 살펴볼 필요가 있다.

1. 작년 대비 이혼율이 7퍼센트 늘었고 2000년대 이후 이혼율은 꾸준히 늘었다.
2. 스웨덴의 성범죄 비율은 유럽에서 가장 높다.
3. 시카고의 모 종합병원의 환자 사망률은 세계 최고를 기록했다.
4. 췌장암 수술환자의 5년 생존율이 지난 10년 비해 2배 이상 늘었다.

이와 같은 통계 자료들은 일상생활 특히 뉴스에서 자주 접하게 된다. 이혼율이 증가했다는 뉴스를 접하는 많은 사람들은 다양한 반응을 보인다. 어떤 할머니는 요즘 젊은이들은 참고 살지 못한다고 하실지 모르겠다. 그러나 이혼율 통계는 조사된 해에 이혼한 건수를 같은 기간 결혼한 건수로 나눈 수치다. 결혼이 많은 해는 이혼율이 낮아진다. 스웨덴이 성범죄가 유럽에서 가장 높은 이유는 다른 나라에서는 성범죄로 보고되지 않는 내용도 범죄 신고를 하기 때문일 수 있다. 결국 국가에 따라 성범죄가 무엇인지 통계에 넣는가에 따라 순위가 달라질 수 있게 된다. 시카고의 한 종합병원은 다른 병원에서 치료할 수 없어 환자들이 마지막 희망을 가지고 찾아오는 병원이다. 그래서 환자의 사망률은 높을 수밖에 없다. 10년 동안 췌장암 수술 방법이 발전했을 수 있다. 그러나 10년 전 생존율이 8퍼센트였다면 지금의 생존율은 2배인 16퍼센트가 될 것이다.

통계는 주로 결과로 전달되지만 통계가 어떻게 계산되었는지 어떤 자료를 모았는지 자료를 수집하는 과정에서 임의적으로 넣거나 뺀 내용은 없는지에 따라서 원하는 결과를 만들어 낼 수 있기도 하다. 또한 췌장암 수술환자의 생존율이 2배 증가했다는 표현을 사용하기도 한다. 일상에서 접하는 수많은 통계의 결과들은 객관적 정보를 전달하려는 목적도 있겠지만 많은 경우 정보를 듣는 사람이 어떤 반응을 보일지 기대하고 표현하는 경우가 많다. 우리 정당의 지지도가 20퍼센트 상승했다고 하지만 원래 지지도가 2퍼센트였다면 2.4퍼센트로 된 것이다. 일상에서 느끼는 체감 물가와 정부가 발표하는 물가상승률이 차이가 있는 것도 있다.

2008년 미국 대선에서 오바마 대통령이 당선될 수 있는 이유로 항상 회자되는 것이 ‘빅데이터’다. 한 지역의 소득수준을 평균으로 잡아 결과를 보는 것이 아니라 연령별로 소득수준을 살펴보면 청년의 소득수준과 고령층의 소득수준이 다르고 연령대별 관심 있는 정치 주제가 다르다는 것을 통해 각자에게 맞는 정치 주제를 알려 주는 것이다. 이를 물가상승률에 적용하자면 청년에게는 주거비나 교육비에 대한 항목을 포함하고 이에 대한 비중을 높이고 고령층에는 의료비의 비중을 늘리는 것이다. 이처럼 자료를 수집할 때 좀 더 세분된 자료의 특징을 포함해서 수집하면 분석할 때도 세분해서 조건에 맞는 더 정확한 통계를 얻을 수 있다는 장점을 가지게 된다. 그렇게 단순한 물가상승률이 아니라 청년층 물가상승률과 같이 세분화된 물가상승률도 생각할 수 있다. 그렇다면 빅데이터란 기존의 통계와 다르게 세분된 자료를 수집하고 분석하는 것인가 의문이 들 수 있다.

영국의 철학자 화이트헤드는 “단순화는 논리적 과정이 아니라 심리적 과정이다”라고 표현했다. 통계의 가장 큰 매력은 복잡한 자료들을 한 번에 모아 우리에게 의미 있는 정보를 전해 주기 때문이다. 그러나 종종 나에게 중요한 자료들은 무시되거나 중요하지 않은 자료들은 반대로 강조되어 내가 원하지 않는 결론이 나오거나 심지어 전혀 논리적이지 않은 결론을 만들기도 한다. 생물학자인 스티븐 제이 굴드는 복막에 악성 중피종에 걸렸을 때 의사에게 평균 생존기간이 8개월이란 얘기를 들었다. 그는 “인간은 중앙값이 아니다”라고 말했고 그 이후 치료받고 20년을 살았다. 인간은 통계를 통해 판단하게 되지만 한 개인들이 정말 그 통계에 얼마나 영향을 받는 존재인지 의문을 가지게 된다. 이처럼 통계가 주는 의미도 중요하지만 더 중요한 것은 각 개인이 통계에 의존하거나 의미 없는 존재로 통계의 한 자료가 되지 않아야 한다는 것이다.

자료를 수집하고 분석하는 방법은 기존의 통계와 별로 다르지 않다. 예를 들어 결혼 5년차 자식이 두 명 있는 부부에게는 황혼 이혼하는 노년층의 부부나 자식이 없는 1-2년 부부의 이혼 건수는 중요하지 않다. 자식이 한두 명 있는 부부 중 5-7년 정도 지난 부부의 이혼율을 별도로 수집할 수 있다면 그리고 자신과 소득수준이 비슷하고 주거 형태가 동일한 부부의 이혼율을 알 수 있다면 좀 더 자신에게 더 현실적인 통계가 될 것이다. 이처럼 빅데이터는 좀 더 자신에게 현실적이고 자신에게 맞추어진 내용으로 다가온 통계라 말할 수 있다. 즉, 통계 안에서도 내가 의미 있는 존재로 표현되는 것이다.

헐리우드 유명 여배우인 안젤리나 졸리는 특정 유전자를 가지고 있고, 이 때문에 87퍼센트의 유방암, 50퍼센트의 자궁암 위험이 있어서 예방적 유방절제술을 했다고 했다. 이 선택의 옳고 그름을 떠나 통계는 개인의 의사결정에 큰 영향을 주고 있고 안젤리나 졸리는 발병하지 않을 13퍼센트나 50퍼센트를 희망하지 않았다. 가족력이 이미 있었기 때문에 개인에게는 통계의 발병률보다 더 큰 위험으로 다가왔기 때문이다. 이처럼 발병할 수 있는 확률은 개인마다 다르다는 것을 고려해야 한다. 의학 통계가 체계적으로 많이 쌓인다면 그리고 무엇보다 개인의 유전정보도 포함할 수 있다면 특정 유전자가 있을 때 발병할 수 있는 위험성은 개인에 맞춰 평가될 수 있게 된다. 일기예보에서 비 올 확률이 30퍼센트지만 비가 오기도 하고, 70퍼센트지만 비가 안 올 수 있다. 우산을 가지고 나갈지는 개인의 선택에 맡기는 것처럼 개인의 유전정보에 맞춰 특정 질환의 위험률을 알 수 있게 된다면 어떤 대비를 해야 할지 구체적으로 고민할 수 있을 것이다.

"해의 광채가 다르고 달의 광채가 다르고 별들의 광채가 다릅니다. 별들은 또 그 광채로 서로 구별됩니다."(1코린 15,41)

통계는 분명 유용한 수학이다. 하지만 그 안에서 개인들에게 현실적인 통계의 결과가 나온다면 개인들은 평균값과 표준편차 어딘가에 놓이는 의미 없는 존재가 아니고 통계는 개인에게 필요한 의미있는 정보가 될 것이다. 개인들의 존재를 만들어 주고 알려 주는 통계의 새로운 패러다임이 빅데이터라고 생각해도 좋다. 인간을 속이는 통계가 아닌 개인들의 존재를 반영하고 구별할 수 있는 통계로 발전해야 할 것이다.

몽글이
데이터를 통해 세상을 이해하고
컴퓨터를 통해 통찰하고 싶은
과학을 사랑하는
곰 닮은 과학도.

<가톨릭뉴스 지금여기 http://www.catholicnews.co.kr>

상단영역

본문영역

빅데이터 : 통계 안에서도 의미 있는 존재로

[몽글이의 과학다반사]

관련기사