왜 데이터는 돈이 되었나?

2024-05-17     정형준

“개인정보라고 해서 그거를 비식별화를 시켜 가지고 여기에 대해서 얼마든지 경제적인 가치를 창출해 나가야지, 어 개인정보보호라는 거는 '절대 개인 동의 없이는 못 쓴다' 이러면 언제 개인 동의를 받아가면서 이 정보를 활용하겠습니까? 이게 다 데이터가 돈입니다. 이제는.”

개인정보를 개인 동의 없이도 활용해서 돈벌이를 해야 된다는 이 발언은 놀랍게도 윤석열 대통령의 입에서 나왔다. 지난 3월 11일 강원도 민생토론회 마무리 발언 일부분인데, 맥락을 잘라서 본다는 비판도 가능할 수 있다. 하지만 백보 양보해도 "데이터가 돈"이라는 발언은 개인정보에 대한 명확한 인식으로 보인다. 문제는 데이터가 왜 돈이 되었는지를 대통령은 사고에서 생략하고 있다. 너무나 쉽게 돈이 되는 데이터만 언급하면서 개인 동의와 정보 보호에 대해서는 기각한다. 한 나라의 대통령이 가진 돈벌이 주장에 씁쓸하지만, 실제 데이터가 돈벌이가 되는 과정도 알고 보면 대체로 정당하지 않다.

지난 수십 년간 정보 통신이 발달하면서 데이터가 돈이 된 지는 오래되었다. 너무나 흔해져서 한번 정도는 누구나 경험한 보이스피싱만 봐도 데이터 유출이 없다면 불가능한 일이다. 단순히 개인의 이름과 전화번호 유출 수준에서는 정교한 보이스피싱을 할 수 없다. 그 사람의 가족관계, 나이, 직업, 최근에 연관한 임용 아니면 시험 등등의 데이터가 통째로 유통돼야 보이스피싱이 시작된다. 이미 데이터 유출은 우리를 범죄 대상으로 이용하는 핵심 관문이다. 그러나 범죄 외에 이용하는 데이터는 문제가 없을까?

가장 우리가 이롭다고 느끼는 데이터 수집 효과는 실시간 네비게이션이 있다. 실시간 네비게이션은 수많은 이용자의 교통 정보를 통합해 최단시간 경로를 설정해 준다. 기존 네비게이션과 달리 수많은 사람이 동의하에 자신의 주행 정보를 실시간으로 전송해서 모두가 얻는 이익도 크다. 하지만 이렇게 모인 데이터를 단순히 주행 정보에만 쓰지는 않는다. 민간 기업이 데이터를 연동하는 방식은 무궁무진하다. 최근 자동차 보험에 가입할 때 특정 실시간 네비게이션 앱의 주행 점수를 연동하면 할인해 주는 제도가 있다. 이는 경제적 인센티브 때문에 이익이라고 체감하지만, 실제는 보험 가입자의 주행 정보가 민간 보험사에 넘어가는 과정이기도 하다.

민간보험사는 이 데이터를 보험료 인하에만 사용하지 않는다. 데이터를 정리하고 큰 규모로 집적해서 보험의 손해율과 새로운 보험 상품을 개발하는 데 쉽게 사용한다. 개인이 주행 정보를 넘겨주고 이 정도 이익을 봤으면 이익이 아니냐는 반문도 가능하다. 하지만, 이렇게 축적한 주행 정보를 다른 정보와 융합한다면, 생각과 전혀 다른 결과를 초래할 수도 있다. 단기적으로는 자동차 보험료가 인하하는 효과나 주행 점수를 올리기 위한 안전 운전의 동인이 될 수 있으나, 장기적으로는 보험사의 담합에 이용되어 보험료 인상의 근거가 될 수 있다. 다시 말해서 우리가 지금 너무 쉽게 제공하는 데이터는 즉각의 이익보다 이후 집적화되고 가공된 다음에 미치는 영향이 더 크다. 그래서 데이터 체굴 산업이 성황을 이루게 된 것이다.

(원본 이미지 = Pixabay)

우선 데이터란 지금은 너무나 쉽게 정보통신 발달 때문에 체감하지만 애초에는 수많은 자료를 뜻하는 것에 지나지 않았다. 이 자료 묶음이 데이터고, 이 데이터는 가공을 거치면 정보가 된다. 데이터는 정보를 만들기 위한 재료다. 과거에는 실제 유용성은 이 정보에서부터 시작했다. 정보는 실제 어떤 문제를 해결하는 데 도움이 되는 지식들이기 때문이다. 역사적으로 ‘정보’는 그 자체가 유용하고 특히 그 ‘정보’의 유용성이 필요한 대상은 높은 값을 주고 정보를 사고팔았다. 즉 예전에는 정보가 돈이었다.

그래서 과거에는 데이터보다 정보가 중요했다. 하지만 거대 저장 장치와 전산연산 장치, 빅데이터로 부르는 대규모 통계 자료, 그리고 응용통계학 기반의 인공지능 등 발달로 데이터 자체로 정보를 쉽게 만들 수 있는 기반이 조성되었다. 문제는 ‘유용한’ 정보보다 데이터가 더 유용하다는 주객전도 상황이다. 과거 사람이 데이터를 해석하고 종합해 낸 결과인 정보들이 중요했지만, 이제는 데이터를 많이 집적하면 유용한 정보는 따라서 나온다는 주장이 있다. 하지만 이는 몇 가지 착각에 기초한다.

우선 첫째는 데이터 양의 크기가 정보의 유용성을 결정한다는 착각이다. 이 때문에 데이터가 통계적으로 유용한 정보를 제시하지 못하면 쉽게 데이터가 적기 때문이라고 속단한다. 하지만 더 적은 데이터로 소기의 성과를 내고 있는 경우가 더 많다. 대표적으로 인간이 판단하는 영역이 그러하다. 계속 더 크고 큰 ‘빅’데이터를 이야기하는 이유는 빅데이터 맹신론인데, 물론 더 큰 데이터를 넣으면 더 정확하고 유용한 정보가 나올 가능성이 높아진다는 인과관계는 있다. 하지만, 이는 효율에 대해서는 사고하지 않는 과학이다.

최근 각광받는 언어형 인공지능(챗지피티류)의 결과도 유용하지 않으면, 곧장 앞으로는 더 많은 데이터를 공급하면 나아질 것이라고 그 과정의 문제를 기각하곤 한다. 하지만 실제로 인간이 더 적은 에너지와 데이터로도 더 나은 결과(특히 언어 부분)를 만드는 과정은 데이터의 양 때문이 아니다. 이는 인간은 상관관계가 아니라 설명과 변화를 구축하기 때문이다. 즉 빅데이터 축적과 연동한 응용통계학과는 사고가 다른 차원의 문제라는 점을 간과해서다.

둘째는 물신숭배적 가정이다. 인간의 언어 능력과 정보 취합 능력보다 기계적 연산과 응용통계가 우월하다는 인식 때문이다. 아마도 변화무쌍하게 변형할 수 있는 인간의 사고보다는 일면적이고 예측 가능성이 높은 기계의 결과가 그간 산업 발전에 도움이 되었기 때문일 것이다. 하지만 핵심 변화는 인간의 변형적이고 무의식적인 동인들의 융합이 있었기에 가능했다. 스마트폰도 기술 발전의 여러 단계를 융합하려는 인간 노력의 산물이었고, 영화를 비롯한 주요 예술작품들은 말할 필요도 없다. 기계적 사고가 인간의 사고체계보다 나을 것이란 환상에서 데이터에 대한 집착이 발생한 것이다.

문제는 이런 착각들이 향하는 지점이다. 이는 우선 데이터 축적으로 노동의 가치를 폄훼하고, 인간의 영역을 데이터로 치환하고 거꾸로 막대한 에너지를 동원하는 연산장치 가동으로 치환하면서 자본의 영역만 강화한 현실이다. 실제 오픈 AI(인공지능)의 대규모 언어 모델(LLM)인 지피티-3를 학습시키는 데는 약 1300메가와트시의 전력을 사용하는 것으로 알려졌다. 이는 미국 가정 130곳의 연간 소비 전력량에 맞먹는다. 이런 에너지를 동원하기 위해서 재생에너지는 적절하지 않다. 기후위기를 조장한다는 얘기다.

다음으로 이런 막대한 에너지로 만든 정보는 인력을 대체하는데, 과거에는 인간 노동을 절약하는 산업화였다면, 이제는 인간 노동보다 효율적이지 않지만, 여타 에너지 산업, 반도체 산업의 팽창을 위한 산업화로 전환하는 과정이다. 이는 과잉 산업화다. 낭비 요소가 너무나도 크다. 이런 과잉과 낭비를 위해 우리는 데이터를 모으고 축적하는 셈이다. 결국 데이터 효용론의 근저는 공익이나 공공 그리고 지속가능성과는 거리가 멀다. 축적을 위한 축적, 경쟁을 위한 경쟁이 데이터가 돈이 되는 과정이다.

끝으로 이런 과정은 인간 노동을 주변화하고, 소비하는 인간을 부추긴다. 데이터를 만든 건 인간인데, 왜 인간이 그 데이터 때문에 소비패턴이 변하고, 자동화로 소외되고, 예술적 창조까지 값싼 모사품 대우를 받게 하는지는 앞으로 더 많은 성찰이 필요해 보인다. 특히 최근 가장 각광받는 건강 정보는 실제로 생체 정보다. 우리 몸의 정보들도 기계적 결론(통계적 인관관계)의 땔감이 된다면 이는 생명 착취와도 흡사하다. 아쉽게도 윤석열 정부는 국민건강보험이 가지고 있는 데이터도 빅데이터로 만들어 민영 보험사나 기업들에 ‘과학적 연구’라는 미명하에 공급하겠다고 밝히고 있다. 그런 점에서 ‘데이터는 돈’이라는 대통령의 발언은 매우 위험하다. 정치 권력도 데이터의 노예가 된다면 차라리 정부를 해산하는게 낫지 않을까?

정형준

재활의학과 전문의, 보건의료단체연합 정책위원장, 주교회의 정의평화위원회 위원

<가톨릭뉴스 지금여기 http://www.catholicnews.co.kr>