과학 포털 iKAOS

[강연] 디지털인문학과 데이터과학 (3) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강 | 4강 ③

통계학은 단순히 숫자를 나열하는 학문이 아니라, 보이지 않는 존재를 예측하는 강력한 도구입니다. 영국의 곤충학자 알렉산더 코벳은 말레이시아에서 나비를 수집하며 아직 발견되지 않은 종의 수를 궁금해했습니다. 이를 해결하기 위해 통계학자 R.A. 피셔는 '미발견 종 문제' 모델을 고안했습니다. 흥미롭게도 이 모델은 문학 연구에도 적용됩니다. 1985년 발견된 시가 셰익스피어의 작품인지 판별할 때, 통계학은 작가가 평소 쓰지 않았던 새로운 단어가 얼마나 등장할지 예측함으로써 진위 여부를 판단하는 보완적 근거를 제시했습니다. 데이터를 해석할 때 전체 합계만 보는 것은 위험할 수 있는데, 이를 '심슨의 역설'이라고 부릅니다. 예를 들어 두 농구 선수의 2점슛과 3점슛 성공률을 각각 비교했을 때는 한 선수가 앞서더라도, 이를 합치면 결과가 뒤바뀌는 현상이 발생합니다. 이는 각 항목의 시도 횟수라는 가중치가 다르기 때문입니다. 과거 버클리 대학교의 입학 허가율을 두고 벌어진 성차별 논란도 이와 유사했습니다. 전공별로는 여학생의 합격률이 높았음에도, 전체 합계에서는 낮게 나타난 이유는 여학생들이 경쟁률이 훨씬 높은 학과에 주로 지원했기 때문이었습니다. 심슨의 역설은 일상적인 건강 데이터 분석에서도 중요한 시사점을 줍니다. 미세먼지 농도와 사망률의 관계를 단순 비교하면 농도가 높을 때 오히려 사망률이 낮아지는 기현상이 관찰되기도 합니다. 하지만 여기에 '계절'이라는 제3의 요인을 추가하여 분석하면 결론은 완전히 달라집니다. 봄이나 겨울처럼 미세먼지가 심한 계절 내에서는 농도가 높을수록 사망률이 명확하게 증가하는 경향을 보입니다. 이처럼 데이터 뒤에 숨겨진 변수를 고려하지 않으면, 미세먼지가 건강에 이롭다는 식의 잘못된 결론에 도달할 수 있으므로 주의가 필요합니다. 성적이 갑자기 오르거나 떨어지는 현상은 '평균으로의 회귀'라는 개념으로 설명할 수 있습니다. 키가 매우 큰 부모의 자녀가 부모보다는 조금 작고, 반대로 작은 부모의 자녀는 부모보다 조금 더 큰 경향이 있는 것과 같은 원리입니다. 이는 시험 성적에서도 나타나는데, 실력 이상의 운이 작용해 중간고사를 아주 잘 본 학생은 기말고사에서 자신의 원래 실력인 평균치로 돌아올 가능성이 큽니다. 반대로 운이 없어 성적이 낮았던 학생은 다음 시험에서 성적이 오를 확률이 높습니다. 이는 실력이 변한 것이 아니라 통계적인 확률 분포에 따른 자연스러운 현상입니다. 현대 통계학은 시공간 데이터 분석을 통해 더욱 정밀해지고 있습니다. 특정 위치와 시간에서 관측된 데이터를 바탕으로, 관측 장비가 없는 지역의 미세먼지 농도를 예측하는 '크리깅' 기법이 대표적입니다. 또한 통계학은 천문학에서 우주의 지도를 그리거나 인문학에서 텍스트를 분석하는 등 거의 모든 학문 분야의 '앞마당'에서 활약하고 있습니다. 데이터 과학은 통계학, 컴퓨터 과학, 그리고 해당 분야의 전문 지식이 만나는 접점에서 탄생합니다. 복잡한 현대 사회에서 데이터를 올바르게 읽어내는 능력은 세상을 이해하는 필수적인 열쇠가 되었습니다.

[강연] 디지털인문학과 데이터과학 (1) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강 | 4강 ①

현대 사회는 그야말로 정보의 홍수 속에 살고 있습니다. 2003년까지 인류가 축적한 전체 데이터의 양이 이제는 단 이틀 만에 생성될 정도로 그 규모가 거대해졌습니다. 이러한 빅데이터 시대에 무엇보다 중요한 것은 단순히 데이터의 양이 아니라, 그 속에서 유용한 정보를 찾아내는 분석 능력입니다. 과거에는 정보가 부족해서 문제였다면, 이제는 너무 많은 정보 중에서 우리에게 진짜 필요한 가치를 추출하는 데이터 과학의 역할이 강조되고 있습니다. 이는 마치 거대한 원석에서 보석을 찾아내는 과정과도 같습니다. 통계학적 관점에서 데이터는 구조에 따라 크게 두 가지 형태로 나뉩니다. 수많은 고객의 소비 패턴을 분석하는 신용카드 데이터처럼 항목보다 관측치가 압도적으로 많은 '길쭉한 자료'가 그 첫 번째입니다. 반대로 유전자 분석처럼 대상은 적지만 분석해야 할 항목이 수만 개에 달하는 '뚱뚱한 자료', 즉 고차원 데이터가 존재합니다. 이러한 데이터의 구조적 차이를 명확히 이해하는 것은 현대 데이터 과학이 직면한 복잡한 문제들을 해결하는 출발점이자, 상황에 맞는 효율적인 분석 모델을 설계하는 데 있어 가장 핵심적인 기초가 됩니다. 빅데이터 분석의 가장 흥미로운 점 중 하나는 인과관계보다 연관성에 주목한다는 것입니다. 트위터에 올라오는 사람들의 기분 변화가 주가 흐름과 높은 상관관계를 보이거나, 검색어 빈도를 통해 독감 유행을 예측하는 사례가 대표적입니다. 물론 구글 독감 예측의 실패 사례처럼 데이터의 구조 변화나 알고리즘의 한계로 인해 오류가 발생하기도 합니다. 하지만 이러한 시행착오를 거쳐 모델을 보정하고 정교화하는 과정 자체가 데이터 과학이 더욱 정밀한 학문으로 발전해 나가는 중요한 동력이 되고 있습니다. 최근 '데이터 사이언티스트'는 21세기 가장 매력적인 직업으로 꼽히며 큰 주목을 받고 있습니다. 과거의 통계학자가 다소 딱딱하고 지루한 이미지로 인식되었다면, 데이터 사이언티스트는 방대한 자료 속에서 새로운 가치를 창출하는 창의적인 전문가로 받아들여집니다. 실제로 구글 트렌드 분석을 보면 통계학자라는 용어의 사용은 점차 줄어드는 반면, 데이터 사이언티스트에 대한 대중의 관심은 급증하고 있습니다. 이는 데이터 분석이 단순한 수치 계산을 넘어 사회 전반의 문제를 해결하는 핵심 도구로 자리 잡았음을 보여줍니다. 데이터 과학의 영역은 이제 숫자의 세계를 넘어 인문학의 영역까지 확장되고 있습니다. '디지털 인문학'은 구글 도서관 프로젝트처럼 방대한 문헌을 디지털화하여 정량적으로 분석하는 새로운 학문 분야입니다. 이를 통해 셰익스피어 작품의 진위 여부를 가리거나 이름 없는 연설문의 작성자를 추론하는 '양식 측정학' 연구가 가능해졌습니다. 숫자로 검증할 수 없을 것 같던 인문학적 가치들이 데이터를 만나면서, 우리는 인류의 문화적 유산을 더욱 객관적이고 다각적인 시각으로 바라볼 수 있는 새로운 창을 갖게 되었습니다.

셰익스피어

[강연] 디지털인문학과 데이터과학 (3) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강 | 4강 ③

카오스재단카오스강연

[강연] 디지털인문학과 데이터과학 (2) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강 | 4강 ②

카오스재단카오스강연

[강연] 디지털인문학과 데이터과학 (1) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강 | 4강 ①

카오스재단카오스강연