[강연] 디지털인문학과 데이터과학 (3) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강 | 4강 ③
통계학은 단순히 숫자를 나열하는 학문이 아니라, 보이지 않는 존재를 예측하는 강력한 도구입니다. 영국의 곤충학자 알렉산더 코벳은 말레이시아에서 나비를 수집하며 아직 발견되지 않은 종의 수를 궁금해했습니다. 이를 해결하기 위해 통계학자 R.A. 피셔는 '미발견 종 문제' 모델을 고안했습니다. 흥미롭게도 이 모델은 문학 연구에도 적용됩니다. 1985년 발견된 시가 셰익스피어의 작품인지 판별할 때, 통계학은 작가가 평소 쓰지 않았던 새로운 단어가 얼마나 등장할지 예측함으로써 진위 여부를 판단하는 보완적 근거를 제시했습니다. 데이터를 해석할 때 전체 합계만 보는 것은 위험할 수 있는데, 이를 '심슨의 역설'이라고 부릅니다. 예를 들어 두 농구 선수의 2점슛과 3점슛 성공률을 각각 비교했을 때는 한 선수가 앞서더라도, 이를 합치면 결과가 뒤바뀌는 현상이 발생합니다. 이는 각 항목의 시도 횟수라는 가중치가 다르기 때문입니다. 과거 버클리 대학교의 입학 허가율을 두고 벌어진 성차별 논란도 이와 유사했습니다. 전공별로는 여학생의 합격률이 높았음에도, 전체 합계에서는 낮게 나타난 이유는 여학생들이 경쟁률이 훨씬 높은 학과에 주로 지원했기 때문이었습니다. 심슨의 역설은 일상적인 건강 데이터 분석에서도 중요한 시사점을 줍니다. 미세먼지 농도와 사망률의 관계를 단순 비교하면 농도가 높을 때 오히려 사망률이 낮아지는 기현상이 관찰되기도 합니다. 하지만 여기에 '계절'이라는 제3의 요인을 추가하여 분석하면 결론은 완전히 달라집니다. 봄이나 겨울처럼 미세먼지가 심한 계절 내에서는 농도가 높을수록 사망률이 명확하게 증가하는 경향을 보입니다. 이처럼 데이터 뒤에 숨겨진 변수를 고려하지 않으면, 미세먼지가 건강에 이롭다는 식의 잘못된 결론에 도달할 수 있으므로 주의가 필요합니다. 성적이 갑자기 오르거나 떨어지는 현상은 '평균으로의 회귀'라는 개념으로 설명할 수 있습니다. 키가 매우 큰 부모의 자녀가 부모보다는 조금 작고, 반대로 작은 부모의 자녀는 부모보다 조금 더 큰 경향이 있는 것과 같은 원리입니다. 이는 시험 성적에서도 나타나는데, 실력 이상의 운이 작용해 중간고사를 아주 잘 본 학생은 기말고사에서 자신의 원래 실력인 평균치로 돌아올 가능성이 큽니다. 반대로 운이 없어 성적이 낮았던 학생은 다음 시험에서 성적이 오를 확률이 높습니다. 이는 실력이 변한 것이 아니라 통계적인 확률 분포에 따른 자연스러운 현상입니다. 현대 통계학은 시공간 데이터 분석을 통해 더욱 정밀해지고 있습니다. 특정 위치와 시간에서 관측된 데이터를 바탕으로, 관측 장비가 없는 지역의 미세먼지 농도를 예측하는 '크리깅' 기법이 대표적입니다. 또한 통계학은 천문학에서 우주의 지도를 그리거나 인문학에서 텍스트를 분석하는 등 거의 모든 학문 분야의 '앞마당'에서 활약하고 있습니다. 데이터 과학은 통계학, 컴퓨터 과학, 그리고 해당 분야의 전문 지식이 만나는 접점에서 탄생합니다. 복잡한 현대 사회에서 데이터를 올바르게 읽어내는 능력은 세상을 이해하는 필수적인 열쇠가 되었습니다.
![[강연] 디지털인문학과 데이터과학 (3) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강](https://i.ytimg.com/vi_webp/HjU1QZPaZPw/maxresdefault.webp)
![[강연] 디지털인문학과 데이터과학 (2) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강](https://i.ytimg.com/vi_webp/KuxwhHgWSrY/maxresdefault.webp)
![[강연] 디지털인문학과 데이터과학 (1) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강](https://i.ytimg.com/vi_webp/3G18UeIpwog/maxresdefault.webp)