[강연] 디지털인문학과 데이터과학 (1) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강 | 4강 ①
현대 사회는 그야말로 정보의 홍수 속에 살고 있습니다. 2003년까지 인류가 축적한 전체 데이터의 양이 이제는 단 이틀 만에 생성될 정도로 그 규모가 거대해졌습니다. 이러한 빅데이터 시대에 무엇보다 중요한 것은 단순히 데이터의 양이 아니라, 그 속에서 유용한 정보를 찾아내는 분석 능력입니다. 과거에는 정보가 부족해서 문제였다면, 이제는 너무 많은 정보 중에서 우리에게 진짜 필요한 가치를 추출하는 데이터 과학의 역할이 강조되고 있습니다. 이는 마치 거대한 원석에서 보석을 찾아내는 과정과도 같습니다. 통계학적 관점에서 데이터는 구조에 따라 크게 두 가지 형태로 나뉩니다. 수많은 고객의 소비 패턴을 분석하는 신용카드 데이터처럼 항목보다 관측치가 압도적으로 많은 '길쭉한 자료'가 그 첫 번째입니다. 반대로 유전자 분석처럼 대상은 적지만 분석해야 할 항목이 수만 개에 달하는 '뚱뚱한 자료', 즉 고차원 데이터가 존재합니다. 이러한 데이터의 구조적 차이를 명확히 이해하는 것은 현대 데이터 과학이 직면한 복잡한 문제들을 해결하는 출발점이자, 상황에 맞는 효율적인 분석 모델을 설계하는 데 있어 가장 핵심적인 기초가 됩니다. 빅데이터 분석의 가장 흥미로운 점 중 하나는 인과관계보다 연관성에 주목한다는 것입니다. 트위터에 올라오는 사람들의 기분 변화가 주가 흐름과 높은 상관관계를 보이거나, 검색어 빈도를 통해 독감 유행을 예측하는 사례가 대표적입니다. 물론 구글 독감 예측의 실패 사례처럼 데이터의 구조 변화나 알고리즘의 한계로 인해 오류가 발생하기도 합니다. 하지만 이러한 시행착오를 거쳐 모델을 보정하고 정교화하는 과정 자체가 데이터 과학이 더욱 정밀한 학문으로 발전해 나가는 중요한 동력이 되고 있습니다. 최근 '데이터 사이언티스트'는 21세기 가장 매력적인 직업으로 꼽히며 큰 주목을 받고 있습니다. 과거의 통계학자가 다소 딱딱하고 지루한 이미지로 인식되었다면, 데이터 사이언티스트는 방대한 자료 속에서 새로운 가치를 창출하는 창의적인 전문가로 받아들여집니다. 실제로 구글 트렌드 분석을 보면 통계학자라는 용어의 사용은 점차 줄어드는 반면, 데이터 사이언티스트에 대한 대중의 관심은 급증하고 있습니다. 이는 데이터 분석이 단순한 수치 계산을 넘어 사회 전반의 문제를 해결하는 핵심 도구로 자리 잡았음을 보여줍니다. 데이터 과학의 영역은 이제 숫자의 세계를 넘어 인문학의 영역까지 확장되고 있습니다. '디지털 인문학'은 구글 도서관 프로젝트처럼 방대한 문헌을 디지털화하여 정량적으로 분석하는 새로운 학문 분야입니다. 이를 통해 셰익스피어 작품의 진위 여부를 가리거나 이름 없는 연설문의 작성자를 추론하는 '양식 측정학' 연구가 가능해졌습니다. 숫자로 검증할 수 없을 것 같던 인문학적 가치들이 데이터를 만나면서, 우리는 인류의 문화적 유산을 더욱 객관적이고 다각적인 시각으로 바라볼 수 있는 새로운 창을 갖게 되었습니다.
![[강연] 디지털인문학과 데이터과학 (1) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강](https://i.ytimg.com/vi_webp/3G18UeIpwog/maxresdefault.webp)