[명강리뷰] 디지털인문학과 데이터과학 _ by장원철|2018 봄 카오스 강연 '모든 것의 수數다' 4강
현대 사회는 바야흐로 빅데이터의 시대입니다. 2003년까지 인류가 축적한 정보량이 이제는 단 이틀 만에 생성될 정도로 정보의 홍수 속에 살고 있습니다. 뉴욕 타임스 하루 치 기사가 17세기 성인 남성이 평생 소비한 정보량과 맞먹는다는 사실은 데이터의 폭발적 증가를 실감케 합니다. 이제 데이터는 21세기의 원유와 같으며, 수많은 정보 속에서 유용한 가치를 찾아내는 분석 능력이 무엇보다 중요해졌습니다. 단순히 양이 많은 것을 넘어, 이를 어떻게 해석하고 활용하느냐가 현대 과학의 핵심 과제로 떠오르고 있습니다. 빅데이터는 구조에 따라 크게 두 가지 형태로 나뉩니다. 첫 번째는 '길쭉한 자료'로 불리는 대용량 데이터입니다. 이는 신용카드 소비 패턴처럼 수백만 명의 고객 정보를 담고 있지만 분석 항목은 상대적으로 적은 형태를 말합니다. 반면 '뚱뚱한 자료'는 고차원 데이터를 의미하며, 유전자 발현 정보처럼 분석 대상은 적으나 변수가 수만 개에 달하는 비정형 데이터를 뜻합니다. 과거의 통계학으로는 분석하기 어려웠던 이러한 복잡한 데이터들은 기술의 발전을 통해 질병 예측이나 개인 맞춤형 서비스 등 다양한 분야에서 혁신을 일으키고 있습니다. 데이터 과학은 기존의 인과관계를 넘어 상관관계와 연관성 분석에 주목합니다. 예를 들어 트위터에 올라오는 사람들의 기분 변화와 주가 변동 사이의 상관관계를 분석하여 예측 모델을 만드는 식입니다. 비록 명확한 원인을 설명하기 어려울 때도 있지만, 방대한 데이터를 통해 유의미한 패턴을 찾아내는 능력은 데이터 과학자를 21세기 가장 매력적인 직업으로 만들었습니다. 통계학이 다소 딱딱하고 이론적인 학문으로 인식되었다면, 데이터 과학은 실생활의 복잡한 문제들을 유연하고 흥미롭게 풀어내는 실천적인 학문으로 자리 잡고 있습니다. 이러한 데이터 분석 기법은 인문학 영역과 결합하여 '디지털 인문학'이라는 새로운 분야를 개척했습니다. 양식 측정학을 통해 셰익스피어 작품의 진위 여부를 가려내거나, 조선왕조실록에 텍스트 마이닝 기법을 활용해 역대 왕들의 통치 스타일을 정량적으로 파악하는 것이 가능해졌습니다. 예를 들어 세종대왕은 신하들의 의견을 경청하는 스타일이었음이 데이터로 증명되며, 연산군은 독단적인 결정을 내리는 경향이 뚜렷하게 나타납니다. 이는 숫자가 감히 침범할 수 없다고 여겨졌던 인문학적 통찰을 보완하고 확장하는 강력한 도구가 됩니다. 데이터를 다룰 때는 '심슨의 역설'이나 '평균으로의 회귀'와 같은 통계적 함정을 주의해야 합니다. 겉으로 보이는 수치만으로는 제3의 요인을 놓쳐 잘못된 결론에 도달할 수 있기 때문입니다. 미세먼지 농도와 사망률의 관계를 분석할 때 계절적 요인을 고려해야 하듯, 데이터 과학은 단순한 숫자 계산이 아닌 맥락에 대한 깊은 이해를 필요로 합니다. 결국 데이터 과학은 컴퓨터 과학과 통계학, 그리고 각 분야의 전문 지식이 만나는 접점에서 완성됩니다. 데이터와 함께하는 통찰력이 우리 시대의 새로운 지혜가 될 것입니다.
![[명강리뷰] 디지털인문학과 데이터과학 _ by장원철|2018 봄 카오스 강연 '모든 것의 수數다' 4강](https://i.ytimg.com/vi_webp/hGFjTKbkbYY/maxresdefault.webp)
![[강연] 질병 진단, 치매 치료를 하는 인공지능? 바이오메디컬 인공지능! _ by신현정 ㅣ 2020 가을 카오스강연 'Ai X' 8강](https://i.ytimg.com/vi/lDxHvPH3Mzs/maxresdefault.jpg)
![[강연] 디지털인문학과 데이터과학 (2) _ by장원철 | 2018 봄 카오스 강연 '모든 것의 수數다' 4강](https://i.ytimg.com/vi_webp/KuxwhHgWSrY/maxresdefault.webp)