[그림으로 보는 과학뉴스] DALL-E (part1)

영상요약

최근 인공지능 기술은 단순한 데이터 처리를 넘어 창의성의 영역인 예술 분야까지 그 보폭을 넓히고 있습니다. 과거의 AI가 기존 데이터를 검색하여 보여주는 수준에 머물렀다면, 이제는 인간의 상상력을 실체화하는 단계에 이르렀습니다. 특히 '아보카도 안락의자'나 '스파게티로 만든 기사'와 같이 세상에 존재하지 않던 독창적인 이미지를 텍스트 입력만으로 생성해내는 모습은 놀라움을 자아냅니다. 이러한 변화는 인공지능이 단순한 도구를 넘어 새로운 창작의 주체로 거듭나고 있음을 시사하며, 디자인과 예술 산업 전반에 걸쳐 거대한 패러다임의 전환을 예고하고 있습니다.

이러한 혁신의 중심에는 '달리(DALL-E)'라는 이름의 인공지능 프로그램이 있습니다. 초현실주의 화가 살바도르 달리와 애니메이션 캐릭터 월-E의 이름을 합성하여 명명된 이 기술은 오픈AI가 개발한 거대 언어 모델인 GPT-3를 기반으로 합니다. 달리는 수많은 파라미터를 활용하여 언어와 이미지 사이의 복잡한 관계를 학습했습니다. 특히 실험실의 정제된 데이터가 아닌, 인터넷이라는 광활한 정보의 바다에서 실제 사람들이 사용하는 자연어를 스스로 학습했다는 점이 핵심입니다. 이를 통해 달리는 단순한 모방을 넘어 문맥을 이해하고 새로운 시각적 결과물을 도출하는 능력을 갖추게 되었습니다.

달리의 작동 원리는 인간이 언어를 사용할 때 머릿속에 이미지를 떠올리는 과정과 매우 유사합니다. 우리가 '점심에 스파게티를 먹자'고 말할 때 뇌가 자동으로 음식의 형상을 연상하듯, 인공지능 역시 텍스트를 입력받으면 그에 대응하는 시각적 결과물을 구현해냅니다. 이는 컴퓨터에게 이미지와 텍스트를 정교하게 대조하는 훈련을 시킨 결과입니다. 덕분에 인공지능은 하나의 키워드에 대해서도 수많은 사람이 각기 다른 생각을 하듯 다채로운 스타일을 동시에 제시할 수 있으며, 이는 기존의 검색 방식과는 차원이 다른 창조적 진화라고 할 수 있습니다.

하나의 인공지능이 마치 다중적인 인격을 가진 것처럼, 동일한 키워드에서도 수많은 변주를 통해 다채로운 결과물을 쏟아냅니다.

달리의 창의성을 뒷받침하는 또 다른 핵심 기술은 '클립(CLIP)'이라는 알고리즘입니다. 클립은 언어와 이미지를 대조하여 사전 학습을 수행하는 역할을 담당하며, 주로 인터넷상의 이미지와 그에 달린 캡션들을 분석하며 공부합니다. 전문가들이 정제한 데이터가 아니라 일반 사용자들이 사진에 남긴 주석과 설명을 학습했기에, 클립은 현실 세계의 복잡한 맥락을 더욱 정확하게 파악할 수 있습니다. 과거에는 개와 고양이를 구분하는 것조차 어려운 과제였으나, 이제는 특정 인물이 특정 행동을 하는 구체적인 상황까지 완벽하게 이해하고 찾아낼 수 있는 수준으로 진화했습니다.

인공지능이 자연어 속에 담긴 이미지의 표상을 완벽히 이해하게 되면서, 창작의 경계는 더욱 허물어지고 있습니다. 이제 AI는 단순한 검색 엔진의 역할을 넘어 인간의 추상적인 아이디어를 구체적인 시각 매체로 변환해주는 강력한 파트너가 되었습니다. 이러한 기술적 진보는 디자이너들에게 새로운 영감을 제공하는 동시에, 창작의 정의에 대한 근본적인 질문을 던지기도 합니다. 텍스트와 이미지의 결합을 통해 탄생한 새로운 형태의 지능은 앞으로 자율주행 조향 기술 등 다양한 산업 분야로 확장될 잠재력을 지니고 있으며, 우리 삶의 방식을 더욱 풍요롭게 변화시킬 것입니다.

[그림으로 보는 과학뉴스] DALL-E (part1)

국립과천과학관요즘과학👏

영상요약

영상노트

AI의 창의적 이미지 생성 능력과 '아보카도 안락의자'

'달리(DALL-E)'의 탄생과 거대 언어 모델 GPT-3

언어와 이미지의 연결: 인간의 사고방식을 모사하는 AI

CLIP 알고리즘: 텍스트와 이미지의 대조 학습 원리

키워드