SW융합 | 소프트웨어 중심사회

AI기술, 이제 가짜 동영상도 만든다.

SW중심사회 2017-08-09 7959명 읽음
<사진 1> 인공지능 기술을 활용하여 만들어 낸 가짜 오바마 연설 영상. 출처 워싱턴 대학
 
인공지능 기술을 사용하여 가짜 동영상을 만들 수 있게 되었습니다. 워싱턴 대학의 연구팀은 인공지능 기술을 통해 얼굴의 미세한 근육의 움직임과 목소리를 학습하여 마치 실제로 촬영한 영상과 같은 가짜 영상을 만들어냈다고 발표했습니다.
 
기존에 있는 영상을 짜깁기 하여 새로운 영상을 만들어 내는 것과는 전혀 다른 차원의 ‘디지털 도플갱어’가 탄생한 것입니다. 연구팀은 이 기술을 통해 미래에 가상현실 및 증강 현실에서 사용할 모델을 구축할 수 있을 것이라고 설명했습니다.
 
연구팀은 샘플 영상으로 오바마를 사용한 이유는 많은 그의 영상이 고화질로 공개적으로 노출되어 있으며 ‘대통령의 연설’의 특징적인 어조를 지속적으로 나타내기 때문이라고 밝혔습니다.
 
 

<영상> 워싱턴 대학의 연구팀이 어떻게 오바마의 ‘디지털 도플갱어’를 만들어 내었는지 설명하고 있는 영상.
 
연구팀은 각 단어, 혹은 어절을 언급할 때의 인물의 움직임을 인공지능이 학습할 수 있도록 한 후, 오디오 파일을 재생시켰을 때 저장되어 있는 움직임을 재현할 수 있도록 만들었습니다. 가장 중요하게 다루어진 부분은 입술, 치아, 턱 등의 움직임과 주위 근육 및 신경의 미세한 떨림이었습니다. 이러한 평면 영상에서의 관찰 결과를 다시 3D 입체 영상으로 구성하여  적합한 자세를 입힌 후, 불필요하고 어색한 움직임을 제거하는 과정을 거쳐 최종 영상을 만들어냈습니다.
 
이 기술에서는 오직 음성 파일만을 필요로 하기 때문에 기존의 저화질, 혹은 다른 사람들의 영상이 섞여 있는 비디오 파일에서 음성 파일만 추출하여 새로운 고화질의 영상을 만들어 낼 수도 있다고 합니다. 또한 긴 연설문의 일부만 발췌해서 요약 영상을 만들 때도 인물의 움직임에 비연속적인 어색함이 나타나지 않도록 만들 수 있다고 덧붙였습니다.
 
과거 인물의 영상을 수백만 개의 작은 조각으로 나누어 단어에 따른 움직임을 재조합하여 영상을 만드는 방식은 많은 시간과 돈을 투자해야 하는 작업이었으나, 이번 연구에서 사용한 것과 같은 인공 신경망을 이용하여 인간의 움직임을 학습하고, 그에 따른 영상을 다시 제작해 내는 기술을 활용하면 훨씬 적은 시간과 돈을 가지고도 간단히 영상을 만들 수 있을 것이라고 연구팀은 밝혔습니다.
또한 이 기술을 통하여 기존의 음성 파일은 존재하지만 해상도가 매우 떨어져 보기 힘들었던 영상을 재구성하여 활용할 수 있는 방안도 확대될 것이라고 밝혔습니다. 예를 들어, 온라인 화상회의와 같이 음성은 정확히 전달되는 편이지만 화질이 매우 떨어지거나 영상이 잘 전달되지 않는 경우, 음성파일을 통해 새로운 디지털 인물을 만들어 영상을 재생하게 되면 훨씬 더 선명한 화상 회의를 진행할 수 있을 것이라는 전망입니다.
 
연구팀은 이러한 의견에 덧붙여 아직 이 기술이 완벽하지는 않다는 점을 언급했습니다. 실제로 턱의 모양이 실제와는 다르게 보인다거나, 실제 인물이 말하는 영상을 찍었다면 나타나지 않았을 불필요하거나 어색한 근육의 떨림 등이 종종 관측되고 있다고 하였습니다. 예를 들어 실제 영상에서는 오바마가 자세를 조금 바꾸었을 뿐인데, 이를 따라한 만들어진 영상에서는 불완전한 3D 모델링으로 인해 배경과 입 근육 움직임이 섞여 왜곡되는 현상을 보이기도 한다고 전했습니다.
 
또한 이 기술을 통해 만든 영상에서는 감정을 담지는 못하고 있다고 밝혔습니다. 따라서 만들어진 오바마의 영상에서는 실제 하고 있는 말보다 훨씬 심각하거나 가벼운 표정을 짓고 있을 수 있다는 점을 지적했습니다.
 
<사진 2> 인공지능 기술을 활용하여 만들어 낸 가짜 오바마 연설 영상. 출처 워싱턴 대학
 
연구팀은 동시에 이러한 기술의 한계는 오히려 미래에 조작된 영상과 실제 영상을 감별해 내는 방법이 될 수 있음을 언급했습니다. 인간의 눈으로는 감지하기 어려우나, 안면 근육의 움직임을 파악해 내는 프로그램을 통해 가짜 영상을 찾아낼 수 있을 것이라고 합니다.
 
덧붙여 이러한 입술의 모양과 말하고자 하는 것의 관계는 모든 사람들에게 어느 정도 공통점이 있을 것으로 파악하고 오바마의 안면 근육과 신경계의 작용을 공부한 인공지능을 다른 사람들의 영상을 만드는 데에 적용할 수도 있을 것이라고 예측하고 있습니다.
 
동영상까지도 거짓으로 만들어 낼 수 있게 되면서 디지털 미디어를 어떻게 활용해야 하는지 교육하는 디지털 리터러시 교육에 대한 중요성이 더욱 대두되고 있습니다. 김묘은 디지털 리터러시 교육협회 부회장은 이번 발표를 두고 “디지털의 역기능 때문에 멀리하도록 지도하는 것보다 순기능을 활용하는 것이 먼저”라고 언급하며 거짓 정보가 생겨나게 된 원인을 파악하는 능력, 관련 유사 정보를 분석해 내는 능력, 그리고 이러한 정보가 나 또는 우리에게 미치는 영향력에 대해 분석해 내는 능력 등이 필요하다고 하였습니다.
 
* 이 연구는 삼성, 페이스북, 구글, 인텔사와 워싱턴 대학의 지원을 받아 이루어졌으며, 8월 2일 미국 Los Angeles에서 열린 the SIGGRAPH 회의에서 그 논문을 발표하였습니다.
 
 
 

홈페이지 만족도

콘텐츠 내용에 만족하십니까? 현재 페이지의 만족도를 평가해 주십시요. 의견을 수렴하여 빠른 시일 내에 반영하겠습니다.

등록