루미에르에 ‘판다가 집에서 우쿨렐레를 친다’ 문장을 입력해 얻은 5초 길이 슬롯 머신 규칙 중 일부. /루미에르 깃허브 페이지 캡처
루미에르에 ‘판다가 집에서 우쿨렐레를 친다’ 문장을 입력해 얻은 5초 길이 영상 중 일부. /루미에르 깃허브 페이지 캡처
구글이 새로운 영상 생성형 인공지능(슬롯 머신 규칙) 모델을 공개했다. 챗GPT로 시장의 게임 체인저가 된 오픈슬롯 머신 규칙에 가려졌던 구글의 슬롯 머신 규칙 역량이 다시 주목받고 있다.

지난달 25일 구글은 영상 생성 슬롯 머신 규칙 ‘루미에르’를 선보였다. 기존에 공개된 영상 생성 슬롯 머신 규칙에 비해 진보된 성능이란 평가를 받으며 학계와 업계의 관심을 끌고 있다. 루미에르에는 구글이 개발한 신기술인 ‘시공간 U-넷’이 적용됐다. 영상 전체를 한 번에 처리하는 기술이다.

기존의 영상 생성 슬롯 머신 규칙는 시간-초해상도(TSR)를 사용했다. 몇 개의 기준 프레임을 만들고 그 사이를 채워 시간해상도를 높여 영상을 제작하는 방식이다. 시간해상도는 관측이 얼마나 자주 이뤄지는지를 의미한다. 프레임 수가 많은 영상은 시간해상도가 높다.

예를 들어 슬롯 머신 규칙를 통해 팔을 들어 올리는 영상을 제작한다고 하자. 기존의 영상 생성 슬롯 머신 규칙는 팔을 내린 상태의 프레임과 팔을 올린 상태의 프레임만 존재하는 영상을 만든다. 이는 시간해상도가 낮은 영상이다. 영상의 시간해상도를 높이려면 두 프레임 사이에 들어가는 이미지를 보간(interpolate)해야 한다. 이 보간 과정이 TSR이다. 구글은 시공간 U-넷을 통해 TSR을 생략했다. 일부 프레임을 만든 뒤 이미지 사이를 보간하는 방식이 아니라 전체 영상을 한 번에 만든다. 따라서 프레임 사이를 보간하는 과정에서 발생할 수 있는 오류가 없어진다. 시공간 U-넷은 편집 자유도도 높다. 영상 스타일을 바꾸거나, 영상의 일부만을 재구성할 때 더 나은 성능을 보인다.

다만 영상의 길이가 짧고 해상도가 낮다는 한계가 있다. 루미에르는 5초 길이의 1024×1024픽셀 비디오만 생성할 수 있다. 유명인 합성과 같은 오용 사례 방지책도 아직 확보되지 않았다.

오픈슬롯 머신 규칙는 2022년 챗GPT 공개 이후 슬롯 머신 규칙 시장을 주도해왔다. 구글은 이런 변화에 상대적으로 대응이 늦었다는 업계 평가가 있었다. 그러나 최근 다양한 모델과 서비스를 발표하며 슬롯 머신 규칙 분야에서의 건재함을 과시하고 있다. 구글은 범용 슬롯 머신 규칙 모델인 ‘제미나이’를 지난해 공개했다. 이 중 제미나이 프로 모델은 지난달 27일 슬롯 머신 규칙의 성능을 비교하는 허깅페이스의 ‘챗봇 아레나 리더보드’에서 오픈슬롯 머신 규칙의 GPT-4 점수를 능가했다.

황동진 기자 radhwang@hankyung.com