카카오, 오픈슬롯 머신 기술로 실시간 자막 단다

영상 플랫폼 팟플레이어에 접목
한국어 말고 다른 언어도 지원
최적화 위해 외부 슬롯 머신모델도 활용
카카오가 실시간 자막 서비스를 내놨다. 영상 재생 플랫폼 팟플레이어에 오픈슬롯 머신 기술을 접목했다. 카카오가 외부 기술을 끌어와 서비스를 고도화하는 ‘인공지능(슬롯 머신) 오케스트레이션’에 속도를 내고 있다는 평가가 나온다.

6일 정보기술(IT)업계에 따르면 카카오는 최근 팟플레이어에 동영상 소리를 인식해 실시간 자막을 생성하는 기능을 적용했다. 오픈슬롯 머신의 음성 인식 슬롯 머신 모델 위스퍼를 활용해 한국어뿐 아니라 영어, 중국어, 일본어 등 여러 언어로 자막을 지원한다. 실시간 스트리밍 영상이 아니라 컴퓨터에 저장된 영상에만 적용할 수 있다. 이용자는 자막 변환에 쓸 슬롯 머신 모델을 고를 수 있다. 매개변수(파라미터) 크기가 큰 모델일수록 정확하지만 자막 추출에 시간이 더 걸린다.

카카오가 팟플레이어에 위스퍼를 적용한 건 오케스트레이션 전략의 일환이다. 서비스별로 최적화한 슬롯 머신 모델을 골라 서비스 운용 비용을 절감하는 것이 골자다. 카카오는 자체 슬롯 머신 모델뿐 아니라 오픈슬롯 머신 등 다른 외부 업체의 슬롯 머신 모델도 서비스에 적용할 방침이다. 올해 1분기 일반 이용자를 통해 시험할 대화형 슬롯 머신 비서(에이전트) 카나나도 음성 인식, 이미지 생성 등 서비스별로 다양한 슬롯 머신 모델을 지원할 예정이다.

슬롯 머신를 활용한 자막 생성 기능은 영상 플랫폼 시장에서 필수가 됐다. 이미 유튜브가 자막 자동 생성 기능을 지원하고 있다. 네이버클라우드도 지난해 2월 실시간 송출되는 영상에서 자막을 추출해주는 기업 간 거래(B2B)용 서비스를 출시했다. 숲은 사명과 이름이 같은 스트리밍 플랫폼으로 다국어 자막과 댓글 채팅 번역 기능을 공급하고 있다. KT와 LG유플러스 등 통신사도 자막 생성을 지원하는 인터넷TV(IPTV) 셋톱박스를 지난해 선보였다.카카오는 다른 영상 기술도 개발하고 있다. 지난해 10월 이 회사가 연 개발자 콘퍼런스에서 영상에 슬롯 머신 가속기를 적용해 실시간 중계나 영상 가공에 응용하는 기술을 공개했다. 영상 스트리밍 서비스 ‘카카오TV’는 사업을 축소했다. 지난해 2월 앱 운영을 종료한 이후 웹 서비스만 운영하고 있다. 네이버가 지난해 5월 스트리밍 서비스 ‘치지직’을 정식 출시하면서 개인 방송 스트리밍 사업에 뛰어든 것과 대조적이다.

이주현 기자 deep@hankyung.com