По сообщению портала N+1, российскими разработчиками представлен алгоритм на основе сверточной нейросети, умеющий превращать статичные портреты в анимированное изображение. Эта система снимая маску с лица человека на отдельных кадрах из видео, переносит их на отдельные изображения лиц, причем алгоритм может работать даже с одиночным изображением, в том числе с портретами. На Youtube-канале ученые выложили "ожившие" изображения русского классика Федора Достоевского, актрисы Мерлин Монро, физика Альберта Эйнштейна и даже Неизвестной с картины Ивана Крамского и Моны Лизы Леонардо да Винчи.
Перенос информации между двумя изображениями или видео является непростой задачей, поскольку при наложении стороннего аудиоряда на видео с говорящим человеком нужно точно проследить за тем, чтобы мимика говорящего соответствовала тому, что он произносит. Проблема состоит в том, что очень часто за основу берут несколько тысяч целевых изображений какого-то конкретного предмета или человека, позволяя "настроить" изображение-источник только на основе его. В идеальном варианте такие системы не должны ориентироваться на какой-то конкретный объект и должны быть способны использовать в качестве цели минимальное количество кадров.
Задачу переноса информации с видео на статичное изображение упростили разработчики из "Samsung" и "Сколково" под руководством Егора Захарова. В основе их подхода — алгоритм, обученный на большом количестве кадров, которые содержат лица людей. На каждое лицо на таком кадре наложили специальную маску, обозначающую границы и базовую мимику. То, как такая маска соотносится с исходным кадром, хранится в виде вектора, данные из которого используют для того, чтобы наложить отдельную маску на изображение человека, после чего готовое изображение сравнивается с ground truth.
Эта модель позволила разработчикам перенести информацию между двумя объектами при помощи всего одного или нескольких кадров: для конечного продукта берут изображение-источник и изображение-цель, из которого формируют маску, которую потом накладывают на источник. При этом для этого нужно всего несколько кадров. Таким способом можно не только изменить мимику человека на портрете, но и превратить его в анимированное изображение.
В итоге у разработчиков получился алгоритм, достоверно переносящий информацию между изображениями. В результате можно создать из портрета "говорящую голову", причем для этого нет необходимости использовать большое количество примеров изображения-источника и изображения-цели.