Искусственный интеллект научился озвучивать видеоролики с максимальной реалистичностью - «Наука и технологии»

Барабанная дробь, плеск воды, шелест листвы и прочие другие звуки, которые являются звуковым сопровождением какого-нибудь видеоролика и которые вы сможете услышать в недалеком будущем, вполне могут иметь не совсем естественное происхождение. "Автором" этих звуков может являться компьютер и система искусственного интеллекта, которая достаточно "умна" для того, чтобы разобраться в том, что происходит на видео и снабдить это все соответствующим звуковым сопровождением. И, в некоторых случаях, система делает это настолько удачно, что создается впечатление максимальной реалистичности и естественности звуков, другими словами, компьютер проходит своего рода аудио-вариант теста Тьюринга.

Создавая систему искусственного интеллекта, специалисты из Лаборатории информатики и искусственного интеллекта Массачусетского технологического института начали обучать его на примерах простых действий, типа постукивания палочкой по книге. Кроме этого, программе были "скормлены" видео с естественным звуковым сопровождением, на которых демонстрировалась листва, шелестящая под воздействием ветра, грохот падающих скал и многое, многое другое. Всего через программу было пропущено более тысячи видеороликов, в аудио-дорожке которых присутствовало порядка 46 тысяч различных звуков.

"Алгоритм добывает из видео ключевую информацию по форме представленных там объектов, о материале, из которого они изготовлены, об их движении и т.п." - рассказывает Эндрю Оуэнс (Andrew Owens), - "Все это сопоставляется с звуками из аудио-дорожки и заносится в базу данных".

После получения набора данных в базе, программа искусственного интеллекта пропустила их через алгоритм так называемого глубинного изучения. В результате этого искусственный интеллект обрел возможность идентифицировать объекты на видео и происходящее с ними, плюс к этому, алгоритм привязал объекты, действия и явления к конкретным звукам.

После процесса самообучения система искусственного интеллекта стала способной самостоятельно озвучивать загружаемые ей видеоролики в которых отсутствовала звуковая дорожка. А эксперты, привлеченные к оценке работы искусственного интеллекта, в среднем два раза из четырех выбирали звуковую дорожку искусственного происхождения при прохождении аудио-варианта теста Тьюринга. Но, пока искусственный интеллект имеет свойство ошибаться в некоторых случаях, особенно, если объект на видео движется неравномерно, а рывками, что приводит к наложению на видео не совсем соответствующего звукового сопровождения.

Исследователи надеются, что дополнительное обучение системы искусственного интеллекта, проведенное на базе более сложных и разнообразных видеороликов, позволит существенно понизить количество совершаемых системой ошибок. И после этого ее с успехом можно будет использовать для "озвучивания" фильмов, телепередач, театральных постановок и т.п. Еще одной областью применения новой системы может стать виртуальная реальность, где искусственный интеллект сможет правдоподобно озвучивать все то, что происходит в виртуальном мире.