Lyrebird - речевой синтезатор на основе искусственного интеллекта, который способен воспроизвести любой голос - «Наука и технологии»

Воспроизведение человеческого голоса, со всеми его тембрами, интонациями и прочими нюансами, является исключительно трудной задачей даже для современных мощных компьютеров. Когда мы слышим речь таких программ, как Siri, Alexa или GPS-навигатора, сразу становится ясно, что с нами говорит машина. Это происходит из-за того, что большинство систем синтеза речи основываются на библиотеках записанных ранее слов и фраз. И в результате работы таких систем получается скучная "механическая" речь, состоящая из часто повторяющихся выражений. Достаточно сильным шагом к улучшению качества работы синтезаторов речи может стать использование в них принципов искусственного интеллекта. Это весьма наглядно продемонстрировала компании Lyrebird из Монреаля, разработавшая новый речевой синтезатор, способный воспроизвести голос любого человека и даже добавить ему соответствующую эмоциональную окраску.

Самым интересным является то, что для обучения голосу какого-либо человека системе Lyrebird требуется всего несколько десятков секунд аудиозаписей. И в качестве примера работы системы вы можете послушать приведенные ниже аудиоролики, на которых система Lyrebird воспроизводит голоса Барака Обамы, Дональда Трампа и Хиллари Клинтон. Такое точное копирование особенностей голоса конкретного человека стало возможным благодаря использованию искусственных нейронных сетей, которые работают подобно естественным биологическим нейронным сетям мозга человека. По сути, алгоритм нейронной сети учится опознавать особенности речи конкретного человека, а затем эти же данные используются для синтеза искусственного голоса.

"Мы обучили нашу программу на огромном наборе аудиоданных фрагментов выступлений тысяч различных людей" - рассказывает Хосе Сотело (Jose Sotelo), ведущий исследователь, - "Полученная информация сжимается до вида компактного цифрового ключа, своего рода "голосовой ДНК". И на основе этого ключа система может воспроизводить любые слова и предложения, даже те, которые не были задействованы в процессе ее обучения".

В настоящее время работа системы Lyrebird еще очень далека от идеала, в воспроизводимой речи присутствуют "цифровые артефакты", имеются проблемы с разборчивостью и некоторые другие странности, которые иногда ставят под сомнение то, кому именно подражает сейчас синтезатор. Тем не менее, все это работает сейчас в режиме реального времени, требует для обучения совсем небольшого количества исходных данных и, после соответствующих доработок, может превратиться с самый качественный речевой синтезатор на сегодняшний день.