Google обучила искусственный интеллект говорить на естественном языке - «Наука и технологии»

Специалисты подразделения DeepMind компании Google, занимающегося разработкой и исследованиями, связанными с искусственным интеллектом, разработали новую систему под названием WaveNet, позволяющую системам искусственного интеллекта разговаривать на языке, максимально приближенным к естественному человеческому языку. В рамках этого проекта реализован качественно новый подход к синтезу речи, который работает за счет базы данных анализа звуковых волн человеческого голоса вместо того, чтобы сосредоточиться на интерпретации и имитации естественного языка.

Исследователи из различных стран и организаций за последние годы добились достаточно больших успехов в реализации способности компьютеров к восприятию человеческой речи. Это стало возможным благодаря применению нейронных сетей и процессов глубинного машинного изучения. Однако, область синтеза естественной речи значительно отстает от области распознавания речи.

Существующие технологии преобразования текст-речь (text-to-speech, TTS), как правило, основаны на двух принципах, компиляционном (concatenative TTS), в котором речь создается путем компиляции ранее записанных фрагментов речи, и параметрическом (parametric TTS), в котором речь воспроизводится устройством-вокодером, на вход которого передается необходимый набор цифровых данных. Последний метод воспроизводит "механическую" речь, которая очень далека от естественного звучания.

Система WaveNet работает несколько по-иному, составляющая ее нейронная сеть работает с образами звуковых колебаний, а не только с элементами самого языка. Как и любая нейронная сеть, сеть системы WaveNet прошла процесс предварительного обучения путем анализа массива необработанной аудиоинформации, включая речь, музыку и записи других звуков. Для качественной работы процесса обучения системе требуется аудиосигнал с частотой оцифровки минимум 16 кГц, анализ которого в режиме реального времени является достаточно сложной задачей, требующей большого количества вычислительных ресурсов.

В ходе последующих экспериментов специалисты DeepMind "скормили" системе WaveNet записи речи на английском и на китайском языке. После этого в сравнительных целях были созданы образцы искусственной речи на этих языках, синтезированные при помощи трех различных методов, стандартного компиляционного TTS, параметрического TTS и WaveNet.

Эксперты, прослушавшие записи синтезированной речи, признали, что речь WaveNet является более близкой к естественной речи, нежели чем все другие образцы. Тем не менее, пока еще очень сложно спутать синтезированную речь с естественной.

Тем не менее, система WaveNet, даже в том виде, в котором она существует на сегодняшний день, по мнению представителей DeepMind, открывает множество возможностей для реализации технологий взаимодействия человека с компьютером, для производства музыки, компьютерных игр и ряда других областей.

Parametric
Concatenative
WaveNet

Цитирование статьи, картинки - фото скриншот - Rambler News Service.

Иллюстрация к статье - Яндекс. Картинки.

Есть вопросы. Напишите нам.

Общие правила поведения на сайте.

Подпишитесь
И будьте в курсе первыми!

Комментарии

Минимальная длина комментария - 50 знаков. комментарии модерируются

Комментариев еще нет. Вы можете стать первым!

28.08.2021

Исследователи Google DeepMind обучили искусственный интеллект играть в "Quake III Arena" лучше живых людей - «Наука и технологии»

28.08.2021

Компания Google приступила к изучению этических проблем, связанных с искусственным интеллектом - «Наука и технологии»

15.04.2021

Действующие ограничения по въезду в иностранные государства - «Надо знать»

29.08.2021

Алгоритм искусственного интеллекта Google DeepMind научился проходить трехмерные лабиринты в стиле Doom - «Наука и технологии»

29.08.2021

Искусственный интеллект Google DeepMind учится использовать дополнительную память - «Наука и технологии»

28.08.2021

Искусственный интеллект Google DeepMind научился читать по губам лучше, чем любой человек-специалист в этом деле - «Наука и технологии»