Специалисты подразделения DeepMind компании Google, занимающегося разработкой и исследованиями, связанными с искусственным интеллектом, разработали новую систему под названием WaveNet, позволяющую системам искусственного интеллекта разговаривать на языке, максимально приближенным к естественному человеческому языку. В рамках этого проекта реализован качественно новый подход к синтезу речи, который работает за счет базы данных анализа звуковых волн человеческого голоса вместо того, чтобы сосредоточиться на интерпретации и имитации естественного языка.
Исследователи из различных стран и организаций за последние годы добились достаточно больших успехов в реализации способности компьютеров к восприятию человеческой речи. Это стало возможным благодаря применению нейронных сетей и процессов глубинного машинного изучения. Однако, область синтеза естественной речи значительно отстает от области распознавания речи.
Существующие технологии преобразования текст-речь (text-to-speech, TTS), как правило, основаны на двух принципах, компиляционном (concatenative TTS), в котором речь создается путем компиляции ранее записанных фрагментов речи, и параметрическом (parametric TTS), в котором речь воспроизводится устройством-вокодером, на вход которого передается необходимый набор цифровых данных. Последний метод воспроизводит «механическую» речь, которая очень далека от естественного звучания.
Система WaveNet работает несколько по-иному, составляющая ее нейронная сеть работает с образами звуковых колебаний, а не только с элементами самого языка. Как и любая нейронная сеть, сеть системы WaveNet прошла процесс предварительного обучения путем анализа массива необработанной аудиоинформации, включая речь, музыку и записи других звуков. Для качественной работы процесса обучения системе требуется аудиосигнал с частотой оцифровки минимум 16 кГц, анализ которого в режиме реального времени является достаточно сложной задачей, требующей большого количества вычислительных ресурсов.
В ходе последующих экспериментов специалисты DeepMind «скормили» системе WaveNet записи речи на английском и на китайском языке. После этого в сравнительных целях были созданы образцы искусственной речи на этих языках, синтезированные при помощи трех различных методов, стандартного компиляционного TTS, параметрического TTS и WaveNet.
Эксперты, прослушавшие записи синтезированной речи, признали, что речь WaveNet является более близкой к естественной речи, нежели чем все другие образцы. Тем не менее, пока еще очень сложно спутать синтезированную речь с естественной.
Тем не менее, система WaveNet, даже в том виде, в котором она существует на сегодняшний день, по мнению представителей DeepMind, открывает множество возможностей для реализации технологий взаимодействия человека с компьютером, для производства музыки, компьютерных игр и ряда других областей.
Parametric
Concatenative
WaveNet
Источник: