Голос Google Assistant максимально приблизился к человеческому

Занимающаяся разработками в области искусственного интеллекта компания DeepMind, которая является частью холдинга Alphabet, заявила, что её инновационная технология синтеза человеческой речи WaveNet теперь подходит для использования в потребительских продуктах вроде Google Assistant. Система WaveNet была представлена ещё в прошлом году. Она вывела синтез человеческой речи на качественно новый уровень, но для её работы требовались огромные вычислительные мощности. Специалистам DeepMind удалось решить эту проблему, сделав технологию в 1 000 раз более эффективной.

В прошлом для озвучивания какого-либо текста использовались конкатенативные системы TTS, использовавшие огромную базу данных высококачественных записей от одного автора. Эти записи разбиваются на крошечные части, которые затем могут быть объединены для генерации синтетической речи. Именно поэтому такая речь звучит неестественно.

В основе WaveNet лежат нейронные сети. Вместо использования заранее записанных слов и предложений система обучает нейронные сети с помощью большого количества образцов человеческой речи, чтобы технология могла самостоятельно научиться генерировать человекоподобную речь. На этом этапе нейронная сеть определяет основную структуру речи, как, например, какие тоны следовали друг за другом и которые из них были более реалистичными. Затем она синтезирует один голос за раз, учитывая при этом особенности предыдущего образца. В результате голос содержит естественную интонацию и даже такие особенности, как звуки от губ.

Этот подход не только генерирует более естественную синтетическую речь, но и позволяет со временем добиться лучшего результата, так как нейронные сети будут постоянно продолжать обучаться. Такая модель также имеет такое преимущество, как простота модификации, позволяя создавать любое количество уникальных голосов из смешанных наборов данных.

Изначально WaveNet могла генерировать только 0,02 секунды синтетической речи за 1 секунду. Но новая версия стала в 1 000 раз быстрее и теперь способна создавать 20 секунд качественной речи всего за 1 секунду. Она также может генерировать 16-битные аудиозаписи с частотой 24 кГц, что сопоставимо CD-дискам. Средняя оценка качества выдаваемой WaveNet речи выросла с 4,2 до 4,35. Для сравнения, у человека этот показатель составляет около 4,67.

Новая версия WaveNet уже начала использоваться в виртуальном помощнике Google Assistant.

Комментарии: 0
Ваш комментарий