Нейросеть которая повторяет голос
Перейти к содержимому

Нейросеть которая повторяет голос

  • автор:

VALL-E

Abstract. We introduce a language modeling approach for text to speech synthesis (TTS). Specifically, we train a neural codec language model (called VALL-E) using discrete codes derived from an off-the-shelf neural audio codec model, and regard TTS as a conditional language modeling task rather than continuous signal regression as in previous work. During the pre-training stage, we scale up the TTS training data to 60K hours of English speech which is hundreds of times larger than existing systems. VALL-E emerges in-context learning capabilities and can be used to synthesize high-quality personalized speech with only a 3-second enrolled recording of an unseen speaker as an acoustic prompt. Experiment results show that VALL-E significantly outperforms the state-of-the-art zero-shot TTS system in terms of speech naturalness and speaker similarity. In addition, we find VALL-E could preserve the speaker’s emotion and acoustic environment of the acoustic prompt in synthesis.

This page is for showing reproduced results only, I keep the main parts of the official demo.

Синтезатор речи VALL-E сымитирует любой голос в одно мгновение: как это возможно

синтезатор речи, подделка речи, Deefake, Microsoft Vall-E, искусственный интеллект

ИИ-бот умеет имитировать любой голос и звук — ему достаточно прослушать оригинал в течение нескольких секунд.

Исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь, сообщает сайт ArsTechnica. Проект VALL-E, может точно имитировать голос человека и для этого достаточно всего трехсекундного отрывка для примера.

Конечно, чем длиннее образец речи, тем точнее и натуральнее искусственный интеллект сможет его сымитировать. Как только VALL-E «выучит» конкретный голос, он может синтезировать звук таким образом, что сможет подделать даже эмоциональный тон говорящего.

Создатели ИИ-инструмента говорят, что их разработку можно использовать для высококачественных приложений преобразования текста в речь. Но уже сейчас понятно, что подобная технология даст большое поле для распространения различных фейков и информационных диверсий, если этот инструмент попадет не в те руки. А если представить симбиоз разработки Microsoft и технологии Deepfake (подделка визуального образа), то даже представить страшно, что ждет СМИ и всех нас в будущем.

Проект VALL-E от Microsoft основан на технологии EnCodec, о которой Meta объявила в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, дискретные сигналы EnCodec состоят из текстовых и акустических подсказок. С помощью них искусственный интеллект генерирует соответствующие акустические маркеры голоса и использует их для синтеза речи.

синтезатор речи, подделка речи, Deefake, Microsoft Vall-E

Специалисты Microsoft обучали искусственный интеллект VALL-E на звуковой библиотеке, собранной Meta, под названием LibriLight . Она содержит 60 тыс. часов англоязычной речи от более чем 7 тыс. носителей, в основном взятых из общедоступных аудиокниг LibriVox . Чтобы VALL-E дал хороший результат, голос в трехсекундном образце должен точно совпадать с голосом в обучающих данных.

Microsoft выложила примеры работы VALL-E по имитации голосов. Некоторые результаты не слишком отличаются от привычного голоса синтезированного компьютером, но есть и другие, которые просто неотличимы от оригинала. И это действительно поражает! Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать акустическое окружение. Например, если сэмпл взят из телефонного звонка, то ИИ сымитирует соответствующий фоновый шум, как в оригинале.

В Microsoft прекрасно осознают все риски связанные с их разработкой, а потому никому не предоставляют код VALL-E для экспериментов. Ученые обещают, что будут использовать свой проект как раз для того, чтобы изобличать подделки голоса от других подобных проектов, которые наверняка скоро появятся.

Ранее Фокус писал, что исследователи собираются научить искусственный интеллект разговаривать на 1000 языках.

ИИ-модель, точно имитирующая голос

Microsoft представила модель искусственного интеллекта (ИИ) под названием VALL-E — она преобразует текст в речь, точно имитируя голос человека, а образцом может служить запись продолжительностью всего в три секунды. При этом ИИ сохраняет эмоциональную окраску речи образца.

Авторы проекта говорят, что система окажется полезной при разработке приложений с возможностью высококачественного преобразования текста в речь и при создании аудиоконтента в сочетании с другими ИИ-генераторами контента вроде GPT-3. Хотя они также признают, что её можно использовать для редактирования аудиозаписи по расшифровке — модель может «заставить» человека произносить слова, которых он никогда в реальности не говорил.

При создании модели использовалась разработанная Meta технология EnCodec, которая обеспечивает эффективное сжатие аудиосигнала. В отличие от традиционных методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты (так называемые «токены») и генерирует запись на основе того, что уже «знает» об образце — моделирует голос, как он бы мог звучать за пределами трёхсекундного образца. Обучение модели производилось на библиотеке LibriLight, собранной Meta* — она же, в свою очередь, была построена на 60 000 часов англоязычной речи более чем 7000 носителей: данные были позаимствованы преимущественно из коллекции LibriVox.

Из-за опасности злоупотреблений технологией Microsoft не стала публиковать код VALL-E для экспериментов, поэтому все желающие протестировать работу модели не смогут. В компании добавили, что аналогичным образом будут поступать и с другими проектами, если они несут потенциальную угрозу злоупотреблений. (Отсюда.)

Технология, конечно, очень интересная, и ее много для чего полезного можно будет использовать, но нельзя не отметить, что грань между реальностью и фейком становится совсем призрачной, если буквально по трехсекундному образцу можно создать совершенно реалистично звучащую искусственную копию и заставить ее говорить все что угодно.

Вот здесь на сайте проекта представлены разнообразные образцы. Speaker Prompt — образцы речи, Ground Truth — запись необходимого текста в исполнении человека, с которого был записан образец, Baseline — традиционный преобразователь текста в речь, VALL-E — работа нового ИИ.

Там также показано, что система может не только придавать голосу нужный эмоциональный окрас, но и имитировать звуковое окружение — телефонный разговор, помехи на улице и так далее. Там много примеров — в том числе, и с имитацией акустического окружения.

Даже эмоции и тон. ИИ от Microsoft может имитировать любой голос по трехсекундному образцу

Корпорация Microsoft разработала новую модель искусственного интеллекта для преобразования текста в речь под названием VALL-E. ИИ может имитировать голос человека из 3-секундного образца. Об этом со ссылкой на ArsTechnica пишет MC.today.

Отмечается, что VALL-E распознает голос и синтезирует аудио. Созданный звук имитирует не только тембр голоса человека, но и его эмоциональный тон и акустику комнаты.

Модель ИИ обучали на 60 тыс. часов аудиозаписей речи более 7 тыс. говорящих на английском языке. Для этого использовали аудиотеку Meta LibriLight.

Для имитации голоса требуется трехсекундный образец речи человека, а также текст, который нужно превратить в аудиоформат. Голос, который VALL-E пытается имитировать, должен быть близок к голосу из образцов. Тогда ИИ использует учебные данные, чтобы сделать вывод, как бы звучал голос человека при озвучивании указанного текста.

Microsoft не предоставила код VALL-E, поэтому нельзя самостоятельно проверить работу ИИ. Это связано с тем, что поддельный голос можно использовать в незаконных целях. Например, злоумышленники могут подделать голосовую идентификацию или выдать себя за конкретного говорящего.

Не пропустите ни одной важной новости от MC.today

Хотя компания не опубликовала код, на GitHub есть результаты работы модели ИИ. С ними можно ознакомиться по ссылке. Спойлер: некоторые голоса звучат очень реалистично, а некоторые наоборот – сразу заметно, что это компьютерный голос. Также VALL-E удалось хорошо имитировать интонацию говорящего и акустику помещения.

Раньше мы рассказывали о нейросети, генерирующей музыку из текста. В отличие от разработки Microsoft, «музыкальной» нейросетью может воспользоваться каждый желающий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *