Инструменты на основе искусственного интеллекта, такие как ChatGPT, становятся всё более совершенными, что делает всё сложнее отличить людей от машин. Это уже достигнуто в случае с генераторами голоса на основе ИИ. LiveScience сообщила, что Microsoft разработала такой генератор, который оказался настолько мощным, что компания решила не выпускать его в свет. Модель могла "генерировать точную, естественную речь голосом исходного диктора", что могло бы привести к росту мошенничества и подделок.
Эта опасная модель ИИ от Microsoft называется VALL-E 2. В предварительном документе от 17 июня исследователи пояснили, что модель достигла значимого рубежа в синтезе текста в речь, впервые достигнув «человеческого паритета». Это означает, что внутренние тесты Microsoft показали, что VALL-E 2 способна воспроизводить человеческую речь, а в некоторых случаях даже превосходить её.
Наши эксперименты, проведенные на наборах данных LibriSpeech и VCTK, показали, что VALL-E 2 превосходит предыдущие системы TTS по надёжности речи, естественности и схожести говорящих. Это первая система, достигшая человеческого паритета по этим показателям.
Microsoft заявляет, что VALL-E 2 является "чисто исследовательским проектом" и у компании нет планов по включению этой технологии в продукт или расширению её доступа для общественности. Тем не менее, Microsoft отметила возможные варианты использования VALL-E 2 в таких областях, как образование, журналистика, создание контента, функции доступности, системы голосового ответа, перевод и чат-боты.