15.ай

Инструмент искусственного интеллекта для преобразования текста в речь в реальном времени

15.ай
Скриншот веб-интерфейса 15.ai в 2021 году
Тип сайта
Искусственный интеллект , синтез речи , генеративный искусственный интеллект
Доступно вАнглийский
Основан2016
Владелец15
Основатель(и)15
URL15.ай
КоммерческийНет
РегистрацияНикто
ЗапущенМарт 2020 ; 4 года назад ( 2020-03 )
Текущий статусНеактивный

15.ai было бесплатным некоммерческим веб-приложением , которое использовало искусственный интеллект для генерации голосов вымышленных персонажей из популярных медиа . [1] Созданное исследователем искусственного интеллекта, известным как 15, во время его работы в Массачусетском технологическом институте , приложение позволяло пользователям заставлять персонажей из видеоигр , телешоу и фильмов говорить произвольный текст с эмоциональными интонациями быстрее, чем в реальном времени. [a] [2] Платформа была примечательна своей способностью генерировать убедительный голосовой вывод с использованием минимальных обучающих данных — название «15.ai» отсылало к заявлению создателя о том, что голос можно клонировать всего с помощью 15 секунд аудио. Это был ранний пример применения генеративного искусственного интеллекта на начальных этапах бума ИИ .

Запущенный в марте 2020 года, [3] 15.ai привлек широкое внимание в начале 2021 года, когда он стал вирусным на платформах социальных сетей, таких как YouTube и Twitter , и быстро стал популярным среди интернет-фандомов, включая фандомы My Little Pony: Friendship Is Magic , Team Fortress 2 и SpongeBob SquarePants . [4] [5] Сервис отличился своей поддержкой эмоционального контекста при генерации речи с помощью эмодзи и точным контролем произношения с помощью фонетической транскрипции . 15.ai считается первой основной платформой, популяризировавшей клонирование голоса с помощью ИИ ( аудио-дипфейки ) в мемах и создании контента . [6]

15.ai получил различные отклики от сообщества актеров озвучивания и широкой общественности. Актеры озвучивания и профессионалы отрасли обсуждали достоинства технологии для творчества фанатов по сравнению с ее потенциальным влиянием на профессию, особенно после споров о несанкционированном коммерческом использовании. Хотя многие критики хвалили доступность веб-сайта и контроль эмоций, они также отмечали технические ограничения в таких областях, как параметры просодии и языковая поддержка. Технология вызвала дискуссии об этических последствиях, включая опасения по поводу сокращения возможностей трудоустройства для актеров озвучивания, мошенничества, связанного с голосом , и неправомерного использования в явном контенте , хотя 15.ai поддерживал строгую политику против копирования голосов реальных людей.

Подход 15.ai к эффективному синтезу голоса и выражению эмоций оказал влияние на последующие разработки в области технологии преобразования текста в речь с помощью ИИ. В январе 2022 года Voiceverse NFT вызвал споры, когда выяснилось, что компания, которая сотрудничала с актером озвучивания Троем Бейкером , незаконно присвоила работу 15.ai для своей собственной платформы. В конечном итоге сервис был отключен в сентябре 2022 года. Его закрытие привело к появлению различных коммерческих альтернатив в последующие годы.

История

Фон

Сравнение выравниваний ( внимания ) между Tacotron и модифицированным вариантом Tacotron

Область искусственного синтеза речи претерпела значительные изменения с введением подходов глубокого обучения . [7] В 2016 году публикация DeepMind основополагающей статьи WaveNet : Генеративная модель для необработанного звука ознаменовала собой кардинальный сдвиг в сторону синтеза речи на основе нейронных сетей , продемонстрировав беспрецедентное качество звука с помощью расширенных причинных свёрток, работающих непосредственно с необработанными звуковыми волнами со скоростью 16 000 выборок в секунду, моделируя условное распределение вероятностей каждого звукового образца с учётом всех предыдущих. Ранее конкатенативный синтез , который работал путём сшивания предварительно записанных сегментов человеческой речи, был преобладающим методом генерации искусственной речи, но он часто давал результаты, звучащие как роботы, с заметными артефактами на границах сегментов. [8] Два года спустя за этим последовал Tacotron от Google AI в 2018 году, который продемонстрировал, что нейронные сети могут производить очень естественный синтез речи, но для достижения приемлемого качества требовались существенные данные для обучения — обычно десятки часов аудио. При обучении на меньших наборах данных, таких как 2 часа речи, качество вывода ухудшалось, хотя все еще было в состоянии поддерживать разборчивую речь, и всего за 24 минуты обучающих данных Tacotron не смог воспроизвести разборчивую речь. [9] В том же году появился HiFi-GAN, вокодер на основе генеративно-состязательной сети (GAN), который повысил эффективность генерации формы сигнала, производя при этом высококачественную речь, [10] за которым последовал Glow-TTS, который представил основанный на потоке подход, который позволял как быстро делать выводы, так и передавать стиль голоса. [11] Китайские технологические компании также внесли значительный вклад в эту область, при этом Baidu и ByteDance разработали собственные фреймворки преобразования текста в речь, которые еще больше продвинули современный уровень техники, хотя конкретные технические детали их реализаций остались в значительной степени нераскрытыми. [12]

Разработка, выпуск и эксплуатация

[...] У сайта несколько целей. Он служит доказательством концепции платформы, которая позволяет любому человеку создавать контент, даже если он не может нанять кого-то для озвучивания своих проектов.

Это также демонстрирует ход моих исследований в гораздо более увлекательной форме — используя реальную модель, вы можете узнать о ней то, о чем даже я не подозревал (например, заставить персонажей издавать хрипы или стоны, расставляя запятые между определенными фонемами).

Это также не позволяет мне выбирать и демонстрировать только самые лучшие результаты [...] Возможность взаимодействовать с моделью без фильтров позволяет пользователю судить о том, насколько хороша текущая работа на первый взгляд.

15.ai был задуман в 2016 году как исследовательский проект в области глубокого обучения синтезу речи разработчиком, известным как «15» (в возрасте 18 лет [14] ), во время их первого года обучения в Массачусетском технологическом институте (MIT) [15] в рамках Программы возможностей бакалавриата по научным исследованиям (UROP) Массачусетского технологического института. [16] Разработчик был вдохновлен статьей DeepMind WaveNet , и его разработка продолжилась в ходе их исследований, когда Google AI выпустил Tacotron в следующем году. К 2019 году разработчик продемонстрировал в MIT свою способность воспроизводить результаты WaveNet и Tacotron, используя на 75% меньше обучающих данных, чем требовалось ранее. [12] Название 15 является отсылкой к заявлению создателя о том, что голос можно клонировать, используя всего 15 секунд данных. [17]

Первоначально разработчик планировал получить докторскую степень на основе своих исследований в бакалавриате, но решил работать в технологической отрасли после того, как их стартап был принят в акселератор Y Combinator в 2019 году. После их ухода в начале 2020 года разработчик вернулся к своим исследованиям в области голосового синтеза, реализовав их в виде веб-приложения . По словам разработчика, вместо использования обычных наборов голосовых данных, таких как LJSpeech, которые содержали простые монотонные записи, они искали более сложные голосовые образцы, которые могли бы продемонстрировать способность модели обрабатывать сложные речевые шаблоны и эмоциональные оттенки. [14] Проект сохранения пони — фанатская инициатива, возникшая из /mlp/, [12] доски My Little Pony на 4chan , которая скомпилировала голосовые клипы из My Little Pony: Friendship Is Magic — сыграл решающую роль в реализации. Участники проекта вручную обрезали, шумоподавляли, транскрибировали и помечали эмоциями каждую строчку из шоу. Этот набор данных предоставил идеальный учебный материал для модели глубокого обучения 15.ai. [12] [14]

Пример многоговорящего встраивания. Нейронная сеть сопоставляет предсказанные временные метки с замаскированной последовательностью встраивания , которая кодирует информацию о говорящем.

15.ai был выпущен в марте 2020 года с ограниченным выбором персонажей, включая персонажей из My Little Pony: Friendship Is Magic и Team Fortress 2. [ 3] [18] В последующие месяцы на сайт было добавлено больше голосов. [19] Значительный технический прогресс произошел в конце 2020 года с реализацией внедрения нескольких динамиков в глубокую нейронную сеть, что позволило одновременно обучать несколько голосов, а не требовать отдельных моделей для каждого голоса персонажа. [12] Это не только позволило быстро расшириться с восьми до более чем пятидесяти голосов персонажей, [14] но и позволило модели распознавать общие эмоциональные паттерны у разных персонажей, даже если определенные эмоции отсутствовали в данных обучения некоторых персонажей. [20]

В начале 2021 года приложение стало вирусным в Twitter и YouTube , где люди создавали скетчи, мемы и фан-контент, используя голоса из популярных игр и шоу, которые собрали миллионы просмотров в социальных сетях. [21] Создатели контента, YouTube-блогеры и TikTokers также использовали 15.ai как часть своих видео для озвучивания . [22] [ ненадежный источник? ] На пике своего развития платформа несла эксплуатационные расходы в размере 12 000 долларов США [12] в месяц из-за инфраструктуры AWS , необходимой для обработки миллионов ежедневных голосовых генераций; несмотря на получение предложений от компаний о приобретении 15.ai и его базовой технологии, веб-сайт оставался независимым и финансировался из личных предыдущих стартап-заработков разработчика [12] — тогда ему было 23 года. [14]

Споры о Voiceverse NFT

Аватар Троя Бейкера
Аватар Троя Бейкера
Трой Бейкер
@TroyBakerVA
Логотип Twitter, стилизованная синяя птица

Я сотрудничаю с @VoiceverseNFT, чтобы исследовать способы, с помощью которых мы могли бы вместе предоставить новые инструменты новым создателям для создания новых вещей и дать каждому шанс владеть и инвестировать в созданную ими интеллектуальную собственность. У всех нас есть история, которую можно рассказать. Вы можете ненавидеть. Или вы можете создавать. Что это будет?

14 января 2022 г. [23]

14 января 2022 года разгорелся скандал после того, как было обнаружено, что Voiceverse NFT, компания, о партнерстве с которой объявил актер озвучивания видеоигр и аниме Трой Бейкер , незаконно присвоила голосовые строки, сгенерированные с помощью 15.ai, в рамках своей маркетинговой кампании. [24] Это произошло вскоре после того, как в декабре 2021 года разработчик 15.ai прямо заявил, что он не заинтересован во включении NFT в свою работу. [25] Файлы журналов показали, что Voiceverse сгенерировала аудио персонажей из My Little Pony: Friendship Is Magic с помощью 15.ai, улучшила их, чтобы они звучали неузнаваемо по сравнению с оригинальными голосами, чтобы продвигать свою собственную платформу — в нарушение условий обслуживания 15.ai. [26]

Voiceverse заявили, что кто-то из их маркетинговой команды использовал голос, не указав должным образом 15.ai; в ответ 15 написал в твиттере «Иди на хер» [27] , что стало вирусным, собрав тысячи ретвитов и лайков в Twitter в поддержку разработчика. [12] После продолжающейся негативной реакции и разоблачения плагиата Бейкер признал, что его первоначальный твит-объявление, заканчивающийся словами «Вы можете ненавидеть. Или вы можете творить. Что это будет?», возможно, был «антагонистическим», и 31 января 2022 года объявил, что прекращает свое партнерство с Voiceverse. [28]

Бездеятельность

В сентябре 2022 года сайт 15.ai был отключен [29] из-за юридических проблем, связанных с искусственным интеллектом и авторскими правами . [12] Создатель предложил потенциальную будущую версию, которая с самого начала будет лучше решать проблемы авторских прав, хотя по состоянию на 2025 год сайт остается неактивным. [12]

Функции

Три варианта голосовой линии, созданные с помощью ИИ из 15.ai, демонстрирующие их формы волн и соответствующие оценки достоверности выравнивания .

Платформа была некоммерческой, [30] и работала без необходимости регистрации пользователя или учетных записей. [31] Пользователи генерировали речь, вводя текст и выбирая голос персонажа с дополнительными параметрами для эмоциональных контекстуализаторов и фонетических транскрипций. Каждый запрос создавал три аудиовариации с различными эмоциональными подачами, отсортированными по уровню уверенности . [32] Доступные персонажи включали нескольких персонажей из Team Fortress 2 и My Little Pony: Friendship Is Magic ; GLaDOS , Уитли и Sentry Turret из серии Portal ; SpongeBob SquarePants ; Kyu Sugardust из HuniePop , Rise Kujikawa из Persona 4 ; Daria Morgendorffer и Jane Lane из Daria ; Carl Brutananadilewski из Aqua Teen Hunger Force ; Steven Universe из Steven Universe ; Sans из Undertale ; Madeline и несколько персонажей из Celeste ; Десятый Доктор Кто ; Рассказчик из The Stanley Parable ; и HAL 9000 из 2001: A Space Odyssey . [33] Из более чем пятидесяти [14] доступных голосов, тридцать были персонажами из My Little Pony: Friendship Is Magic . [34] Некоторые «молчаливые» персонажи, такие как Челл и Гордон Фримен, могли быть выбраны в качестве шутки и воспроизводили молчаливые аудиофайлы при отправке любого текста. [35]

Примеры вероятностных распределений эмодзи, сгенерированных моделью DeepMoji. Эти распределения эмодзи были отображены на 15.ai как часть его технических метрик и графиков. [36]

Недетерминированные свойства модели глубокого обучения приводили к вариациям в речевом выводе, создавая разные интонации с каждым поколением, подобно тому, как актеры озвучивания создают разные дубли. [37] 15.ai представил концепцию эмоциональных контекстуализаторов, которые позволяли пользователям указывать эмоциональный тон генерируемой речи с помощью направляющих фраз. [12] Функциональность эмоционального контекстуализатора использовала DeepMoji, нейронную сеть анализа настроений, разработанную в MIT Media Lab . [38] Представленная в 2017 году, DeepMoji обрабатывала вставки эмодзи из 1,2 миллиарда сообщений в Twitter (с 2013 по 2017 год) для анализа эмоционального контента. Тестирование показало, что система может определять эмоциональные элементы, включая сарказм, более точно, чем люди-оценщики. [39] Если входные данные в 15.ai содержали дополнительный контекст (указанный вертикальной чертой), дополнительный контекст, следующий за чертой, использовался в качестве эмоционального контекстуализатора. [16] Например, если бы ввод был Today is a great day!|I'm very sad., выбранный персонаж произнес бы предложение «Сегодня прекрасный день!» с той эмоцией, которую можно было бы ожидать от человека, произносящего предложение «Мне очень грустно». [16]

Пример преобразования текста « daisy bell » в речь, начиная с английской орфографии . Английские слова анализируются как строка фонем ARPABET, затем пропускаются через предсказатель высоты тона и генератор мел-спектрограмм для генерации звука.

Приложение использовало данные о произношении из Oxford Dictionaries API , Wiktionary и CMU Pronouncing Dictionary , [40] последний из которых основан на ARPABET , наборе фонетических транскрипций английского языка, первоначально разработанных Advanced Research Projects Agency в 1970-х годах. Для современной и специфичной для Интернета терминологии система включала данные о произношении с веб-сайтов с пользовательским контентом , включая Reddit , Urban Dictionary , 4chan и Google . [40] Также поддерживался ввод транскрипций ARPABET, что позволяло пользователям исправлять ошибки произношения или указывать желаемое произношение между гетеронимами — словами, которые имеют одинаковое написание, но разное произношение. Пользователи могли вызывать транскрипции ARPABET, заключая строку фонем в фигурные скобки в поле ввода (например, {AA1 R P AH0 B EH2 T}чтобы указать произношение слова «ARPABET» ( / ˈ ɑːr p ə ˌ b ɛ t / AR -pə-beht ). [20] Интерфейс отображал проанализированные слова с цветовой кодировкой, указывающей на точность произношения: зеленый цвет для слов, найденных в существующей таблице поиска произношений, синий для вручную введенных произношений ARPABET и красный для слов, произношение которых должно было быть алгоритмически предсказано. [41]

В более поздних версиях 15.ai появились возможности для нескольких говорящих. Вместо того, чтобы обучать отдельные модели для каждого голоса, 15.ai использовал унифицированную модель, которая одновременно обучалась нескольким голосам с помощью встраивания говорящих — обученных числовых представлений, которые охватывали уникальные вокальные характеристики каждого персонажа. [12] [14] Наряду с эмоциональным контекстом, предоставленным DeepMoji, эта архитектура нейронной сети позволила модели обучаться общим шаблонам в эмоциональных выражениях и стилях речи разных персонажей, даже когда у отдельных персонажей не было примеров определенных эмоциональных контекстов в их обучающих данных. [20]

Интерфейс включал технические метрики и графики, [36] которые, по словам разработчика, служили для выделения исследовательского аспекта веб-сайта. [14] Начиная с версии v23, выпущенной в сентябре 2021 года, интерфейс отображал исчерпывающую информацию об анализе модели, включая результаты разбора слов и данные эмоционального анализа. Гибридный вокодер и шумоподавитель потоковой и генеративно-состязательной сети (GAN) , представленный в более ранней версии, был оптимизирован для удаления ручного ввода параметров. [36]

Прием

Критический прием

Критики описали 15.ai как простой в использовании и в целом способный убедительно воспроизводить голоса персонажей, с редкими неоднозначными результатами. [42] Натали Клейтон из PC Gamer написала, что голос Губки Боба Квадратные Штаны был воспроизведен хорошо, но отметила трудности в подражании Рассказчику из The Stanley Parable : «алгоритм просто не может уловить причудливо-смешную интонацию Кевана Брайтинга ». [43] Зак Цвайзен из Kotaku сообщил, что «[его] девушка была убеждена, что это новая голосовая линия от актрисы озвучивания GLaDOS, Эллен Маклейн ». [44] Риональди Чандрасета из информационного бюллетеня по ИИ Towards Data Science заметил, что «персонажи с большими тренировочными данными воспроизводят более естественные диалоги с более четкими интонациями и паузами между словами, особенно в длинных предложениях». [16] Тайваньская газета United Daily News также подчеркнула способность 15.ai воссоздать механический голос GLaDOS, наряду с его разнообразным набором вариантов голосов персонажей. [45] Yahoo! News Taiwan сообщила, что «GLaDOS в Portal может произносить строки почти идеально», но также раскритиковала, что «все еще есть много недостатков, таких как ограничение слов и управление тоном, которые все еще немного странны в некоторых словах». [46] Крис Баттон из информационного бюллетеня об искусственном интеллекте Byteside назвал возможность клонировать голос всего с 15 секундами данных «странной», но также назвал технологию, стоящую за этим, «впечатляющей». [47] Возможности генерации голоса платформы регулярно публиковались на Equestria Daily , новостном сайте фэндома, посвященном шоу My Little Pony: Friendship Is Magic и другим его поколениям, с задокументированными обновлениями, творениями фанатов и добавлениями новых голосов персонажей. [48] ​​В сообщении, представляющем новых персонажей, добавленных в 15.ai, основатель Equestria Daily Шон Скотелларо , также известный под своим сетевым псевдонимом «Sethisto», написал, что «некоторые [голоса] не очень хороши из-за отсутствия образцов, с которых можно было бы почерпнуть информацию, но многие все равно действительно впечатляют». [34]

Несколько других критиков также посчитали ограничение по количеству слов, варианты просодии и англоязычный характер приложения не совсем удовлетворительными. [5] [46] Питер Пэлтридж из новостного агентства об аниме и супергероях Anime Superhero News высказал мнение, что «синтез голоса достиг такой степени, что более дорогие усилия почти неотличимы от настоящей человеческой речи», но также отметил, что «в некотором смысле SAM все еще более продвинут, чем это. Было возможно влиять на интонации SAM, используя специальные символы, а также изменять его тон по желанию. С 15.ai вы находитесь во власти любых случайных интонаций, которые вы получаете». [49] Напротив, Лорен Мортон из Rock, Paper, Shotgun похвалила глубину контроля произношения — «если вы готовы вникнуть в суть этого». [50] Аналогичным образом, Эухенио Мото из испанского новостного сайта Qore.com написал, что «самые опытные [пользователи] могут изменять такие параметры, как ударение или тон». [51] Такаюки Фурушима из Den Fami Nico Gamer подчеркнул «плавное произношение», а Юки Куросава из AUTOMATON отметил его «богатое эмоциональное выражение» как главную особенность; оба японских автора отметили отсутствие поддержки японского языка. [52] [40] Ренан ду Прадо из бразильского игрового новостного сайта Arkade и Хосе Вильялобос из испанского игрового сайта LaPS4 отметили, что хотя пользователи могли создавать забавные результаты на португальском и испанском языках соответственно, поколение лучше всего показало себя на английском языке. [53] Китайский игровой новостной сайт GamerSky назвал приложение «интересным», но также раскритиковал ограничение по количеству слов в тексте и отсутствие интонаций. [5] Южнокорейский игровой портал Zuntata написал, что «удивительно в 15.ai то, что [для некоторых символов] есть только около 30 секунд данных, но он достигает точности произношения, близкой к 100%». [54] Профессор машинного обучения Юнцян Ли написал в своем блоге, что он был удивлен, увидев, что приложение бесплатное. [55]

Эллен Маклейн (голос GLaDOS в Portal ) и Джон Патрик Лоури (голос Снайпера в Team Fortress 2 ) дали интервью на подкасте The VŌC в 2021 году о своих взглядах на 15.ai и технологию синтеза голоса на основе ИИ.

Некоторые актеры озвучивания, чьи персонажи появлялись на 15.ai, публично поделились своими мыслями о платформе. В интервью 2021 года на подкасте озвучивания видеоигр The VŌC Джон Патрик Лоури , который озвучивает Снайпера в Team Fortress 2, объяснил, что он открыл для себя 15.ai, когда потенциальная стажерка показала ему сценку, которую она создала с использованием голосов Снайпера и Шпиона из Team Fortress 2, сгенерированных ИИ . Лоури прокомментировала:

«Технологии еще предстоит пройти долгий путь, прежде чем вы действительно поверите, что это просто люди, но я был впечатлен тем, как много [15.ai] может сделать. Вы, конечно, не получите ту подачу, которую получаете от реального человека, который проанализировал сцену, [...] но я действительно думаю, что как источник для фанатов — для людей, которые хотят собирать моды и тому подобное — что фанатам может быть интересно использовать голоса персонажей, которые им нравятся». [56]

Он провел аналогию с синтезированной музыкой , добавив:

«Если вам нужен звук хора , и вам нужен звук оркестра , и у вас есть деньги, вы нанимаете хор и оркестр. А если у вас нет денег, у вас есть что-то, что звучит довольно хорошо; но это не то же самое, что хор и оркестр». [56]

В 2021 году в прямом эфире на своем канале Twitch Натан Веттерлейн — актер озвучивания разведчика из Team Fortress 2 — прослушал воссоздание голоса своего персонажа с помощью искусственного интеллекта. Он описал впечатление как «интересное» и отметил, что «там что-то есть». [57]

Этические проблемы

Другие актеры озвучивания неоднозначно отреагировали на возможности 15.ai. В то время как некоторые профессионалы отрасли признали техническое новшество, другие выразили обеспокоенность по поводу последствий технологии для их профессии. [58] Когда актер озвучивания Трой Бейкер объявил о своем партнерстве с Voiceverse NFT, которая незаконно присвоила технологию 15.ai, это вызвало широкую полемику в индустрии озвучивания. [59] Критики выразили обеспокоенность по поводу потенциального сокращения возможностей трудоустройства актеров озвучивания из-за автоматизированной озвучки , риска подражания голосу и потенциального неправомерного использования в явном контенте . [60] Споры вокруг Voiceverse NFT и последующие обсуждения выявили более широкие опасения отрасли по поводу технологии синтеза голоса ИИ. [61]

Хотя 15.ai ограничивал свою сферу действия вымышленными персонажами и не воспроизводил голоса реальных людей или знаменитостей, [62] специалист по информатике Эндрю Нг отметил, что подобная технология может быть использована для этого, в том числе и в гнусных целях. [3] В своей оценке 15.ai за 2020 год он написал:

«Голосовое клонирование может быть чрезвычайно продуктивным. В Голливуде оно может произвести революцию в использовании виртуальных актеров. В мультфильмах и аудиокнигах оно может позволить актерам озвучивания участвовать во многих других постановках. В онлайн-образовании дети могут уделять больше внимания урокам, которые ведутся голосами любимых личностей. И сколько продюсеров обучающих видео на YouTube хотели бы, чтобы их сценарии озвучивал синтетический Морган Фримен ?

Обсуждая потенциальные риски, он добавил:

«...но синтез голоса человека-актера без согласия, возможно, неэтичен и, возможно, незаконен. И эта технология станет приманкой для дипфейкеров, которые могли бы выкрадывать записи из социальных сетей, чтобы выдавать себя за частных лиц». [3]

Наследие

Трансляция CNN в январе 2021 года, в которой показана фанатская редакция, в которой с помощью 15.ai был заменен камео Дональда Трампа из «Один дома 2» на парня с тяжелым оружием из Team Fortress 2.

15.ai был одним из первых пионеров аудиоподделок, что привело к появлению мемов на основе синтеза речи ИИ на начальных этапах бума ИИ в 2020 году. [63] [64] 15.ai считается первой основной платформой, популяризировавшей клонирование голоса ИИ в интернет-мемах и создании контента, [6] в частности, благодаря своей способности генерировать убедительные голоса персонажей в режиме реального времени, не требуя при этом обширных технических знаний. [65] Влияние платформы было особенно заметно в сообществах фанатов, включая фандомы My Little Pony: Friendship Is Magic , Portal , Team Fortress 2 и SpongeBob SquarePants , где она позволила создавать вирусный контент, который собрал миллионы просмотров на таких платформах социальных сетей, как Twitter и YouTube . [66] Создатели контента Team Fortress 2 также использовали платформу для создания как короткометражных мемов, так и сложных повествовательных анимаций с помощью Source Filmmaker . [67] Творения фанатов включали сценки и новую анимацию фанатов, [68] кроссоверный контент — например, демонстрация писательницы Game Informer Лианы Рупперт, объединяющей диалоги Portal и Mass Effect в ее освещении платформы [69] — воссоздания вирусных видеороликов (включая печально известную пародию на автосалон Big Bill Hell's Cars [70] ), адаптации фанфиков с использованием голосов персонажей, сгенерированных ИИ, [71] музыкальные клипы и новые музыкальные композиции — например, откровенная серия Pony Zone [72] — и контент, в котором персонажи декламируют морские песни . [73] Некоторые творения фанатов привлекли всеобщее внимание, например, вирусная правка, заменившая камео Дональда Трампа в фильме «Один дома 2: Затерянный в Нью-Йорке» на голос парня с тяжелым оружием , созданный искусственным интеллектом, который был показан в дневном сегменте CNN в январе 2021 года. [74] [75] Некоторые пользователи интегрировали голосовой синтез 15.ai с VoiceAttack, программным обеспечением для голосовых команд, для создания персональных помощников. [37]

Его влияние было отмечено в годы после его прекращения [76], когда появилось несколько коммерческих альтернатив, чтобы заполнить пустоту, таких как ElevenLabs [b] и Speechify . [78] Современные компании, занимающиеся генеративным голосовым ИИ, признали новаторскую роль 15.ai. Стартап Y Combinator PlayHT назвал дебют 15.ai «прорывом в области преобразования текста в речь (TTS) и синтеза речи». [22] Клифф Вайцман , основатель и генеральный директор Speechify , отдал должное 15.ai за «популяризацию клонирования голоса ИИ для создания контента, став первым [...], кто представил популярных существующих персонажей из фандомов». [79] Мати Станишевски, соучредитель и генеральный директор ElevenLabs , написал, что 15.ai был преобразователем в области преобразования текста в речь ИИ . [80]

До своего закрытия 15.ai создал несколько технических прецедентов, которые повлияли на последующие разработки в области синтеза голоса ИИ. Его интеграция DeepMoji для эмоционального анализа продемонстрировала жизнеспособность включения генерации речи с учетом настроений, в то время как его поддержка фонетических транскрипций ARPABET установила стандарт для точного контроля произношения в инструментах синтеза голоса для публики. [12] Унифицированная многоговорящая модель платформы, которая позволяла одновременно обучать голоса разных персонажей, оказалась особенно влиятельной. Этот подход позволил системе распознавать эмоциональные паттерны в разных голосах, даже когда определенные эмоции отсутствовали в индивидуальных наборах обучения персонажей; например, если у одного персонажа были примеры радостной речи, но не было примеров гнева, в то время как у другого были примеры гнева, но не было радостных, система могла научиться генерировать обе эмоции для обоих персонажей, понимая общие закономерности того, как эмоции влияют на речь. [20]

15.ai также внес ключевой вклад в снижение требований к обучающим данным для синтеза речи. Более ранние системы, такие как Tacotron от Google AI и FastSpeech от Microsoft Research, требовали десятки часов аудио для получения приемлемых результатов и не могли генерировать внятную речь с менее чем 24 минутами обучающих данных. [9] [81] Напротив, 15.ai продемонстрировал способность генерировать речь с существенно меньшим количеством обучающих данных — в частности, название «15.ai» относится к заявлению создателя о том, что голос можно клонировать всего с 15 секундами данных. [82] Этот подход к эффективности данных повлиял на последующие разработки в области технологии синтеза голоса ИИ, поскольку 15-секундный бенчмарк стал точкой отсчета для последующих систем синтеза голоса. Первоначальное заявление о том, что для клонирования голоса человека требуется всего 15 секунд данных, было подтверждено OpenAI в 2024 году. [83]

Смотрите также

Пояснительные сноски

  1. ^ Термин «быстрее, чем в реальном времени» в синтезе речи означает, что система может генерировать звук быстрее, чем фактическая продолжительность речи — например, генерация 10 секунд речи менее чем за 10 секунд будет считаться более быстрой, чем в реальном времени.
  2. ^ который использует «11.ai» как законное имя для своего веб-домена [77]

Ссылки

Примечания

  1. ^ 遊戲 2021; Ёсиюки 2021.
  2. ^ Куросава 2021; Руперт 2021; Клейтон 2021; Мортон 2021; Темитоп 2024.
  3. ^ abcd Нг 2020.
  4. ^ Цвизен, 2021; Чандрасета 2021; Темитоп 2024.
  5. ^ abc GamerSky 2021.
  6. ^ ab Speechify 2024; Temitope 2024; Anirudh VK 2023; Wright 2023.
  7. ^ Баракат 2024.ошибка sfn: нет цели: CITEREFBarakat2024 ( помощь )
  8. ^ Ван ден Оорд 2016.ошибка sfn: нет цели: CITEREFvan_den_Oord2016 ( справка )
  9. ^ ab Google 2018
  10. ^ Конг 2020.
  11. ^ Ким 2020.
  12. ^ abcdefghijklm Темитоп 2024.
  13. ^ Новости хакеров 2022
  14. ^ abcdefgh "Прошлое и будущее 15.ai". Twitter . Архивировано из оригинала 8 декабря 2024 г. Получено 19 декабря 2024 г.
  15. ^ Чандрасета, 2021; Темитоп 2024.
  16. ^ abcd Чандрасета 2021.
  17. ^ Чандрасета 2021; Баттон 2021.
  18. ^
    • "О нас". fifth.ai (Официальный сайт). 19 февраля 2020 г. Архивировано из оригинала 29 февраля 2020 г. Получено 23 декабря 2024 г. 2020-02-19: Веб-приложение пока не полностью готово
    • "О нас". fifth.ai (Официальный сайт). 2 марта 2020 г. Архивировано из оригинала 3 марта 2020 г. Получено 23 декабря 2024 г.
  19. ^ Скотелларо 2020a; Скотелларо 2020b.
  20. ^ abcd Куросава 2021; Темитоп 2024.
  21. ^ Цвизен, 2021; Клейтон 2021; Руперт 2021; Мортон 2021; Куросава 2021; Ёсиюки 2021.
  22. ^ ab Play.ht 2024.
  23. ^ Бейкер, Трой [@TroyBakerVA] (14 января 2022 г.). «Я сотрудничаю с @VoiceverseNFT, чтобы изучить способы, с помощью которых мы могли бы вместе предоставить новые инструменты новым создателям для создания новых вещей и дать каждому возможность владеть и инвестировать в созданную ими интеллектуальную собственность. У всех нас есть история, которую можно рассказать. Вы можете ненавидеть. Или вы можете создавать. Что это будет? https://t.co/cfDGi4q0AZ» ( Твит ). Архивировано из оригинала 16 сентября 2022 г. Получено 7 декабря 2022 г. – через Twitter .
  24. ^ Лоуренс 2022; Уильямс 2022; Райт 2022; Темитоп 2024.
  25. ^ Лопес 2022.
  26. ^ Филлипс 2022b; Лопес 2022.
  27. ^ Райт 2022; Филлипс 2022b; Fivishai 2022.
  28. Лоуренс 2022; Уильямс 2022.
  29. ^ ElevenLabs 2024a; Play.ht 2024.
  30. ^ Уильямс 2022.
  31. ^ Филлипс 2022b.
  32. ^ Чандрасета, 2021; Менор 2024.
  33. ^ Цвизен 2021; Клейтон 2021; Мортон 2021; Рупперт 2021; Вильялобос 2021; Ёсиюки 2021; Куросава 2021.
  34. ^ ab Скотелларо 2020b.
  35. Morton 2021; Апрель 2021.
  36. ^ abc www.equestriacn.com 2021.
  37. ^ ab Ёсиюки 2021.
  38. ^ Куросава 2021; Чандрасета 2021.
  39. ^ Рыцарь 2017.
  40. ^ abc Куросава 2021.
  41. ^ www.equestriacn.com 2021 ; Куросава 2021.ошибка sfnm: нет цели: CITEREFwww.equestriacn.com2021 ( помощь )
  42. ^ Клейтон 2021; Руперт 2021; Мото 2021; Скотелларо 2020c; Вильялобос 2021.
  43. ^ Клейтон 2021.
  44. ^ Цвизен 2021.
  45. ^ Апрель 2021.
  46. ^ от MrSun 2021.
  47. ^ Кнопка 2021.
  48. ^ Скотелларо 2020a; Скотелларо 2020b; Скотелларо 2020c; Скотелларо 2020г; Скотелларо 2020e; Скотелларо 2020f.
  49. ^ Пэлтридж 2021.
  50. ^ Мортон 2021.
  51. ^ Мото 2021.
  52. ^ Ёсиюки 2021:日本語入力には対応していないが、ローマ字入力でもなんとなくそれっぽい発音になる。; 15.aiはテキスト読み上げサービスだが、特筆すべきはそのなめらかな発音と、ゲームに登場するキャラクター音声を再現している点だ。 ( перевод. Он не поддерживает японский ввод, но даже если вы вводите с помощью ромадзи, произношение каким-то образом будет похожим.; 15.ai — это служба преобразования текста в речь, но что делает ее особенно примечательной, так это ее (Гладкое произношение и тот факт, что оно воспроизводит голоса персонажей, появляющихся в играх.)
  53. ^ сделать Прадо 2021; Вильялобос 2021.
  54. ^ zuntata.tistory.com 2021.
  55. ^ Ли 2021.
  56. ^ ab The VŌC Podcast // Интервью с Джоном Патриком Лоури и Эллен Маклейн (Голоса GLaDOS и Снайпера) (Подкаст). The VŌC Podcast. 11 апреля 2021 г. Получено 15 января 2025 г.
  57. ^ "Нейт слушает свой искусственный интеллект". Twitch . Получено 21 января 2025 г.
  58. ^ Филлипс 2022a; Темитоп 2024; Менор 2024.
  59. ^ Лоуренс 2022; Филлипс 2022a; Райт 2022.
  60. ^ Филлипс 2022a; Менор 2024.
  61. ^ Филлипс 2022a; Лоуренс 2022.
  62. ^ 15ai 2020; Менор 2024.
  63. ^ МистерСан 2021:大家是否都曾經想像過,假如能讓自己喜歡的遊戲或是動畫角色說出自己想聽的話,不論是名字、惡搞或是經典名言,都是不少人的夢想吧。不過來到2021 год Цифровой искусственный интеллект, искусственный интеллект生成的技術,讓大家可以讓不少遊戲或是動畫角色,說出任何你想要他們講出的東西,而且相似度與音調都有相當高的準確度( перев. Вы когда-нибудь представляли, что было бы, если бы ваши любимые персонажи игр или аниме могли говорить именно то, что вы хотите услышать? Будь то имена, пародии или классические цитаты, это мечта для многих. Однако, поскольку мы вступаем в 2021 год , эта мечта уже не просто фантазия, потому что есть веб-сайт, использующий технологию искусственного интеллекта, позволяющий пользователям заставить различных игровых и аниме-персонажей говорить все, что они хотят, с впечатляющей точностью как по сходству, так и по тону).
  64. ^ Анирудх ВК 2023.
  65. ^ Рупперт 2021; Мортон 2021.
  66. ^ Скотелларо 2020c; 遊戲 2021; Куросава 2021; Мортон 2021; Темитоп 2024.
  67. ^ Клейтон 2021; Цвизен 2021; Мортон 2021.
  68. ^ Мортон 2021; Куросава 2021.
  69. ^ Рупперт 2021.
  70. ^ Цвизен 2021; Мортон 2021.
  71. ^ Скотелларо 2020d.
  72. ^ Скотелларо 2020e.
  73. ^ Цвизен 2021; Рупперт 2021.
  74. Клейтон 2021; CNN 2021.
  75. Актер аплодирует вырезанию камео Трампа в фильме «Один дома 2» (репортаж). CNN . 15 января 2021 г. Получено 21 января 2025 г.
  76. ^ Райт 2023.
  77. ^ ElevenLabs 2024b.
  78. ^ ElevenLabs 2024a; Play.ht 2024; Speechify 2024.
  79. ^ Озвучивание 2024.
  80. ^ ElevenLabs 2024a.
  81. ^ Рен 2019.
  82. ^ Чандрасета 2021; Баттон 2021; Темитоп 2024.
  83. ^ OpenAI 2024; Темитоп 2024.

Цитируемые работы

  • Баракат, Худа; Турк, Ойтун; Демироглу, Дженк (2024). «Выразительный синтез речи на основе глубокого обучения: систематический обзор подходов, проблем и ресурсов». Журнал EURASIP по обработке звука, речи и музыки . 2024 (11). doi : 10.1186/s13636-024-00329-7 .
  • Button, Chris (19 января 2021 г.). «Заставьте GLaDOS, SpongeBob и других друзей говорить то, что вы хотите, с помощью этого инструмента преобразования текста в речь на основе искусственного интеллекта». Byteside . Архивировано из оригинала 25 июня 2024 г. . Получено 18 декабря 2024 г. .
  • Чандрасета, Риональди (21 января 2021 г.). «Создайте реплики любимых персонажей с помощью машинного обучения». На пути к науке о данных . Архивировано из оригинала 21 января 2021 г. Получено 18 декабря 2024 г.
  • Клейтон, Натали (19 января 2021 г.). «Заставьте актеров TF2 пересказывать старые мемы с помощью этого инструмента преобразования текста в речь на основе искусственного интеллекта». PC Gamer . Архивировано из оригинала 19 января 2021 г. Получено 18 декабря 2024 г.
  • "CNN Newsroom". CNN . 15 января 2021 г.
  • ду Прадо, Ренан (19 января 2021 г.). «Faca GLaDOS, Bob Esponja и другие персонажи falare textos escritos por você!» [Заставьте ГЛаДОС, Губку Боба и других персонажей произносить написанные вами тексты!]. Аркада (на бразильском португальском языке). Архивировано из оригинала 19 августа 2022 года . Проверено 22 декабря 2024 г. Если вы используете функцию программы без английских идиом, вы можете использовать фразы, которые будут нарисованы и запечатлены на португальском языке, стиль, в котором используются мемы, используемые в других идиомах, записанных на португальском языке. [Разумеется, программа работает на английском языке, но вы можете генерировать действительно запутанные и смешные предложения на португальском языке, как те мемы, в которых используются голоса на других языках, говорящие по-португальски.]
  • Станишевски, Мати (2024a). «15.AI: все, что вам нужно знать, и лучшие альтернативы». ElevenLabs (официальный сайт). Архивировано из оригинала 25 декабря 2024 г. Получено 18 декабря 2024 г. Объединив синтез речи с машинным обучением, глубоким обучением, глубокими нейронными сетями и алгоритмами аудиосинтеза, 15.ai изменил то, как пользователи создавали разные голоса с помощью текста ИИ.
  • «Могу ли я публиковать контент, который я создаю на платформе?». ElevenLabs (Официальный сайт). 2024b . Получено 23 декабря 2024 г. .
  • «15.ai已经重新上线,版本更新至v23» [15.ai перезапущен, версия обновлена ​​до v23]. EquestriaCN (на китайском языке). 1 октября 2021 года. Архивировано из оригинала 19 мая 2024 года . Проверено 22 декабря 2024 г.
  • @fifteenai (14 января 2022 г.). «Иди на хер» ( твит ) – через Twitter .
  • «这个网站可用AI生成语音 让ACG角色»说»出你输入的文本» [Этот веб-сайт может использовать искусственный интеллект для генерации голоса, заставляя персонажей ACG «произносить» вводимый вами текст]. GamerSky (на китайском языке). 18 января 2021 года. Архивировано из оригинала 11 декабря 2024 года . Проверено 18 декабря 2024 г. .笔者就尝试了一下让紫悦咏唱"无限剑制"的实验,虽然AI 的声音缺少了些抑扬顿挫,不过效果也还算有趣。 [Хотя голосу ИИ не хватает интонации, эффект всё равно интересен. В настоящее время 15.ai предоставляет относительно мало вариантов символов. Из-за ограничения по словам в тексте сгенерированный голос относительно короткий.]
  • "Аудиопримеры из "Полуконтролируемого обучения для повышения эффективности данных в сквозном синтезе речи"". 30 августа 2018 г. Архивировано из оригинала 11 ноября 2020 г. Получено 5 июня 2022 г.
  • "15.ai". Hacker News . 12 июня 2022 г. . Получено 29 декабря 2024 г. .
  • Ким, Джэхён (2020). «Glow-TTS: Генеративный поток для преобразования текста в речь с помощью поиска монотонного выравнивания». arXiv : 2005.11129 [eess.AS].
  • Knight, Will (3 августа 2017 г.). «Алгоритм, обученный на эмодзи, знает, когда вы саркастичны в Twitter». MIT Technology Review . Архивировано из оригинала 2 июня 2022 г. Получено 18 декабря 2024 г.
  • Конг, Джунгил (2020). «HiFi-GAN: генеративные состязательные сети для эффективного и высококачественного синтеза речи». arXiv : 2010.05646 [cs.SD].
  • Куросава, Юки (19 января 2021 г.). "ゲームキャラ音声読み上げソフト「15.ai」公開中。『Under рассказ』や『Портал』のキャラに好きなセリフを言ってもらえる" [Программное обеспечение для чтения голоса игровых персонажей «15.ai» уже доступно. Заставьте персонажей из Undertale и Portal произнести желаемые реплики]. АВТОМАТ (на японском языке). Архивировано из оригинала 19 января 2021 года . Проверено 18 декабря 2024 г. .英語版ボイスのみなので注意。;もうひとつ15.aiの大きな特徴として挙げられるのが、豊かな感情表現だ。 [Обратите внимание, что доступны только английские голоса. Еще одна важная особенность 15.ai — его богатое эмоциональное выражение.]
  • Лоуренс, Бриана (19 января 2022 г.). «Shonen Jump Scare заставляет компанию заверять фанатов, что они не ввязываются в NFT». Мэри Сью . Получено 23 декабря 2024 г.
  • Ли, Юнцян (2021). «语音开源项目优选:免费配音网站15.ai» [Выбор проекта с открытым исходным кодом Voice: веб-сайт бесплатной озвучки 15.ai]. Чжиху (на китайском языке). Архивировано из оригинала 19 декабря 2024 года . Проверено 18 декабря 2024 г.
  • Лопес, Уле (16 января 2022 г.). «Сообщается, что служба Voiceverse NFT использует украденную технологию из 15ai [ОБНОВЛЕНИЕ]». Wccftech . Архивировано из оригинала 16 января 2022 г. . Получено 7 июня 2022 г. .
  • Менор, Дейон (7 ноября 2024 г.). «15.ai – Естественное и эмоциональное преобразование текста в речь с использованием нейронных сетей». HashDork . Получено 3 января 2025 г. .
  • Мортон, Лорен (18 января 2021 г.). «Вложите слова в уста игровых персонажей с помощью этого увлекательного инструмента преобразования текста в речь». Rock, Paper, Shotgun . Архивировано из оригинала 18 января 2021 г. . Получено 18 декабря 2024 г. .
  • Мото, Эухенио (20 января 2021 г.). «15.ai, место, где вы можете использовать голоса популярных персонажей, чтобы они могли это сделать». Коре (на испанском языке). Архивировано из оригинала 28 декабря 2024 года . Проверено 21 декабря 2024 г. Кроме того, большая часть клавиш может изменить некоторые параметры как намерение или звук. [Самые опытные могут изменить некоторые параметры, такие как намерение или тон.]
  • MrSun (19 января 2021 г.). «讓你喜愛的ACG角色說出任何話! AI生成技術幫助你實現夢想» [Пусть ваши любимые персонажи ACG скажут что угодно! Технологии генерации искусственного интеллекта помогают реализовать ваши мечты. Yahoo (на китайском языке). Архивировано из оригинала 28 декабря 2024 года . Проверено 22 декабря 2024 г.
  • Нг, Эндрю (1 апреля 2020 г.). «Голосовое клонирование для масс». DeepLearning.AI . Архивировано из оригинала 28 декабря 2024 г. . Получено 22 декабря 2024 г. .
  • «Преодоление проблем и возможностей синтетических голосов». OpenAI . 9 марта 2024 г. Архивировано из оригинала 25 ноября 2024 г. Получено 18 декабря 2024 г.
  • Рупперт, Лиана (18 января 2021 г.). «Заставьте GLaDOS и других любимых персонажей Portal говорить самые странные вещи с помощью этого приложения». Game Informer . Архивировано из оригинала 18 января 2021 г. . Получено 18 декабря 2024 г. .
  • Paltridge, Peter (18 января 2021 г.). «Этот сайт скажет все, что вы наберете, голосом Спанчбоба». Новости о супергероях аниме . Архивировано из оригинала 17 октября 2021 г. Получено 22 декабря 2024 г. В некотором смысле SAM все еще более продвинут, чем это. Можно было влиять на интонации SAM, используя специальные символы, а также изменять его тон по желанию. С 15.ai вы находитесь во власти любых случайных интонаций, которые получаете. Похоже, он не знает, что делать с вопросительными знаками (SAM знал), и представляет каждую строку как утверждение.
  • Филлипс, Том (14 января 2022 г.). «Актёр озвучивания видеоигр Трой Бейкер теперь продвигает NFT». Eurogamer . Получено 31 декабря 2024 г. .
  • Филлипс, Том (17 января 2022 г.). «Поддерживаемая Троем Бейкером NFT-фирма признает использование голосовых линий, взятых из другого сервиса, без разрешения». Eurogamer . Архивировано из оригинала 17 января 2022 г. . Получено 31 декабря 2024 г. .
  • «Все, что вам нужно знать о 15.ai: генераторе голоса на основе искусственного интеллекта». Play.ht. 12 сентября 2024 г. Архивировано из оригинала 25 декабря 2024 г. Получено 18 декабря 2024 г. 15.ai стал прорывом в области преобразования текста в речь (TTS) и синтеза речи, предлагая высококачественные и эмоциональные голоса, которые очаровали пользователей на различных платформах, особенно создателей контента.
  • Рен, Йи (2019). «FastSpeech: быстрое, надежное и управляемое преобразование текста в речь». arXiv : 1905.09263 [cs.CL].
  • "Бесплатное клонирование голоса персонажа 15.ai и альтернативы". Resemble.ai . 17 октября 2024 г. . Получено 31 декабря 2024 г. .
  • Scotellaro, Shaun (2020a). "Rainbow Dash Voice Added to 15.ai". Equestria Daily . Архивировано из оригинала 1 декабря 2024 г. . Получено 18 декабря 2024 г. .
  • Скотелларо, Шон (2020b). «15.ai добавляет тонны новых голосов пони». Equestria Daily . Архивировано из оригинала 26 декабря 2024 г. Получено 21 декабря 2024 г.
  • Скотелларо, Шон (2020c). «Проект по сохранению пони с использованием нейронных сетей для создания голосов пони». Equestria Daily . Архивировано из оригинала 23 июня 2021 г. Получено 18 декабря 2024 г.
  • Скотелларо, Шон (2020d). "Полный простой анимационный эпизод - Налоговые льготы (Сумерки)". Equestria Daily . Получено 1 января 2025 г. .
  • Скотелларо, Шон (2020e). «Больше музыки пони! Вместе мы сияем ярче!». Equestria Daily . Получено 1 января 2025 г. .
  • Скотелларо, Шон (2020f). «Новая анимация среди нас становится вирусной... с голосами пони». Equestria Daily . Получено 1 января 2025 г.
  • Темитопе, Юсуф (10 декабря 2024 г.). «Создатель 15.ai раскрывает путь от проекта MIT до интернет-феномена». The Guardian . Архивировано из оригинала 28 декабря 2024 г. . Получено 25 декабря 2024 г. .
  • «게임 캐릭터 음성으로 영어를 읽어주는 소프트 15.ai 공개» [Выпущено программное обеспечение 15.ai, которое читает голоса игровых персонажей на английском языке]. Тиистори (на корейском языке). 20 января 2021 года. Архивировано из оригинала 20 декабря 2024 года . Проверено 18 декабря 2024 г.
  • 遊戲, 遊戲角落 (20 января 2021 г.). «這個AI語音可以模仿《傳送門》GLaDOS講出任何對白!連《Undertale》都可以學» [Этот голос ИИ может имитировать GLaDOS портала, говоря любой диалог! Он может даже выучить Undertale]. United Daily News (на китайском (Тайвань)). Архивировано из оригинала 19 декабря 2024 года . Проверено 18 декабря 2024 г.
  • ван ден Оорд, Аарон; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Ориол; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Эндрю; Кавукчуоглу, Корай (12 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио». arXiv : 1609.03499 [cs.SD].
  • Вильялобос, Хосе (18 января 2021 г.). «Descubre 15.AI, un sitio web en el que podrás hacer que GlaDOS diga lo que quieras» [Откройте для себя 15.AI, веб-сайт, на котором вы можете заставить GlaDOS говорить то, что вы хотите]. ЛаПС4 (на испанском языке). Архивировано из оригинала 18 января 2021 года . Проверено 18 января 2021 г. Направление 15.AI и функция легко как часть. [Адрес — 15.AI, и он работает так же просто, как кажется.]
  • Anirudh VK (18 марта 2023 г.). «Deepfakes поднимают культуру мемов, но какой ценой?». Журнал Analytics India . Архивировано из оригинала 26 декабря 2024 г. Получено 18 декабря 2024 г. Хотя голосовые мемы с использованием искусственного интеллекта в той или иной форме существуют с момента запуска «15.ai» в 2020 г., [...]
  • Вайцман, Клифф (19 ноября 2023 г.). "15.ai: Все о 15.ai и лучшей альтернативе". Speechify . Получено 31 декабря 2024 г. .
  • Уильямс, Деми (18 января 2022 г.). «Voiceverse NFT признается в использовании голосовых линий некоммерческого сервиса». NME . Архивировано из оригинала 18 января 2022 г. . Получено 18 декабря 2024 г. .
  • Райт, Стив (17 января 2022 г.). «Компания NFT, поддерживаемая Троем Бейкером, признает использование контента без разрешения». Stevivor . Архивировано из оригинала 17 января 2022 г. . Получено 18 декабря 2024 г. .
  • Райт, Стивен (21 марта 2023 г.). «Почему споры Байдена, Трампа и Обамы из-за видеоигр — это новая одержимость YouTube». Inverse . Архивировано из оригинала 20 декабря 2024 г. . Получено 18 декабря 2024 г. Инструменты искусственного интеллекта для создания «аудиодипфейков» существуют уже много лет в той или иной форме, ярким примером является 15.ai.
  • Ёсиюки, Фурусима (18 января 2021 г.). «『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に" [GLaDOS из Portal и Санс из UNDERTALE прочитают вам текст. Сервис «15.ai» стремится воспроизводить даже эмоции в тексте, что становится темой обсуждения]. Den Fami Nico Gamer (на японском языке). Архивировано из оригинала 18 января 2021 г. . Получено 18 декабря 2024 г. .
  • Zwiezen, Zack (18 января 2021 г.). «Сайт позволяет GLaDOS говорить все, что вы хотите». Kotaku . Архивировано из оригинала 17 января 2021 г. . Получено 18 декабря 2024 г. .
  • Архивный интерфейс
  • Официальный сайт
Взято с "https://en.wikipedia.org/w/index.php?title=15.ai&oldid=1273280134"