Тип сайта | Искусственный интеллект , синтез речи , генеративный искусственный интеллект |
---|---|
Доступно в | Английский |
Основан | 2016 |
Владелец | 15 |
Основатель(и) | 15 |
URL | 15.ай |
Коммерческий | Нет |
Регистрация | Никто |
Запущен | Март 2020 ( 2020-03 ) |
Текущий статус | Неактивный |
15.ai было бесплатным некоммерческим веб-приложением , которое использовало искусственный интеллект для генерации голосов вымышленных персонажей из популярных медиа . [1] Созданное исследователем искусственного интеллекта, известным как 15, во время его работы в Массачусетском технологическом институте , приложение позволяло пользователям заставлять персонажей из видеоигр , телешоу и фильмов говорить произвольный текст с эмоциональными интонациями быстрее, чем в реальном времени. [a] [2] Платформа была примечательна своей способностью генерировать убедительный голосовой вывод с использованием минимальных обучающих данных — название «15.ai» отсылало к заявлению создателя о том, что голос можно клонировать всего с помощью 15 секунд аудио. Это был ранний пример применения генеративного искусственного интеллекта на начальных этапах бума ИИ .
Запущенный в марте 2020 года, [3] 15.ai привлек широкое внимание в начале 2021 года, когда он стал вирусным на платформах социальных сетей, таких как YouTube и Twitter , и быстро стал популярным среди интернет-фандомов, включая фандомы My Little Pony: Friendship Is Magic , Team Fortress 2 и SpongeBob SquarePants . [4] [5] Сервис отличился своей поддержкой эмоционального контекста при генерации речи с помощью эмодзи и точным контролем произношения с помощью фонетической транскрипции . 15.ai считается первой основной платформой, популяризировавшей клонирование голоса с помощью ИИ ( аудио-дипфейки ) в мемах и создании контента . [6]
15.ai получил различные отклики от сообщества актеров озвучивания и широкой общественности. Актеры озвучивания и профессионалы отрасли обсуждали достоинства технологии для творчества фанатов по сравнению с ее потенциальным влиянием на профессию, особенно после споров о несанкционированном коммерческом использовании. Хотя многие критики хвалили доступность веб-сайта и контроль эмоций, они также отмечали технические ограничения в таких областях, как параметры просодии и языковая поддержка. Технология вызвала дискуссии об этических последствиях, включая опасения по поводу сокращения возможностей трудоустройства для актеров озвучивания, мошенничества, связанного с голосом , и неправомерного использования в явном контенте , хотя 15.ai поддерживал строгую политику против копирования голосов реальных людей.
Подход 15.ai к эффективному синтезу голоса и выражению эмоций оказал влияние на последующие разработки в области технологии преобразования текста в речь с помощью ИИ. В январе 2022 года Voiceverse NFT вызвал споры, когда выяснилось, что компания, которая сотрудничала с актером озвучивания Троем Бейкером , незаконно присвоила работу 15.ai для своей собственной платформы. В конечном итоге сервис был отключен в сентябре 2022 года. Его закрытие привело к появлению различных коммерческих альтернатив в последующие годы.
Область искусственного синтеза речи претерпела значительные изменения с введением подходов глубокого обучения . [7] В 2016 году публикация DeepMind основополагающей статьи WaveNet : Генеративная модель для необработанного звука ознаменовала собой кардинальный сдвиг в сторону синтеза речи на основе нейронных сетей , продемонстрировав беспрецедентное качество звука с помощью расширенных причинных свёрток, работающих непосредственно с необработанными звуковыми волнами со скоростью 16 000 выборок в секунду, моделируя условное распределение вероятностей каждого звукового образца с учётом всех предыдущих. Ранее конкатенативный синтез , который работал путём сшивания предварительно записанных сегментов человеческой речи, был преобладающим методом генерации искусственной речи, но он часто давал результаты, звучащие как роботы, с заметными артефактами на границах сегментов. [8] Два года спустя за этим последовал Tacotron от Google AI в 2018 году, который продемонстрировал, что нейронные сети могут производить очень естественный синтез речи, но для достижения приемлемого качества требовались существенные данные для обучения — обычно десятки часов аудио. При обучении на меньших наборах данных, таких как 2 часа речи, качество вывода ухудшалось, хотя все еще было в состоянии поддерживать разборчивую речь, и всего за 24 минуты обучающих данных Tacotron не смог воспроизвести разборчивую речь. [9] В том же году появился HiFi-GAN, вокодер на основе генеративно-состязательной сети (GAN), который повысил эффективность генерации формы сигнала, производя при этом высококачественную речь, [10] за которым последовал Glow-TTS, который представил основанный на потоке подход, который позволял как быстро делать выводы, так и передавать стиль голоса. [11] Китайские технологические компании также внесли значительный вклад в эту область, при этом Baidu и ByteDance разработали собственные фреймворки преобразования текста в речь, которые еще больше продвинули современный уровень техники, хотя конкретные технические детали их реализаций остались в значительной степени нераскрытыми. [12]
[...] У сайта несколько целей. Он служит доказательством концепции платформы, которая позволяет любому человеку создавать контент, даже если он не может нанять кого-то для озвучивания своих проектов.
Это также демонстрирует ход моих исследований в гораздо более увлекательной форме — используя реальную модель, вы можете узнать о ней то, о чем даже я не подозревал (например, заставить персонажей издавать хрипы или стоны, расставляя запятые между определенными фонемами).
Это также не позволяет мне выбирать и демонстрировать только самые лучшие результаты [...] Возможность взаимодействовать с моделью без фильтров позволяет пользователю судить о том, насколько хороша текущая работа на первый взгляд.
15.ai был задуман в 2016 году как исследовательский проект в области глубокого обучения синтезу речи разработчиком, известным как «15» (в возрасте 18 лет [14] ), во время их первого года обучения в Массачусетском технологическом институте (MIT) [15] в рамках Программы возможностей бакалавриата по научным исследованиям (UROP) Массачусетского технологического института. [16] Разработчик был вдохновлен статьей DeepMind WaveNet , и его разработка продолжилась в ходе их исследований, когда Google AI выпустил Tacotron в следующем году. К 2019 году разработчик продемонстрировал в MIT свою способность воспроизводить результаты WaveNet и Tacotron, используя на 75% меньше обучающих данных, чем требовалось ранее. [12] Название 15 является отсылкой к заявлению создателя о том, что голос можно клонировать, используя всего 15 секунд данных. [17]
Первоначально разработчик планировал получить докторскую степень на основе своих исследований в бакалавриате, но решил работать в технологической отрасли после того, как их стартап был принят в акселератор Y Combinator в 2019 году. После их ухода в начале 2020 года разработчик вернулся к своим исследованиям в области голосового синтеза, реализовав их в виде веб-приложения . По словам разработчика, вместо использования обычных наборов голосовых данных, таких как LJSpeech, которые содержали простые монотонные записи, они искали более сложные голосовые образцы, которые могли бы продемонстрировать способность модели обрабатывать сложные речевые шаблоны и эмоциональные оттенки. [14] Проект сохранения пони — фанатская инициатива, возникшая из /mlp/, [12] доски My Little Pony на 4chan , которая скомпилировала голосовые клипы из My Little Pony: Friendship Is Magic — сыграл решающую роль в реализации. Участники проекта вручную обрезали, шумоподавляли, транскрибировали и помечали эмоциями каждую строчку из шоу. Этот набор данных предоставил идеальный учебный материал для модели глубокого обучения 15.ai. [12] [14]
15.ai был выпущен в марте 2020 года с ограниченным выбором персонажей, включая персонажей из My Little Pony: Friendship Is Magic и Team Fortress 2. [ 3] [18] В последующие месяцы на сайт было добавлено больше голосов. [19] Значительный технический прогресс произошел в конце 2020 года с реализацией внедрения нескольких динамиков в глубокую нейронную сеть, что позволило одновременно обучать несколько голосов, а не требовать отдельных моделей для каждого голоса персонажа. [12] Это не только позволило быстро расшириться с восьми до более чем пятидесяти голосов персонажей, [14] но и позволило модели распознавать общие эмоциональные паттерны у разных персонажей, даже если определенные эмоции отсутствовали в данных обучения некоторых персонажей. [20]
В начале 2021 года приложение стало вирусным в Twitter и YouTube , где люди создавали скетчи, мемы и фан-контент, используя голоса из популярных игр и шоу, которые собрали миллионы просмотров в социальных сетях. [21] Создатели контента, YouTube-блогеры и TikTokers также использовали 15.ai как часть своих видео для озвучивания . [22] [ ненадежный источник? ] На пике своего развития платформа несла эксплуатационные расходы в размере 12 000 долларов США [12] в месяц из-за инфраструктуры AWS , необходимой для обработки миллионов ежедневных голосовых генераций; несмотря на получение предложений от компаний о приобретении 15.ai и его базовой технологии, веб-сайт оставался независимым и финансировался из личных предыдущих стартап-заработков разработчика [12] — тогда ему было 23 года. [14]
Трой Бейкер @TroyBakerVAЯ сотрудничаю с @VoiceverseNFT, чтобы исследовать способы, с помощью которых мы могли бы вместе предоставить новые инструменты новым создателям для создания новых вещей и дать каждому шанс владеть и инвестировать в созданную ими интеллектуальную собственность. У всех нас есть история, которую можно рассказать. Вы можете ненавидеть. Или вы можете создавать. Что это будет?
14 января 2022 г. [23]
14 января 2022 года разгорелся скандал после того, как было обнаружено, что Voiceverse NFT, компания, о партнерстве с которой объявил актер озвучивания видеоигр и аниме Трой Бейкер , незаконно присвоила голосовые строки, сгенерированные с помощью 15.ai, в рамках своей маркетинговой кампании. [24] Это произошло вскоре после того, как в декабре 2021 года разработчик 15.ai прямо заявил, что он не заинтересован во включении NFT в свою работу. [25] Файлы журналов показали, что Voiceverse сгенерировала аудио персонажей из My Little Pony: Friendship Is Magic с помощью 15.ai, улучшила их, чтобы они звучали неузнаваемо по сравнению с оригинальными голосами, чтобы продвигать свою собственную платформу — в нарушение условий обслуживания 15.ai. [26]
Voiceverse заявили, что кто-то из их маркетинговой команды использовал голос, не указав должным образом 15.ai; в ответ 15 написал в твиттере «Иди на хер» [27] , что стало вирусным, собрав тысячи ретвитов и лайков в Twitter в поддержку разработчика. [12] После продолжающейся негативной реакции и разоблачения плагиата Бейкер признал, что его первоначальный твит-объявление, заканчивающийся словами «Вы можете ненавидеть. Или вы можете творить. Что это будет?», возможно, был «антагонистическим», и 31 января 2022 года объявил, что прекращает свое партнерство с Voiceverse. [28]
В сентябре 2022 года сайт 15.ai был отключен [29] из-за юридических проблем, связанных с искусственным интеллектом и авторскими правами . [12] Создатель предложил потенциальную будущую версию, которая с самого начала будет лучше решать проблемы авторских прав, хотя по состоянию на 2025 год сайт остается неактивным. [12]
Платформа была некоммерческой, [30] и работала без необходимости регистрации пользователя или учетных записей. [31] Пользователи генерировали речь, вводя текст и выбирая голос персонажа с дополнительными параметрами для эмоциональных контекстуализаторов и фонетических транскрипций. Каждый запрос создавал три аудиовариации с различными эмоциональными подачами, отсортированными по уровню уверенности . [32] Доступные персонажи включали нескольких персонажей из Team Fortress 2 и My Little Pony: Friendship Is Magic ; GLaDOS , Уитли и Sentry Turret из серии Portal ; SpongeBob SquarePants ; Kyu Sugardust из HuniePop , Rise Kujikawa из Persona 4 ; Daria Morgendorffer и Jane Lane из Daria ; Carl Brutananadilewski из Aqua Teen Hunger Force ; Steven Universe из Steven Universe ; Sans из Undertale ; Madeline и несколько персонажей из Celeste ; Десятый Доктор Кто ; Рассказчик из The Stanley Parable ; и HAL 9000 из 2001: A Space Odyssey . [33] Из более чем пятидесяти [14] доступных голосов, тридцать были персонажами из My Little Pony: Friendship Is Magic . [34] Некоторые «молчаливые» персонажи, такие как Челл и Гордон Фримен, могли быть выбраны в качестве шутки и воспроизводили молчаливые аудиофайлы при отправке любого текста. [35]
Недетерминированные свойства модели глубокого обучения приводили к вариациям в речевом выводе, создавая разные интонации с каждым поколением, подобно тому, как актеры озвучивания создают разные дубли. [37] 15.ai представил концепцию эмоциональных контекстуализаторов, которые позволяли пользователям указывать эмоциональный тон генерируемой речи с помощью направляющих фраз. [12] Функциональность эмоционального контекстуализатора использовала DeepMoji, нейронную сеть анализа настроений, разработанную в MIT Media Lab . [38] Представленная в 2017 году, DeepMoji обрабатывала вставки эмодзи из 1,2 миллиарда сообщений в Twitter (с 2013 по 2017 год) для анализа эмоционального контента. Тестирование показало, что система может определять эмоциональные элементы, включая сарказм, более точно, чем люди-оценщики. [39] Если входные данные в 15.ai содержали дополнительный контекст (указанный вертикальной чертой), дополнительный контекст, следующий за чертой, использовался в качестве эмоционального контекстуализатора. [16] Например, если бы ввод был Today is a great day!|I'm very sad.
, выбранный персонаж произнес бы предложение «Сегодня прекрасный день!» с той эмоцией, которую можно было бы ожидать от человека, произносящего предложение «Мне очень грустно». [16]
Приложение использовало данные о произношении из Oxford Dictionaries API , Wiktionary и CMU Pronouncing Dictionary , [40] последний из которых основан на ARPABET , наборе фонетических транскрипций английского языка, первоначально разработанных Advanced Research Projects Agency в 1970-х годах. Для современной и специфичной для Интернета терминологии система включала данные о произношении с веб-сайтов с пользовательским контентом , включая Reddit , Urban Dictionary , 4chan и Google . [40] Также поддерживался ввод транскрипций ARPABET, что позволяло пользователям исправлять ошибки произношения или указывать желаемое произношение между гетеронимами — словами, которые имеют одинаковое написание, но разное произношение. Пользователи могли вызывать транскрипции ARPABET, заключая строку фонем в фигурные скобки в поле ввода (например, {AA1 R P AH0 B EH2 T}
чтобы указать произношение слова «ARPABET» ( / ˈ ɑːr p ə ˌ b ɛ t / AR -pə-beht ). [20] Интерфейс отображал проанализированные слова с цветовой кодировкой, указывающей на точность произношения: зеленый цвет для слов, найденных в существующей таблице поиска произношений, синий для вручную введенных произношений ARPABET и красный для слов, произношение которых должно было быть алгоритмически предсказано. [41]
В более поздних версиях 15.ai появились возможности для нескольких говорящих. Вместо того, чтобы обучать отдельные модели для каждого голоса, 15.ai использовал унифицированную модель, которая одновременно обучалась нескольким голосам с помощью встраивания говорящих — обученных числовых представлений, которые охватывали уникальные вокальные характеристики каждого персонажа. [12] [14] Наряду с эмоциональным контекстом, предоставленным DeepMoji, эта архитектура нейронной сети позволила модели обучаться общим шаблонам в эмоциональных выражениях и стилях речи разных персонажей, даже когда у отдельных персонажей не было примеров определенных эмоциональных контекстов в их обучающих данных. [20]
Интерфейс включал технические метрики и графики, [36] которые, по словам разработчика, служили для выделения исследовательского аспекта веб-сайта. [14] Начиная с версии v23, выпущенной в сентябре 2021 года, интерфейс отображал исчерпывающую информацию об анализе модели, включая результаты разбора слов и данные эмоционального анализа. Гибридный вокодер и шумоподавитель потоковой и генеративно-состязательной сети (GAN) , представленный в более ранней версии, был оптимизирован для удаления ручного ввода параметров. [36]
Критики описали 15.ai как простой в использовании и в целом способный убедительно воспроизводить голоса персонажей, с редкими неоднозначными результатами. [42] Натали Клейтон из PC Gamer написала, что голос Губки Боба Квадратные Штаны был воспроизведен хорошо, но отметила трудности в подражании Рассказчику из The Stanley Parable : «алгоритм просто не может уловить причудливо-смешную интонацию Кевана Брайтинга ». [43] Зак Цвайзен из Kotaku сообщил, что «[его] девушка была убеждена, что это новая голосовая линия от актрисы озвучивания GLaDOS, Эллен Маклейн ». [44] Риональди Чандрасета из информационного бюллетеня по ИИ Towards Data Science заметил, что «персонажи с большими тренировочными данными воспроизводят более естественные диалоги с более четкими интонациями и паузами между словами, особенно в длинных предложениях». [16] Тайваньская газета United Daily News также подчеркнула способность 15.ai воссоздать механический голос GLaDOS, наряду с его разнообразным набором вариантов голосов персонажей. [45] Yahoo! News Taiwan сообщила, что «GLaDOS в Portal может произносить строки почти идеально», но также раскритиковала, что «все еще есть много недостатков, таких как ограничение слов и управление тоном, которые все еще немного странны в некоторых словах». [46] Крис Баттон из информационного бюллетеня об искусственном интеллекте Byteside назвал возможность клонировать голос всего с 15 секундами данных «странной», но также назвал технологию, стоящую за этим, «впечатляющей». [47] Возможности генерации голоса платформы регулярно публиковались на Equestria Daily , новостном сайте фэндома, посвященном шоу My Little Pony: Friendship Is Magic и другим его поколениям, с задокументированными обновлениями, творениями фанатов и добавлениями новых голосов персонажей. [48] В сообщении, представляющем новых персонажей, добавленных в 15.ai, основатель Equestria Daily Шон Скотелларо , также известный под своим сетевым псевдонимом «Sethisto», написал, что «некоторые [голоса] не очень хороши из-за отсутствия образцов, с которых можно было бы почерпнуть информацию, но многие все равно действительно впечатляют». [34]
Несколько других критиков также посчитали ограничение по количеству слов, варианты просодии и англоязычный характер приложения не совсем удовлетворительными. [5] [46] Питер Пэлтридж из новостного агентства об аниме и супергероях Anime Superhero News высказал мнение, что «синтез голоса достиг такой степени, что более дорогие усилия почти неотличимы от настоящей человеческой речи», но также отметил, что «в некотором смысле SAM все еще более продвинут, чем это. Было возможно влиять на интонации SAM, используя специальные символы, а также изменять его тон по желанию. С 15.ai вы находитесь во власти любых случайных интонаций, которые вы получаете». [49] Напротив, Лорен Мортон из Rock, Paper, Shotgun похвалила глубину контроля произношения — «если вы готовы вникнуть в суть этого». [50] Аналогичным образом, Эухенио Мото из испанского новостного сайта Qore.com написал, что «самые опытные [пользователи] могут изменять такие параметры, как ударение или тон». [51] Такаюки Фурушима из Den Fami Nico Gamer подчеркнул «плавное произношение», а Юки Куросава из AUTOMATON отметил его «богатое эмоциональное выражение» как главную особенность; оба японских автора отметили отсутствие поддержки японского языка. [52] [40] Ренан ду Прадо из бразильского игрового новостного сайта Arkade и Хосе Вильялобос из испанского игрового сайта LaPS4 отметили, что хотя пользователи могли создавать забавные результаты на португальском и испанском языках соответственно, поколение лучше всего показало себя на английском языке. [53] Китайский игровой новостной сайт GamerSky назвал приложение «интересным», но также раскритиковал ограничение по количеству слов в тексте и отсутствие интонаций. [5] Южнокорейский игровой портал Zuntata написал, что «удивительно в 15.ai то, что [для некоторых символов] есть только около 30 секунд данных, но он достигает точности произношения, близкой к 100%». [54] Профессор машинного обучения Юнцян Ли написал в своем блоге, что он был удивлен, увидев, что приложение бесплатное. [55]
Некоторые актеры озвучивания, чьи персонажи появлялись на 15.ai, публично поделились своими мыслями о платформе. В интервью 2021 года на подкасте озвучивания видеоигр The VŌC Джон Патрик Лоури , который озвучивает Снайпера в Team Fortress 2, объяснил, что он открыл для себя 15.ai, когда потенциальная стажерка показала ему сценку, которую она создала с использованием голосов Снайпера и Шпиона из Team Fortress 2, сгенерированных ИИ . Лоури прокомментировала:
«Технологии еще предстоит пройти долгий путь, прежде чем вы действительно поверите, что это просто люди, но я был впечатлен тем, как много [15.ai] может сделать. Вы, конечно, не получите ту подачу, которую получаете от реального человека, который проанализировал сцену, [...] но я действительно думаю, что как источник для фанатов — для людей, которые хотят собирать моды и тому подобное — что фанатам может быть интересно использовать голоса персонажей, которые им нравятся». [56]
Он провел аналогию с синтезированной музыкой , добавив:
«Если вам нужен звук хора , и вам нужен звук оркестра , и у вас есть деньги, вы нанимаете хор и оркестр. А если у вас нет денег, у вас есть что-то, что звучит довольно хорошо; но это не то же самое, что хор и оркестр». [56]
В 2021 году в прямом эфире на своем канале Twitch Натан Веттерлейн — актер озвучивания разведчика из Team Fortress 2 — прослушал воссоздание голоса своего персонажа с помощью искусственного интеллекта. Он описал впечатление как «интересное» и отметил, что «там что-то есть». [57]
Другие актеры озвучивания неоднозначно отреагировали на возможности 15.ai. В то время как некоторые профессионалы отрасли признали техническое новшество, другие выразили обеспокоенность по поводу последствий технологии для их профессии. [58] Когда актер озвучивания Трой Бейкер объявил о своем партнерстве с Voiceverse NFT, которая незаконно присвоила технологию 15.ai, это вызвало широкую полемику в индустрии озвучивания. [59] Критики выразили обеспокоенность по поводу потенциального сокращения возможностей трудоустройства актеров озвучивания из-за автоматизированной озвучки , риска подражания голосу и потенциального неправомерного использования в явном контенте . [60] Споры вокруг Voiceverse NFT и последующие обсуждения выявили более широкие опасения отрасли по поводу технологии синтеза голоса ИИ. [61]
Хотя 15.ai ограничивал свою сферу действия вымышленными персонажами и не воспроизводил голоса реальных людей или знаменитостей, [62] специалист по информатике Эндрю Нг отметил, что подобная технология может быть использована для этого, в том числе и в гнусных целях. [3] В своей оценке 15.ai за 2020 год он написал:
«Голосовое клонирование может быть чрезвычайно продуктивным. В Голливуде оно может произвести революцию в использовании виртуальных актеров. В мультфильмах и аудиокнигах оно может позволить актерам озвучивания участвовать во многих других постановках. В онлайн-образовании дети могут уделять больше внимания урокам, которые ведутся голосами любимых личностей. И сколько продюсеров обучающих видео на YouTube хотели бы, чтобы их сценарии озвучивал синтетический Морган Фримен ?
Обсуждая потенциальные риски, он добавил:
«...но синтез голоса человека-актера без согласия, возможно, неэтичен и, возможно, незаконен. И эта технология станет приманкой для дипфейкеров, которые могли бы выкрадывать записи из социальных сетей, чтобы выдавать себя за частных лиц». [3]
15.ai был одним из первых пионеров аудиоподделок, что привело к появлению мемов на основе синтеза речи ИИ на начальных этапах бума ИИ в 2020 году. [63] [64] 15.ai считается первой основной платформой, популяризировавшей клонирование голоса ИИ в интернет-мемах и создании контента, [6] в частности, благодаря своей способности генерировать убедительные голоса персонажей в режиме реального времени, не требуя при этом обширных технических знаний. [65] Влияние платформы было особенно заметно в сообществах фанатов, включая фандомы My Little Pony: Friendship Is Magic , Portal , Team Fortress 2 и SpongeBob SquarePants , где она позволила создавать вирусный контент, который собрал миллионы просмотров на таких платформах социальных сетей, как Twitter и YouTube . [66] Создатели контента Team Fortress 2 также использовали платформу для создания как короткометражных мемов, так и сложных повествовательных анимаций с помощью Source Filmmaker . [67] Творения фанатов включали сценки и новую анимацию фанатов, [68] кроссоверный контент — например, демонстрация писательницы Game Informer Лианы Рупперт, объединяющей диалоги Portal и Mass Effect в ее освещении платформы [69] — воссоздания вирусных видеороликов (включая печально известную пародию на автосалон Big Bill Hell's Cars [70] ), адаптации фанфиков с использованием голосов персонажей, сгенерированных ИИ, [71] музыкальные клипы и новые музыкальные композиции — например, откровенная серия Pony Zone [72] — и контент, в котором персонажи декламируют морские песни . [73] Некоторые творения фанатов привлекли всеобщее внимание, например, вирусная правка, заменившая камео Дональда Трампа в фильме «Один дома 2: Затерянный в Нью-Йорке» на голос парня с тяжелым оружием , созданный искусственным интеллектом, который был показан в дневном сегменте CNN в январе 2021 года. [74] [75] Некоторые пользователи интегрировали голосовой синтез 15.ai с VoiceAttack, программным обеспечением для голосовых команд, для создания персональных помощников. [37]
Его влияние было отмечено в годы после его прекращения [76], когда появилось несколько коммерческих альтернатив, чтобы заполнить пустоту, таких как ElevenLabs [b] и Speechify . [78] Современные компании, занимающиеся генеративным голосовым ИИ, признали новаторскую роль 15.ai. Стартап Y Combinator PlayHT назвал дебют 15.ai «прорывом в области преобразования текста в речь (TTS) и синтеза речи». [22] Клифф Вайцман , основатель и генеральный директор Speechify , отдал должное 15.ai за «популяризацию клонирования голоса ИИ для создания контента, став первым [...], кто представил популярных существующих персонажей из фандомов». [79] Мати Станишевски, соучредитель и генеральный директор ElevenLabs , написал, что 15.ai был преобразователем в области преобразования текста в речь ИИ . [80]
До своего закрытия 15.ai создал несколько технических прецедентов, которые повлияли на последующие разработки в области синтеза голоса ИИ. Его интеграция DeepMoji для эмоционального анализа продемонстрировала жизнеспособность включения генерации речи с учетом настроений, в то время как его поддержка фонетических транскрипций ARPABET установила стандарт для точного контроля произношения в инструментах синтеза голоса для публики. [12] Унифицированная многоговорящая модель платформы, которая позволяла одновременно обучать голоса разных персонажей, оказалась особенно влиятельной. Этот подход позволил системе распознавать эмоциональные паттерны в разных голосах, даже когда определенные эмоции отсутствовали в индивидуальных наборах обучения персонажей; например, если у одного персонажа были примеры радостной речи, но не было примеров гнева, в то время как у другого были примеры гнева, но не было радостных, система могла научиться генерировать обе эмоции для обоих персонажей, понимая общие закономерности того, как эмоции влияют на речь. [20]
15.ai также внес ключевой вклад в снижение требований к обучающим данным для синтеза речи. Более ранние системы, такие как Tacotron от Google AI и FastSpeech от Microsoft Research, требовали десятки часов аудио для получения приемлемых результатов и не могли генерировать внятную речь с менее чем 24 минутами обучающих данных. [9] [81] Напротив, 15.ai продемонстрировал способность генерировать речь с существенно меньшим количеством обучающих данных — в частности, название «15.ai» относится к заявлению создателя о том, что голос можно клонировать всего с 15 секундами данных. [82] Этот подход к эффективности данных повлиял на последующие разработки в области технологии синтеза голоса ИИ, поскольку 15-секундный бенчмарк стал точкой отсчета для последующих систем синтеза голоса. Первоначальное заявление о том, что для клонирования голоса человека требуется всего 15 секунд данных, было подтверждено OpenAI в 2024 году. [83]
2020-02-19: Веб-приложение пока не полностью готово
Если вы используете функцию программы без английских идиом, вы можете использовать фразы, которые будут нарисованы и запечатлены на португальском языке, стиль, в котором используются мемы, используемые в других идиомах, записанных на португальском языке.[Разумеется, программа работает на английском языке, но вы можете генерировать действительно запутанные и смешные предложения на португальском языке, как те мемы, в которых используются голоса на других языках, говорящие по-португальски.]
синтез речи с машинным обучением, глубоким обучением, глубокими нейронными сетями и алгоритмами аудиосинтеза, 15.ai изменил то, как пользователи создавали разные голоса с помощью текста ИИ.
笔者就尝试了一下让紫悦咏唱"无限剑制"的实验,虽然AI 的声音缺少了些抑扬顿挫,不过效果也还算有趣。[Хотя голосу ИИ не хватает интонации, эффект всё равно интересен. В настоящее время 15.ai предоставляет относительно мало вариантов символов. Из-за ограничения по словам в тексте сгенерированный голос относительно короткий.]
英語版ボイスのみなので注意。;もうひとつ15.aiの大きな特徴として挙げられるのが、豊かな感情表現だ。[Обратите внимание, что доступны только английские голоса. Еще одна важная особенность 15.ai — его богатое эмоциональное выражение.]
Кроме того, большая часть клавиш может изменить некоторые параметры как намерение или звук.[Самые опытные могут изменить некоторые параметры, такие как намерение или тон.]
некотором смысле SAM все еще более продвинут, чем это. Можно было влиять на интонации SAM, используя специальные символы, а также изменять его тон по желанию. С 15.ai вы находитесь во власти любых случайных интонаций, которые получаете. Похоже, он не знает, что делать с вопросительными знаками (SAM знал), и представляет каждую строку как утверждение.
15.ai стал прорывом в области преобразования текста в речь (TTS) и синтеза речи, предлагая высококачественные и эмоциональные голоса, которые очаровали пользователей на различных платформах, особенно создателей контента.
Направление 15.AI и функция легко как часть.[Адрес — 15.AI, и он работает так же просто, как кажется.]
голосовые мемы с использованием искусственного интеллекта в той или иной форме существуют с момента запуска «15.ai» в 2020 г., [...]
Инструменты искусственного интеллекта для создания «аудиодипфейков» существуют уже много лет в той или иной форме, ярким примером является 15.ai.