В этой статье есть несколько проблем. Помогите улучшить ее или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти сообщения )
|
Тип сайта | Искусственный интеллект , синтез речи , машинное обучение , глубокое обучение |
---|---|
Доступно в | Английский |
Основатель(и) | 15 |
URL | 15.ай |
Коммерческий | Нет |
Регистрация | Никто |
Запущен | Первоначальный выпуск : 12 марта 2020 г (2020-03-12) | Стабильный выпуск : v24.2.1
Текущий статус | На обслуживании |
Part of a series on |
Artificial intelligence |
---|
15.ai — бесплатное веб-приложение на основе искусственного интеллекта , запущенное в 2020 году, которое генерировало голоса вымышленных персонажей из различных медиаисточников, преобразуя текст в речь . [1] [2] [3] [4] Проект, созданный анонимным разработчиком под псевдонимом 15 , использовал комбинацию алгоритмов синтеза звука , глубоких нейронных сетей синтеза речи и моделей анализа настроений для генерации эмоциональных голосов персонажей быстрее, чем в реальном времени.
В начале 2020 года 15.ai появился в сети как доказательство концепции демократизации озвучивания и дубляжа. [5] Его бесплатный характер, простота использования без учетных записей пользователей и улучшения по сравнению с существующими реализациями преобразования текста в речь сделали его популярным. [ 2 ] [1] [3] Некоторые критики и актеры озвучивания усомнились в законности и этичности предоставления такой технологии столь легкого доступа. [6]
Сайт был признан толчком к популяризации клонирования голоса с помощью искусственного интеллекта (также известного как аудио deepfakes ) в создании контента . Он был принят такими интернет- фандомами , как My Little Pony , Team Fortress 2 и SpongeBob SquarePants . [7] [8]
В последующие годы появилось несколько коммерческих альтернатив. В январе 2022 года компания Voiceverse NFT сделала плагиат работы 15.ai в рамках своей платформы. [9] [10] [11]
В сентябре 2022 года, через год после своего последнего стабильного релиза, 15.ai был отключен. По состоянию на ноябрь 2024 года сайт все еще был отключен, а последний пост создателя датирован февралем 2023 года. [12]
Доступные персонажи включают GLaDOS и Уитли из Portal , персонажей из Team Fortress 2 , Твайлайт Спаркл и других персонажей из My Little Pony: Friendship Is Magic , Спанч Боба , Дарью Моргендорффер и Джейн Лейн из Daria , Десятого Доктора Кто , HAL 9000 из 2001: A Space Odyssey , Рассказчика из The Stanley Parable , Карла Брутананадилевски из Aqua Teen Hunger Force , Steven Universe , Дэна из Dan Vs. и Санса из Undertale . [8] [7] [13] [14]
Модель глубокого обучения , используемая приложением, была недетерминированной : каждый раз, когда речь генерировалась из одной и той же строки текста, интонация немного менялась. Приложение поддерживало ручное изменение эмоций сгенерированной строки с помощью эмоциональных контекстуализаторов (термин, придуманный этим проектом), предложения или фразы, передающих эмоцию дубля, которая служит руководством для модели во время вывода. [7] [8] Эмоциональные контекстуализаторы были представлениями эмоционального содержания предложения, выведенного с помощью передачи обученных вложений эмодзи с использованием DeepMoji , алгоритма анализа настроений глубокой нейронной сети, разработанного MIT Media Lab в 2017 году. [15] [16] DeepMoji был обучен на 1,2 миллиарда случаев эмодзи в данных Twitter с 2013 по 2017 год и превзошел людей в правильном определении сарказма в твитах и других онлайн-режимах общения. [17] [18] [19]
15.ai использовала многоговорящую модель — сотни голосов обучались одновременно, а не последовательно, что сокращало необходимое время обучения и позволяло модели изучать и обобщать общий эмоциональный контекст, даже для голосов, не подвергавшихся воздействию этого контекста. [20] Следовательно, персонажи в приложении были основаны на одной обученной модели, в отличие от нескольких моделей с одним говорящим. [21] Лексикон , используемый 15.ai, был взят из различных интернет-источников, включая Oxford Dictionaries , Wiktionary , CMU Pronouncing Dictionary , 4chan , Reddit и Twitter . Произношения незнакомых слов автоматически выводились с использованием фонологических правил, изученных моделью глубокого обучения. [7]
Приложение поддерживало упрощенную фонетическую транскрипцию, известную как ARPABET , для исправления неправильного произношения и учета гетеронимов — слов, которые пишутся одинаково, но произносятся по-разному (например, слово read , которое может произноситься как / ˈ rɛ d / или / ˈ r iː d / в зависимости от времени ) . Оно следовало соглашениям ARPABET словаря произношения CMU . [7]
В 2016 году с предложением WaveNet от DeepMind модели на основе глубокого обучения для синтеза речи начали набирать популярность как метод моделирования волновых форм и генерации высококачественной человеческой речи. [23] [24] [22] Tacotron2, архитектура нейронной сети для синтеза речи, разработанная Google AI , была опубликована в 2018 году и требовала десятков часов аудиоданных для воспроизведения внятной речи; при обучении на 2 часах речи модель смогла воспроизвести внятную речь посредственного качества, а при обучении на 36 минутах речи модель не смогла воспроизвести внятную речь. [25] [26]
В течение многих лет сокращение объема данных, необходимых для обучения реалистичной высококачественной модели преобразования текста в речь, было основной целью научных исследователей в области глубокого обучения синтезу речи. [27] [28] Разработчик 15.ai утверждает, что для клонирования голоса до человеческих стандартов достаточно всего 15 секунд данных, что является значительным сокращением объема требуемых данных. [29]
Знаковое дело между Google и Гильдией авторов в 2013 году постановило, что Google Books — сервис, который ищет полный текст печатных книг, защищенных авторским правом, — был преобразующим , таким образом, отвечая всем требованиям добросовестного использования. [30] Это дело создало важный юридический прецедент для области глубокого обучения и искусственного интеллекта: использование защищенного авторским правом материала для обучения дискриминативной модели или некоммерческой генеративной модели было признано законным. Законность коммерческих генеративных моделей, обученных с использованием защищенного авторским правом материала, все еще является предметом споров; из-за природы черного ящика моделей машинного обучения любые обвинения в нарушении авторских прав посредством прямой конкуренции будет трудно доказать. [ необходима цитата ]
15.ai был разработан и создан анонимным ученым-исследователем, известным под псевдонимом 15. [ необходима ссылка ]
Алгоритм, используемый в проекте, получил название DeepThroat. [31] Разработчик сообщил, что проект и алгоритм были задуманы как часть Программы возможностей для бакалавриата исследовательских работ Массачусетского технологического института и находились в разработке в течение многих лет до первого выпуска приложения. [7]
Разработчик также тесно сотрудничал с проектом Pony Preservation Project из /mlp/, доски My Little Pony на 4chan . Этот проект был «совместным усилием /mlp/ по созданию и курированию наборов данных пони» с целью создания приложений в области искусственного интеллекта. [33] [34] Голоса Friendship Is Magic на 15.ai были обучены на большом наборе данных, собранном проектом: аудио и диалоги из шоу и связанных с ним медиа — включая все девять сезонов Friendship Is Magic , фильм 2017 года , спин-оффы , утечки и различный другой контент, озвученный теми же актерами, — были проанализированы , вручную расшифрованы и обработаны для удаления фонового шума.
15.ai встретил в основном положительный прием. Лиана Рупперт из Game Informer описала его как «просто гениальный», а Хосе Вильялобос из LaPS4 написал, что он «работает так же просто, как и выглядит». [13] [a] Пользователи похвалили возможность легкого создания аудио популярных персонажей, которые звучат правдоподобно для тех, кто не знает, что они были синтезированы. Зак Цвайзен из Kotaku сообщил, что «[его] девушка была убеждена, что это была новая голосовая линия от актрисы озвучивания GLaDOS , Эллен Маклейн ». [1]
15.ai часто использовался для создания контента в различных фандомах , включая фандомы My Little Pony: Friendship Is Magic , Team Fortress 2 , Portal и SpongeBob SquarePants , а многочисленные видеоролики и проекты, содержащие речь 15.ai, стали вирусными . [1] [2]
В результате фэндом My Little Pony: Friendship Is Magic пережил возрождение создания видео и музыкального контента, что вдохновило новый жанр контента, созданного фанатами с помощью искусственного интеллекта. Некоторые фанфики не были адаптированы в полностью озвученные «эпизоды»: The Tax Breaks — это 17-минутная анимированная видеоверсия истории, написанной фанатами, опубликованная в 2014 году, в которой используются голоса, созданные с помощью 15.ai, со звуковыми эффектами и аудиоредактированием , имитируя эпизодический стиль ранних сезонов Friendship Is Magic . [35] [36]
Вирусные видеоролики фэндома Team Fortress 2 с голосами из 15.ai включают Spy is a Furry (который набрал более 3 миллионов просмотров на YouTube в нескольких видео [yt 1] [yt 2] [yt 3] ) и The RED Bread Bank , оба из которых вдохновили Source Filmmaker на создание анимированных видеороликов. [7] Другие фэндомы использовали голоса из 15.ai для создания вирусных видеороликов. По состоянию на июль 2022 года [update]вирусное видео Among Us Struggles (с голосами из Friendship Is Magic ) имело более 5,5 миллионов просмотров на YouTube; [yt 4] YouTube-блогеры , TikTok-блогеры и стримеры Twitch также использовали 15.ai для своих видео, таких как видео FitMC об истории 2b2t — одного из старейших работающих серверов Minecraft — и видео datpon3 в TikTok с участием главных героев Friendship Is Magic , которые набрали 1,4 миллиона и 510 тысяч просмотров соответственно. [yt 5] [tt 1]
Некоторые пользователи создали виртуальных помощников ИИ , используя 15.ai и внешнее программное обеспечение для голосового управления. Один пользователь в Twitter создал персонального помощника на рабочем столе, вдохновленного GLaDOS , используя диалоги, сгенерированные 15.ai, в тандеме с системой голосового управления VoiceAttack. [7] [8]
Трой Бейкер @TroyBakerVAЯ сотрудничаю с @VoiceverseNFT, чтобы исследовать способы, с помощью которых мы могли бы вместе предоставить новые инструменты новым создателям для создания новых вещей и дать каждому шанс владеть и инвестировать в созданную ими интеллектуальную собственность. У всех нас есть история, которую можно рассказать. Вы можете ненавидеть. Или вы можете создавать. Что это будет?
14 января 2022 г. [твит 1]
В декабре 2021 года разработчик 15.ai написал в Twitter , что он не заинтересован во включении невзаимозаменяемых токенов (NFT) в свою работу. [6] [10] [твит 2]
14 января 2022 года было обнаружено, что Voiceverse NFT, компания, о партнерстве с которой объявил актер озвучивания видеоигр и аниме Трой Бейкер , занималась плагиатом голосовых строк, сгенерированных с помощью 15.ai, в рамках своей маркетинговой кампании. [9] [10] [11] Файлы журналов показали, что Voiceverse сгенерировала аудиозаписи Твайлайт Спаркл и Рэйнбоу Дэш из шоу « Мой маленький пони: Дружба — это чудо» с помощью 15.ai, улучшила их так, чтобы они звучали неузнаваемо по сравнению с оригинальными голосами, и присвоила их без указания источника, чтобы ложно рекламировать свою собственную платформу — в нарушение условий обслуживания 15.ai. [29] [6] [11]
15 @fifteenaiМне сообщили, что вышеупомянутый вокальный синтезатор NFT активно пытается присвоить мою работу для собственной выгоды. После изучения лог-файлов у меня есть доказательства того, что некоторые голоса, которые они приписывают себе, действительно были сгенерированы с моего собственного сайта.
14 января 2022 г. [твит 3]
Происхождение вселенных голосов @VoiceverseNFTПривет, @fifteenai, мы очень сожалеем об этом. Голос действительно был взят с вашей платформы, которую наша маркетинговая команда использовала без указания надлежащего источника. Команда Chubbiverse не знает об этом. Мы сделаем так, чтобы это никогда больше не повторилось.
14 января 2022 г. [твит 4]
За неделю до объявления о партнерстве с Бейкером Voiceverse опубликовала (теперь удаленную) публикацию в Twitter, напрямую отвечающую на (теперь удаленную) видео, опубликованное Chubbiverse — платформой NFT, с которой Voiceverse сотрудничала, — демонстрирующую голос, сгенерированный ИИ, и заявляющую, что он был сгенерирован с помощью платформы Voiceverse, отметив : «Интересно, кто создал этот голос? ;)» [9] [твит 6] Через несколько часов после того, как появились новости о партнерстве, разработчик 15.ai, получив уведомление от другого пользователя Twitter, который попросил его высказать свое мнение о партнерстве, на что он предположил, что это «похоже на мошенничество» [твит 7], опубликовал скриншоты файлов журналов, которые доказывали, что пользователь веб-сайта (с отредактированным IP-адресом ) отправил ввод точных слов, произнесенных голосом ИИ в видео, опубликованном Chubbiverse, [твит 8] , и впоследствии ответил на заявление Voiceverse напрямую, написав в Twitter: «Конечно не ты :)". [29] [10] [твит 9]
После твита Voiceverse признались в плагиате голосов с 15.ai в качестве своей собственной платформы, заявив, что их маркетинговая команда использовала проект без должного указания авторства и что «команда Chubbiverse [не имела] никакого представления об этом». В ответ на признание 15 написали в твиттере « Идите на хер ». [9] [10] [11] [29] Последний твит стал вирусным , собрав более 75 000 лайков и 13 000 ретвитов в нескольких репостах. [твит 10] [твит 11] [твит 12]
Первоначальное партнерство между Бейкером и Voiceverse было встречено резкой негативной реакцией и всеобщим негативным приемом. [9] Критики подчеркнули влияние на окружающую среду и потенциальные возможности мошенничества при выходе, связанные с продажами NFT. [37] Комментаторы также указали на иронию в первоначальном твите Бейкера, объявляющем о партнерстве, который заканчивался словами «Вы можете ненавидеть. Или вы можете создавать. Что это будет?», за несколько часов до публичного разоблачения того, что рассматриваемая компания прибегла к воровству вместо того, чтобы создать свой собственный продукт. Бейкер ответил, что он ценит людей, которые делятся своими мыслями, и их ответы «дают [ему] много пищи для размышлений» [38] [39] и попросил фанатов в социальных сетях простить его. [10] [40] Две недели спустя Бейкер прекратил свое партнерство с Voiceverse. [41] [42]
Некоторые актеры озвучивания публично осудили использование технологии клонирования голоса. В качестве причин были названы опасения по поводу подражания и мошенничества , несанкционированного использования голоса актера в порнографии и потенциального использования ИИ для того, чтобы сделать актеров озвучивания устаревшими . [6]
{{cite book}}
: |website=
проигнорировано ( помощь )