EleutherAI ( / ə ˈ l uː θ ər / [2] ) — это низовая некоммерческая исследовательская группа по искусственному интеллекту (ИИ). Группа, считающаяся версией OpenAI с открытым исходным кодом , [3] была сформирована на сервере Discord в июле 2020 года Коннором Лихи, Сидом Блэком и Лео Гао [4] для организации репликации GPT-3 . В начале 2023 года она официально зарегистрировалась как Институт EleutherAI, некоммерческий исследовательский институт. [5]
История
EleutherAI начал свою работу как сервер Discord 7 июля 2020 года под предварительным названием «LibreAI», а затем в том же месяце был переименован в «EleutherAI» [6] в честь греческого слова eleutheria , означающего « свобода » . [3]
30 декабря 2020 года EleutherAI выпустила The Pile , курируемый набор данных разнообразного текста для обучения больших языковых моделей . [7] Хотя в статье упоминалось существование моделей GPT-Neo, сами модели были выпущены только 21 марта 2021 года. [8] Согласно ретроспективе, написанной несколько месяцев спустя, авторы не ожидали, что «люди будут так заботиться о наших «маленьких моделях » » . [1] 9 июня 2021 года EleutherAI продолжила работу над GPT-J-6B , языковой моделью с шестью миллиардами параметров, которая снова стала крупнейшей в мире моделью с открытым исходным кодом, подобной GPT-3. [9] Эти языковые модели были выпущены под лицензией свободного программного обеспечения Apache 2.0 и, как считается, «стимулировали совершенно новую волну стартапов». [5]
Хотя EleutherAI изначально отклонила предложения о финансировании, предпочитая использовать программу Google TPU Research Cloud Program для своих вычислений, [10] к началу 2021 года они приняли финансирование от CoreWeave (небольшая компания облачных вычислений) и SpellML (компания облачной инфраструктуры) в виде доступа к мощным кластерам GPU, которые необходимы для крупномасштабных исследований машинного обучения. 10 февраля 2022 года они выпустили GPT-NeoX-20B, модель, похожую на их предыдущую работу, но масштабированную благодаря ресурсам, предоставленным CoreWeave. [11]
В 2022 году многие члены EleutherAI приняли участие в исследовательском семинаре BigScience, работая над такими проектами, как тонкая настройка многозадачности, [12] [13] обучение BLOOM [14] и разработка библиотек оценки. [14] Инженеры EleutherAI, Stability AI и NVIDIA объединили усилия с биологами во главе с Колумбийским университетом и Гарвардским университетом [15]
для обучения OpenFold, копии AlphaFold2 от DeepMind с открытым исходным кодом . [16]
В начале 2023 года EleutherAI зарегистрировался как некоммерческий исследовательский институт под руководством Стеллы Бидерман, Кертиса Хюбнера и Шиваншу Пурохита. [5] [17] Это объявление сопровождалось заявлением о том, что смещение фокуса EleutherAI с обучения более крупных языковых моделей было частью преднамеренного продвижения к работе в области интерпретируемости, согласования и научных исследований. [17] Хотя EleutherAI по-прежнему стремится содействовать доступу к технологиям ИИ, они считают, что «существует значительно больший интерес к обучению и выпуску LLM, чем когда-либо», что позволяет им сосредоточиться на других проектах. [18]
В июле 2024 года расследование Proof news показало, что набор данных The Pile компании EleutherAI включает субтитры из более чем 170 000 видео YouTube на более чем 48 000 каналов. Результаты вызвали критику и обвинения в краже со стороны пользователей YouTube и других лиц, чьи работы были опубликованы на платформе. [19] [20]
Согласно их веб-сайту, EleutherAI — это «децентрализованный низовой коллектив добровольных исследователей, инженеров и разработчиков, сосредоточенный на выравнивании ИИ , масштабировании и исследовании ИИ с открытым исходным кодом ». [21] Хотя они не продают ни одну из своих технологий как продукты, они публикуют результаты своих исследований на академических площадках, пишут сообщения в блогах, подробно описывающие их идеи и методологии, и предоставляют обученные модели для бесплатного использования любым желающим. [ требуется ссылка ]
Куча
Pile — это набор данных объемом 886 ГБ, предназначенный для обучения больших языковых моделей. Первоначально он был разработан для обучения моделей GPT-Neo компании EleutherAI, но стал широко использоваться для обучения других моделей, включая Megatron-Turing Natural Language Generation компании Microsoft , [22] [23] Open Pre-trained Transformers компании Meta AI , [24] LLaMA , [25] и Galactica, [26] BioMedLM 2.7B компании Stanford University , [27] Chinese-Transformer-XL компании Beijing Academy of Artificial Intelligence, [ 28 ] и YaLM 100B компании Yandex . [29] По сравнению с другими наборами данных, основными отличительными особенностями Pile являются то, что это тщательно подобранный набор данных, выбранных исследователями из EleutherAI для хранения информации, которую, по их мнению, должны изучать языковые модели, и что это единственный такой набор данных, который тщательно документирован исследователями, которые его разработали. [30]
Модели GPT
Наиболее выдающееся исследование EleutherAI относится к его работе по обучению больших языковых моделей с открытым исходным кодом, вдохновленных GPT-3 от OpenAI . [31] Серия моделей «GPT-Neo» от EleutherAI выпустила 125 миллионов, 1,3 миллиарда, 2,7 миллиарда, 6 миллиардов и 20 миллиардов параметров моделей.
GPT-Neo (125M, 1.3B, 2.7B): [32] выпущенная в марте 2021 года, на момент выпуска это была крупнейшая в мире языковая модель с открытым исходным кодом в стиле GPT-3.
GPT-J (6B): [33] выпущенная в марте 2021 года, на момент выпуска это была крупнейшая в мире языковая модель с открытым исходным кодом в стиле GPT-3. [34]
GPT-NeoX (20B): [35] выпущенная в феврале 2022 года, на момент выпуска это была крупнейшая в мире языковая модель с открытым исходным кодом.
Pythia (13B): [36] В то время как предыдущие модели были сосредоточены на масштабировании, чтобы сократить разрыв с моделями с закрытым исходным кодом, такими как GPT-3, набор моделей Pythia идет в другом направлении. Набор моделей Pythia был разработан для содействия научным исследованиям возможностей и процессов обучения в больших языковых моделях. [36] Благодаря 154 частично обученным контрольным точкам модели, полностью открытым данным обучения и возможности воспроизводить точный порядок обучения, Pythia позволяет проводить исследования в области проверяемого обучения, [37] социальных предубеждений, [36] запоминания, [38] и многого другого. [39]
VQGAN-КЛИП
После выпуска DALL-E компанией OpenAI в январе 2021 года компания EleutherAI начала работать над моделями синтеза текста в изображение . Когда OpenAI не выпустила DALL-E публично, Кэтрин Кроусон из EleutherAI и цифровой художник Райан Мердок разработали методику использования CLIP (еще одной модели, разработанной OpenAI) для преобразования обычных моделей генерации изображений в модели синтеза текста в изображение. [42] [43] [44] [45] Основываясь на идеях, восходящих к DeepDream от Google , [46] они добились своего первого крупного успеха, объединив CLIP с другой общедоступной моделью под названием VQGAN, и получившаяся модель называется VQGAN-CLIP. [47] Кроусон представила технологию, разместив в Твиттере блокноты, демонстрирующие методику, которую люди могут запускать бесплатно без какого-либо специального оборудования. [48] [49] [50] Генеральный директор Stability AI Эмад Мостак назвал эту работу мотивацией к основанию Stability AI. [51]
Общественная приемная
Хвалить
Работа EleutherAI по демократизации GPT-3 получила премию ЮНЕСКО Netexplo Global Innovation Award в 2021 году [52], премию InfoWorld's Best of Open Source Software Award в 2021 году [53] и 2022 году [54] , была номинирована на премию VentureBeat's AI Innovation Award в 2021 году [55].
Гэри Маркус , когнитивный ученый и известный критик компаний, занимающихся глубоким обучением, таких как OpenAI и DeepMind, [56] неоднократно [57] [58] хвалил EleutherAI за преданность исследованиям с открытым исходным кодом и прозрачностью.
Максимилиан Ганц, старший исследователь политики в Mozilla Foundation , приветствовал усилия EleutherAI по предоставлению большему количеству исследователей возможности проверять и оценивать технологию ИИ. «Если модели и наборы данных будут открыты, это позволит проводить гораздо больше критических исследований, которые указали на многие недостатки и вред, связанные с генеративным ИИ, и которые часто слишком сложно проводить». [59]
Критика
Технологический журналист Кайл Виггерс выразил обеспокоенность по поводу того, является ли EleutherAI настолько независимой, как она утверждает, или «может ли участие коммерчески мотивированных предприятий, таких как Stability AI и Hugging Face , — оба из которых поддерживаются значительным венчурным капиталом, — повлиять на исследования EleutherAI». [60]
Ссылки
^ ab Leahy, Connor; Hallahan, Eric; Gao, Leo; Biderman, Stella (7 июля 2021 г.). «What A Long, Strange Trip It's Been: EleutherAI One Year Retrospective». Архивировано из оригинала 29 августа 2023 г. . Получено 1 марта 2023 г. .
^ «Talk with Stella Biderman on The Pile, GPT-Neo and MTG». Подкаст Interference. 2 апреля 2021 г. Получено 26 марта 2023 г.
^ ab Smith, Craig (21 марта 2022 г.). «EleutherAI: When OpenAI Isn't Open Enough». IEEE Spectrum . IEEE . Архивировано из оригинала 29 августа 2023 г. . Получено 8 августа 2023 г. .
^ "О". EleutherAI . Получено 23 мая 2024 г. .
^ abc Wiggers, Kyle (2 марта 2023 г.). «Stability AI, Hugging Face и Canva поддерживают новую некоммерческую организацию по исследованию ИИ». TechCrunch . Архивировано из оригинала 29 августа 2023 г. Получено 8 августа 2023 г.
^ Лихи, Коннор; Халлахан, Эрик; Гао, Лео; Бидерман, Стелла (7 июля 2021 г.). «Какое долгое и странное путешествие это было: ретроспектива EleutherAI за один год». Блог EleutherAI . Архивировано из оригинала 29 августа 2023 г. . Получено 14 апреля 2023 г.
^ Гао, Лео; Бидерман, Стелла; Блэк, Сид; и др. (31 декабря 2020 г.). The Pile: набор данных разнообразного текста объемом 800 ГБ для моделирования языка . arXiv 2101.00027. arXiv : 2101.00027 .
^ «Бесплатная альтернатива GPT-3 — GPT-Neo — это то, что должно вызывать восторг». VentureBeat . 15 мая 2021 г. Архивировано из оригинала 9 марта 2023 г. Получено 14 апреля 2023 г.
^ "GPT-J-6B: Введение в самую большую модель GPT с открытым исходным кодом | Forefront". www.forefront.ai . Архивировано из оригинала 9 марта 2023 г. . Получено 1 марта 2023 г. .
^ "EleutherAI: When OpenAI Isn't Open Enough". IEEE Spectrum . Архивировано из оригинала 21 марта 2023 г. Получено 1 марта 2023 г.
^ Блэк, Сид; Бидерман, Стелла; Халлахан, Эрик; и др. (14 апреля 2022 г.). «GPT-NeoX-20B | Модель авторегрессионного языка с открытым исходным кодом». arXiv : 2204.06745 [cs.CL].
^ Сан, Виктор и др. (2021). «Многозадачное обучение с подсказками позволяет обобщить задачи с нуля». arXiv : 2110.08207 [cs.LG].
^ ab Workshop, BigScience; и др. (2022). "BLOOM: 176B-параметрическая многоязычная языковая модель открытого доступа". arXiv : 2211.05100 [cs.CL].
^ «Знакомьтесь, OpenFold: повторная реализация AlphaFold2 для освещения его механизмов обучения и обобщения». 21 августа 2023 г.
^ «Демократизация ИИ для биологии с OpenFold».
^ ab «Взгляд с высоты 30 000 футов: предисловие ко второй ретроспективе EleutherAI». 2 марта 2023 г.
^ «Исследовательская лаборатория искусственного интеллекта запускает некоммерческую исследовательскую организацию с открытым исходным кодом».
^ Гилбертсон, Энни; Рейснер, Алекс (16 июля 2024 г.). «Apple, Nvidia, Anthropic использовали тысячи перехваченных видеороликов YouTube для обучения ИИ». WIRED . Получено 18 июля 2024 г.
^ Гилбертсон, Энни (16 июля 2024 г.). «Apple, Nvidia, Anthropic использовали тысячи перехваченных видео с YouTube для обучения ИИ». Доказательство . Получено 18 июля 2024 г.
^ "EleutherAI Website". EleutherAI. Архивировано из оригинала 2 июля 2021 г. Получено 1 июля 2021 г.
^ «Microsoft и Nvidia объединяются для обучения одной из крупнейших в мире языковых моделей». 11 октября 2021 г. Архивировано из оригинала 27 марта 2023 г. Получено 8 марта 2023 г.
^ "AI: Megatron the Transformer, and its related language models". 24 сентября 2021 г. Архивировано из оригинала 4 марта 2023 г. Получено 8 марта 2023 г.
^ Туврон, Гюго; Лавриль, Тибо; Изакар, Готье; Грав, Эдуард; Лампле, Гийом; и др. (27 февраля 2023 г.). «LLaMA: открытые и эффективные модели базового языка». arXiv : 2302.13971 [cs.CL].
^ Тейлор, Росс; Кардас, Марцин; Кукурулл, Гиллем; Сиалом, Томас; Хартшорн, Энтони; Саравиа, Элвис; Поултон, Эндрю; Керкез, Виктор; Стойнич, Роберт (16 ноября 2022 г.). «Галактика: большая языковая модель для науки». arXiv : 2211.09085 [cs.CL].
^ "Model Card for BioMedLM 2.7B". huggingface.co . Архивировано из оригинала 5 июня 2023 г. . Получено 5 июня 2023 г. .
^ Юань, Ша; Чжао, Ханьюй; Ду, Чжэнсяо; Дин, Мин; Лю, Сяо; Цен, Юкуо; Цзоу, Сюй; Ян, Жилин; Тан, Цзе (2021). «WuDaoCorpora: сверхкрупный китайский корпус для предварительного обучения языковым моделям». ИИ Открыть . 2 : 65–68 . doi : 10.1016/j.aiopen.2021.06.001 .
^ Грабовский, Илья (2022). «Яндекс публикует YaLM 100B, самую большую нейронную сеть типа GPT в открытом исходном коде» (Пресс-релиз). Яндекс . Получено 5 июня 2023 г.
^ Хан, Мехтаб; Ханна, Алекс (2023). «Субъекты и этапы разработки наборов данных ИИ: структура для подотчетности наборов данных». Ohio State Technology Law Journal . 19 (2): 171– 256. hdl : 1811/103549 . SSRN 4217148.
^ "Бесплатная альтернатива GPT-3 GPT-Neo — это нечто, вызывающее восторг". 15 мая 2021 г. Архивировано из оригинала 9 марта 2023 г. Получено 10 марта 2023 г.
^ "EleutherAI/gpt-j-6B · Hugging Face". huggingface.co . Архивировано из оригинала 12 марта 2023 г. . Получено 10 марта 2023 г. .
^ "GPT-J-6B: Введение в самую большую модель GPT с открытым исходным кодом | Forefront". www.forefront.ai . Архивировано из оригинала 9 марта 2023 г. . Получено 1 марта 2023 г. .
^ Блэк, Сидни; Бидерман, Стелла; Халлахан, Эрик; и др. (1 мая 2022 г.). GPT-NeoX-20B: модель языка авторегрессии с открытым исходным кодом. Труды BigScience, эпизод № 5 — Семинар по проблемам и перспективам создания больших языковых моделей. стр. 95–136 . arXiv : 2204.06745 . doi :10.18653/v1/2022.bigscience-1.9 . Получено 19 декабря 2022 г. — через Ассоциацию компьютерной лингвистики — Антология.
^ abc Бидерман, Стелла; Шелькопф, Хейли; Энтони, Квентин; Брэдли, Херби; О'Брайен, Кайл; Халлахан, Эрик; Мохаммад Афлах Хан; Пурохит, Шиваншу; USVSN Саи Прашант; Рафф, Эдвард; Скоурон, Авия; Сутавика, Линтанг; Оскар ван дер Валь (2023). "Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling". arXiv : 2304.01373 [cs.CL].
^ Чой, Дами; Шавит, Йонадав; Дювено, Дэвид (2023). «Инструменты для проверки данных обучения нейронных моделей». arXiv : 2307.00682 [cs.LG].
^ Бидерман, Стелла; USVSN Саи Прашант; Сутавика, Линтанг; Шелькопф, Хейли; Энтони, Квентин; Пурохит, Шиваншу; Рафф, Эдвард (2023). «Эмерджентное и предсказуемое запоминание в больших языковых моделях». arXiv : 2304.11158 [cs.CL].
^ "CLIP-Guided Diffusion". EleutherAI . Архивировано из оригинала 29 августа 2023 г. . Получено 20 августа 2023 г. .
^ "CLIP Guided Diffusion HQ 256x256.ipynb - Colaboratory". Google Colab . Архивировано из оригинала 29 августа 2023 г. Получено 20 августа 2023 г.
^ MIRANDA, LJ (8 августа 2021 г.). «Иллюстрированный VQGAN». ljvmiranda921.github.io . Архивировано из оригинала 20 марта 2023 г. . Получено 8 марта 2023 г. .
^ "Inside The World of Uncanny AI Twitter Art". Nylon . 24 марта 2022 г. Архивировано из оригинала 29 августа 2023 г. Получено 8 марта 2023 г.
^ «Этот ИИ превращает текстовые описания фильмов в абстрактные постеры». Yahoo Life . 20 сентября 2021 г. Архивировано из оригинала 27 декабря 2022 г. Получено 8 марта 2023 г.
^ Куах, Катянна. «Мужчина провел год в тюрьме по обвинению в убийстве с использованием спорных доказательств ИИ. Теперь дело прекращено». www.theregister.com . Архивировано из оригинала 8 марта 2023 г. . Получено 8 марта 2023 г. .
^ "Alien Dreams: An Emerging Art Scene - ML@B Blog". Alien Dreams: An Emerging Art Scene - ML@B Blog . Архивировано из оригинала 10 марта 2023 г. Получено 8 марта 2023 г.
^ "VQGAN-CLIP". EleutherAI . Архивировано из оригинала 20 августа 2023 . Получено 20 августа 2023 .
^ «Мы попросили инструмент ИИ «нарисовать» изображения Австралии. Критики говорят, что они достаточно хороши, чтобы продаваться». ABC News . 14 июля 2021 г. Архивировано из оригинала 7 марта 2023 г. Получено 8 марта 2023 г. – через www.abc.net.au.
^ Натарадж, Пурнима (28 февраля 2022 г.). «Онлайн-инструменты для создания ошеломляющего искусства ИИ». Журнал Analytics India . Архивировано из оригинала 8 февраля 2023 г. . Получено 8 марта 2023 г.
^ «Познакомьтесь с женщиной, создающей вирусные портреты психического здоровья на TikTok». www.vice.com . 30 ноября 2021 г. Архивировано из оригинала 11 мая 2023 г. Получено 8 марта 2023 г.
^ @EMostaque (2 марта 2023 г.). «Искусственный интеллект стабильности появился из @AiEleuther, и мы были рады инкубировать его, поскольку закладывался фундамент» ( Твит ) – через Twitter .
^ "UNESCO Netexplo Forum 2021 | ЮНЕСКО". Архивировано из оригинала 16 октября 2022 года . Получено 8 марта 2023 года .
^ Йегулалп, Джеймс Р. Борк, Мартин Хеллер, Эндрю К. Оливер, Ян Пойнтер, Мэтью Тайсон и Сердар (18 октября 2021 г.). «Лучшее программное обеспечение с открытым исходным кодом 2021 года». InfoWorld . Архивировано из оригинала 8 марта 2023 г. . Получено 8 марта 2023 г. .{{cite web}}: CS1 maint: multiple names: authors list (link)
^ Йегулалп, Джеймс Р. Борк, Мартин Хеллер, Эндрю К. Оливер, Ян Пойнтер, Айзек Саколик, Мэтью Тайсон и Сердар (17 октября 2022 г.). «Лучшее программное обеспечение с открытым исходным кодом 2022 года». InfoWorld . Архивировано из оригинала 8 марта 2023 г. . Получено 8 марта 2023 г. .{{cite web}}: CS1 maint: multiple names: authors list (link)
^ "VentureBeat представляет номинантов на премию AI Innovation Awards на Transform 2021". 16 июля 2021 г. Архивировано из оригинала 8 марта 2023 г. Получено 8 марта 2023 г.
^ «Что ждет ИИ дальше: Гэри Маркус рассказывает о пути к надежному искусственному интеллекту». ZDNET . Архивировано из оригинала 1 марта 2023 г. . Получено 8 марта 2023 г. .
^ @GaryMarcus (10 февраля 2022 г.). «GPT-NeoX-20B, большая языковая модель с 20 миллиардами параметров, размещена в свободном доступе для общественности, с откровенным отчетом о сильных сторонах, ограничениях, экологических издержках и т. д.» ( Твит ) – через Twitter .
^ @GaryMarcus (19 февраля 2022 г.). «невероятно важный результат: «наши результаты поднимают вопрос о том, насколько [большие языковые] модели на самом деле обобщают данные, выходящие за рамки предобучения»» ( Твит ) – через Twitter .
^ Chowdhury, Meghmala (29 декабря 2022 г.). «Разрушит ли мощный ИИ отрасли, которые когда-то считались безопасными, в 2023 году?». Analytics Insight . Архивировано из оригинала 1 января 2023 г. . Получено 6 апреля 2023 г. .
^ Wiggers, Kyle (2 марта 2023 г.). «Stability AI, Hugging Face и Canva поддерживают новую некоммерческую организацию по исследованию ИИ». Архивировано из оригинала 7 марта 2023 г. Получено 8 марта 2023 г.