Михаэль Гшвинд

Михаэль Гшвинд
Михаэль Гшвинд
	Михаэль Гшвинд
Рожденный	Вена , Австрия
Национальность	США
Альма-матер	Венский технический университет

Американский учёный-компьютерщик

Майкл Карл Гшвинд — американский компьютерный ученый из Nvidia в Санта-Кларе, Калифорния . Он известен своим основополагающим вкладом в проектирование и эксплуатацию универсальных программируемых ускорителей, как один из первых сторонников устойчивости в компьютерном проектировании и как плодовитый изобретатель . ^[1]

Ускорители

Gschwind руководил архитектурой аппаратного и программного обеспечения для первого универсального программируемого ускорителя Accelerators и широко известен за свой вклад в гетерогенные вычисления в качестве архитектора процессора Cell Broadband Engine , используемого в Sony PlayStation 3 , ^[2]^[3] и RoadRunner , первом суперкомпьютере, достигшем устойчивой производительности Petaflop. В качестве главного архитектора IBM System Architecture он руководил интеграцией графических процессоров Nvidia и центральных процессоров IBM для создания суперкомпьютеров Summit и Sierra .

Гшвинд был одним из первых сторонников виртуализации ускорителей ^[4]^[5] и в качестве главного системного архитектора IBM руководил виртуализацией ввода-вывода и ускорителей. ^[6]

Gschwind оказал решающее влияние на разработку моделей программирования ускорителей, разработав API и лучшие практики программирования ускорителей, ^[7]^[8]^[9]^[10]^[11] изучив приложения для разнообразных приложений HPC ^[12] и не-HPC. ^[13] а также выступая в качестве соредактора книг ^[14] и журналов ^[15] по практике и опыту программирования систем на основе ускорителей.

Ускорение ИИ

Gschwind был одним из первых сторонников аппаратного ускорения ИИ с графическими процессорами и программируемыми ускорителями. Будучи главным инженером IBM по ИИ, он руководил разработкой первых продуктов ИИ IBM и инициировал проект PowerAI, который вывел на рынок оптимизированное для ИИ оборудование (под кодовым названием «Minsky») и первые предварительно созданные оптимизированные для оборудования фреймворки ИИ. Эти фреймворки поставлялись как первые свободно устанавливаемые, управляемые двоичными пакетами программные стеки ИИ, прокладывая путь к принятию. ^[16]

В Facebook Gschwind продемонстрировал ускоренные большие языковые модели (LLM) для ускорителей Facebook первого поколения ASIC и для графических процессоров, возглавив первые масштабные развертывания производства LLLM для встраивания, обслуживающего анализ контента и безопасность платформы, а также для многочисленных пользовательских поверхностей, таких как Facebook Assistant и FB Marketplace, начиная с 2020 года. ^[17] Gschwind руководил разработкой и является одним из архитекторов Multiray, платформы на основе ускорителя для обслуживания базовых моделей и первой производственной системы для обслуживания больших языковых моделей в масштабе в отрасли, обслуживающей более 800 миллиардов запросов в день в 2022 году. ^[18]^[19]

Gschwind возглавил внедрение ASIC в масштабах всей компании ^[20] и последующий «стратегический поворот» Facebook к GPU Inference, развертывание GPU Inference в масштабе, шаг, подчеркнутый генеральным директором FB Марком Цукербергом в его отчете о доходах. Среди первых рекомендательных моделей, развернутых с GPU Inference, была модель рекомендаций видео Reels, которая обеспечила 30%-ный рост числа пользователей в течение 2 недель после развертывания, как сообщил генеральный директор FB Марк Цукерберг в своем отчете о доходах за первый квартал 2022 года ^[21] и последующий рост REeels на $3–10 млрд в годовом исчислении. ^[22]

Gschwind также руководил внедрением ускорителей ИИ для PyTorch , уделяя особое внимание ускорению LLM, возглавляя разработку Accelerated Transformers ^[23] (ранее «Better Transformer» ^[24] ) и сотрудничая с такими компаниями, как HuggingFace, для продвижения отраслевого ускорения LLM ^[25] с целью сделать PyTorch 2.0 стандартной экосистемой для больших языковых моделей и генеративного ИИ. ^[26]^[27]^[28]^[29]

Gschwind впоследствии возглавил расширение ускорения LLM для моделей искусственного интеллекта на устройствах с помощью ExecuTorch, решения экосистемы PyTorch для искусственного интеллекта на устройствах, впервые сделав генеративный искусственный интеллект на устройствах осуществимым. ^[30] Ускорение LLM ExecuTorch (на нескольких поверхностях, включая NPU, MPS и ускорители Qualcomm) обеспечило значительное ускорение, сделав практичным развертывание Llama3 без изменений на серверах и на устройствах (продемонстрировано на iOS, Android и Raspberry Pi 5) при запуске, при этом разработчики сообщали об ускорении до 5x-10x по сравнению с предыдущими решениями искусственного интеллекта на устройствах. ^[31]^[32]

Многочисленный вклад Gschwind в программные стеки и фреймворки ИИ, ускорители ИИ, мобильный/встроенный ИИ на устройствах и числовые представления с низкой точностью в Torchchat ^[33]^[34] представляет собой знаменательную веху в качестве первого в отрасли интегрированного программного стека для серверов и ИИ на устройствах с поддержкой широкого набора серверных и встроенных/мобильных ускорителей.

Гшвинд — пионер и сторонник устойчивого ИИ. ^[35]

Проектирование суперкомпьютеров

Гшвинд был главным архитектором по проектированию аппаратного обеспечения и программной архитектуры для нескольких суперкомпьютеров , включая три ведущие суперкомпьютерные системы: Roadrunner (июнь 2008 г. — ноябрь 2009 г.), Sequoia (июнь 2012 г. — ноябрь 2012 г.) и Summit (июнь 2018 г. — июнь 2020 г.).

Roadrunner — суперкомпьютер, созданный IBM для Лос-Аламосской национальной лаборатории в Нью-Мексико, США. Roadrunner стоимостью 100 миллионов долларов США был разработан для пиковой производительности 1,7 петафлопс . Он достиг 1,026 петафлопс 25 мая 2008 года, став первой в мире системой TOP500 LINPACK, устойчиво работающей на уровне 1,0 петафлопс. ^[36]^[37] Он также был четвертым по энергоэффективности суперкомпьютером в мире в списке Supermicro Green500 с рабочей скоростью 444,94 мегафлопс на ватт потребляемой мощности.

Sequoia — суперкомпьютер Blue Gene/Q петафлопсного масштаба , созданный IBM для Национальной администрации по ядерной безопасности в рамках Программы усовершенствованного моделирования и вычислений (ASC). Он был доставлен в Ливерморскую национальную лабораторию имени Лоуренса (LLNL) в 2011 году и был полностью развернут в июне 2012 года. ^[38] Sequoia была демонтирована в 2020 году, ее последняя позиция в списке top500.org была #22 в списке ноября 2019 года.

Summit — суперкомпьютер, разработанный IBM для использования в Oak Ridge Leadership Computing Facility (OLCF), объекте в Oak Ridge National Laboratory . Он занимал первое место с ноября 2018 года по июнь 2020 года. ^[39]^[40] Его текущий бенчмарк LINPACK имеет тактовую частоту 148,6 петафлопс. ^[41]

Многоядерная конструкция процессора

Gschwind был одним из первых сторонников многоядерного дизайна процессоров для преодоления ограничений мощности и производительности однопроцессорных конструкций. Gschwind был соавтором анализа ограничений масштабирования частоты , который, как утверждается, привел к общеотраслевому переходу на многоядерные конструкции. ^[42] Gschwind был ведущим архитектором нескольких многоядерных конструкций, включая первый коммерческий многоядерный процессор Cell с 9 ядрами, BlueGene/Q с 18 ядрами и несколько корпоративных и мэйнфреймовых процессоров ( POWER7 / POWER8 / POWER9 с количеством ядер до 24; z10-z15 с количеством ядер до 12).

Как главный архитектор чипов и главный микроархитектор, Gschwind сыграл решающую роль в перезагрузке архитектуры POWER после тупика высокочастотной и мощной POWER6, возглавив возрождение дизайна с неупорядоченным байтом в стиле POWER5 с POWER7, выступая в качестве руководителя блока и главного микроархитектора для блока выборки, декодирования и предсказания ветвлений инструкций (включая также логическое выполнение инструкций), а также исполняющего обязанности руководителя для большинства других блоков в какой-то момент во время проектирования. В последующих поколениях архитектуры POWER интеграция дизайна VMX SIMD и FPU в VSX, поддержка little-endian в POWER8 заложила основу для little-endian PowerLinux (используемого в прототипе Google POWER и для интеграции GPU для системы Minsky PowerAI), а также интеграция NVLink для оптимизированной интеграции GPU/CPU; и встроенная поддержка аппаратно-управляемых таблиц страниц radix в стиле Linux в POWER9, используемая в ведущих мировых суперкомпьютерах Summit и Sierra Power+Nvidia; и введение адресации, зависящей от ПК, и префиксных инструкций для преодоления ограничений 32-битных кодировок инструкций архитектур RISC в POWER 10.

В качестве ведущего/менеджера по архитектуре и главного архитектора кросс-платформенных решений Гшвинд также руководил перезагрузкой мэйнфрейма System Z с внедрением эффективности компилируемого кода (с особым акцентом на C, C++ и Java) в IBM z10 , внеочередного выполнения, ввода-вывода на базе PCIe в z196 и z114 , поддержки транзакционной памяти в IBM zEC12 , внедрения аппаратной многопоточности и архитектуры z/Vector SIMD ^[43] (включая общую программную инфраструктуру с VSX компании Power) в IBM z13 ; и прекращения поддержки ESA390 для операционных систем ^[44], что существенно снизило сложность проверки и проектирования и сократило время выхода на рынок в IBM z14 .

Надежность системы

Gschwind ввел термин «стена надежности» для препятствий к устойчивой работе крупномасштабных систем. Он внес большой вклад в моделирование надежности на уровне системы и усовершенствования, с особым акцентом на обеспечение устойчивой работы суперкомпьютерных систем. Как главный архитектор BlueGene/Q, он руководил надежностью на уровне системы и проектированием процессоров, а также был главным архитектором ISA и руководителем проектирования векторного блока с плавающей точкой QPU. ^[45]^[46]

Gschwind возглавил первое моделирование уязвимостей архитектуры на уровне процессора и чипа и выборочное укрепление для достижения целевого MTBF, впервые реализованное в BlueGene/Q с использованием стекированных защелок DICE для критических защелок, удерживающих состояние. ^[47] Чтобы повысить надежность системы, избегая при этом затрат на производительность и электроэнергию, связанных с конструкциями на основе ECC, Gschwind предложил и возглавил проектирование регистровых файлов и второстепенных шин, защищенных четностью с восстановлением состояния. В соответствии с этим подходом обнаружение ошибок реализовано в трактах данных, которые могут происходить параллельно с инициированием вычислительных операций, с операцией восстановления, когда мягкая ошибка обнаруживается параллельно с операцией. Затем восстановление продолжается из хорошего состояния, поддерживаемого в альтернативных копиях регистрового файла, обычно используемого для масштабирования количества портов чтения регистрового файла и сокращения задержки проводки от чтения регистрового файла до исполнительных устройств. ^[48]

Технологии компиляции

Гшвинд внес основополагающий вклад в технологию компиляторов, уделив особое внимание новаторскому вкладу в компиляцию «на лету», динамическую оптимизацию, двоичную трансляцию и компиляторы для суперкомпьютеров.

Компиляция «точно в срок»

Gschwid был одним из первых сторонников компиляции just-in-time и был движущей силой в этой области. Он предложил критические улучшения для внедрения систем, основанных на JIT-компиляции, с особым акцентом на динамическую оптимизацию, двоичную трансляцию и реализацию виртуальных машин. Вклад Gschwind включает реализацию точных исключений с отложенной материализацией состояния, ^[49] оптимизацию высокопроизводительных вычислений, такую как программный конвейер во время JIT-трансляции, ^[50]^[51] совместное проектирование оборудования и программного обеспечения для двоичной эмуляции и динамической оптимизации. ^[52]^[53]^[54]^[55] Основополагающий вклад Gschwind в проектирование и реализацию виртуальных машин отражен в том, что он является наиболее цитируемым автором в учебнике `Virtual Machines' Смита и Наира. ^[56]

Компиляция для ускорителей и суперкомпьютеров на базе ускорителей

Gschwind приписывают основополагающий вклад в компиляцию универсальных программируемых ускорителей и графических процессоров, поддерживая запуск зарождающейся дисциплины в качестве основного докладчика на первом семинаре по универсальным программируемым графическим процессорам (GPGPU). Его вклад включает в себя разбиение кода, оптимизацию кода, разбиение кода и API для ускорителей. ^[57]^[58]^[59]^[60]

Его инновации включают совместную разработку компилятора и оборудования для интегрированных регистровых файлов с целью решения проблем с упорядочением фаз при автоматической векторизации между назначением единиц и решениями векторизации для упрощения модели затрат. Это нововведение было принято в программируемых ускорителях общего назначения, включая Cell SPU и GPUs, конструкции ЦП общего назначения, начиная с новаторской работы Гшвинда по ускорителям ЦП SIMD.

В последнее время его вклад в компиляцию HPC включает новаторскую работу по обеспечению высокопроизводительного выполнения рабочих нагрузок ИИ. ^[61]^[62]^[63]

API системы и компилятора

Gschwind руководил разработкой среды выполнения ELFv2 Power, которая была широко принята для сред выполнения Power. Преимуществом является то, что новая среда обновляет API и ABI для объектно-ориентированных сред. Отступая от традиционных соглашений о данных архитектуры Power с обратным порядком байтов, ELFv2 ABI и API были впервые запущены для поддержки новой версии Linux на Power с обратным порядком байтов. С тех пор это было принято для всех версий Linux на серверах Power и для поддержки ускорения GPU с графическими процессорами Nvidia, например, в оптимизированных для ИИ серверах Minsky и суперкомпьютерах Summit и Sierra. ^[64]^[65]^[66]

SIMD Параллельная векторная архитектура

Gschwind является пионером параллельной векторной архитектуры SIMD для увеличения количества операций, которые могут быть выполнены за один цикл. Для обеспечения эффективной компиляции Gschwind предложил реализацию объединенных скалярных и векторных исполнительных блоков, устраняя стоимость копирования между скалярным и векторизованным кодом и упрощая архитектуру компилятора путем решения проблем упорядочения фаз в компиляторах.

Ядра ускорителя Cell (Synergistic Processor Unit SPU) содержат один файл регистров из 128 элементов с 128 битами на регистр. Регистры могут содержать либо скаляр, либо вектор из нескольких значений. ^{[67] Упрощенная модель затрат приводит к значительному улучшению векторизации,}повышению общей производительности и эффективности программы. ^[68]

Векторно-скалярный подход был также принят в инструкциях SIMD IBM Power VSX (Vector Scalar Extension) ^[69] , векторных инструкциях BlueGene /Q ^[70]^[71] и наборе векторных инструкций мэйнфрейма System/z ^[72]^[73]. Разработка всех трех векторно-скалярных архитектур IBM велась под руководством Гшвинда, главного архитектора системной архитектуры IBM.

Услуги, образование, разнообразие, инклюзивность и цифровая инклюзивность

Гшвинд твердо верит в силу образования и его способность преодолевать последствия всех видов дискриминации и колониализма. Он работал преподавателем в [Принстоне] и [TU Wien] для продвижения образования. Чтобы преодолеть последствия колониализма и преодолеть цифровой разрыв, Гшвинд добровольно отправился в Сенегал, чтобы внести вклад в расширение и улучшение образовательной и исследовательской сети Сенегала snRER.

Фон

Гшвинд родился в Вене и получил докторскую степень по вычислительной технике в Венском техническом университете в 1996 году. Он присоединился к исследовательскому центру IBM Thomas J. Watson в Йорктаун-Хайтс, штат Нью-Йорк, а также занимал должности в группе продуктов IBM Systems и в ее корпоративной штаб-квартире в Армонке, штат Нью-Йорк. В Huawei Гшвинд занимал должность вице-президента по искусственному интеллекту и ускоренным системам в Huawei. В настоящее время Гшвинд является инженером-программистом в Meta Platforms , где он отвечал за ускорение ИИ и инфраструктуру ИИ. ^{[ необходима цитата ]}

Ссылки

^ "Майкл Карл Гшвинд". www.ppubs.uspto.gov .
↑ Дэвид Беккер (3 декабря 2004 г.). «PlayStation 3 chip goes easy on developers». CNET . Получено 13 января 2019 г. .
^ Скарпино, М. (2008). Программирование процессора ячейки: для игр, графики и вычислений. Pearson Education.
^ https://on-demand.gputechconf.com/gtc/2017/presentation/S7320-tim-kaldewey-optimizing-efficiency-of-deep-learning-workloads-through-gpu-virtualization.pdf, https://on-demand.gputechconf.com/gtc/2017/presentation/S7320-tim-kaldewey-optimizing-efficiency-of-deep-learning-workloads-through-gpu-virtualization.pdf
^ Оптимизация эффективности глубокого обучения посредством виртуализации ускорителей, https://ieeexplore.ieee.org/document/8030299
^ Виртуализация ввода-вывода и ускорение системы в Power9, https://old.hotchips.org/wp-content/uploads/hc_archives/hc27/HC27.24-Monday-Epub/HC27.24.30-HP-Cloud-Comm-Epub/HC27.24.340-IO-Virtualization-POWER8-Gschwind-IBM.pdf
^ Gschwind, Michael (2007-06-01). «The Cell Broadband Engine: Exploiting Multiple Levels of Parallelism in a Chip Multiprocessor». Международный журнал параллельного программирования . 35 (3): 233– 262. doi :10.1007/s10766-007-0035-4. ISSN 1573-7640.
^ "интегрированное выполнение: модель программирования для ускорителей" . Получено 2024-09-04 .
^ Многопроцессорная обработка на чипе и широкополосный движок Cell, https://computingfrontiers.org/2006/cf06-gschwind.pdf
^ Справочник по программированию CBE
^ Учебник по программированию CBE, https://public.dhe.ibm.com/software/dw/cell/CBE_Programming_Tutorial_v3.1.pdf
^ Ши, Гочунь; Киндратенко, Владимир; Пратас, Фредерико; Транкосо, Педро; Гшвинд, Майкл (2010). «Ускорение работы приложений с помощью широкополосного движка Cell». Вычислительная техника в науке и технике . 12 (1): 76– 81. Bibcode : 2010CSE....12a..76S. doi : 10.1109/MCSE.2010.4. ISSN 1521-9615.
^ Cell GC: использование синергетического процессора Cell в качестве сопроцессора сборки мусора, ACM Virtual Execution Environments, https://dominoweb.draco.res.ibm.com/reports/rc24520.pdf
^ М. Гшвинд, Ф. Густавсон, Дж. Принс (редакторы), Высокопроизводительные вычисления с использованием ядра широкополосной связи Cell. Научное программирование 2009, https://www.semanticscholar.org/paper/High-Performance-Computing-with-the-Cell-Broadband-Gschwind-Gustavson/c6775765100eb3b9eb7b7bc003a8eba1ca90667f
^ М. Гшвинд, М. Перроне (редакторы), Актуальный выпуск по гибридным системам, журнал IBM Journal of Research and Development 53(5):1-2 сентября 2009 г., DOI:10.1147/JRD.2009.5429079
^ "PowerAI: Совместно оптимизированный программный стек для ИИ на Power" . Получено 2024-09-04 .
^ "От приема к развертыванию для больших языковых моделей | GTC Digital, сентябрь 2022 г. | NVIDIA On-Demand". NVIDIA . Получено 04.09.2024 .
^ "MultiRay: Оптимизация эффективности для крупномасштабных моделей ИИ". ai.meta.com . Получено 28.10.2023 .
^ MultiRay: ускоренный сервис встраивания для понимания контента, https://static.sched.com/hosted_files/pytorch2023/60/PyTorch_Conf_2023-Multiray.pdf
^ Развертывание ускорителя вывода первого поколения на Facebook, https://arxiv.org/pdf/2107.04140.pdf
^ "Марк Цукерберг говорит, что ИИ увеличивает монетизацию на 30% в Instagram и на 40% в Facebook". Yahoo Finance . 2023-04-27 . Получено 2024-09-04 .
^ Гайрола, Ананья. «От $3 млрд до $10 млрд: управляемые искусственным интеллектом барабаны Meta резко увеличили рост доходов за пределы ожиданий — Meta Platforms (NASDAQ:META)». Benzinga . Получено 04.09.2024 .
^ "PyTorch". www.pytorch.org . Получено 28.10.2023 .
^ "A BetterTransformer для быстрого вывода Transformer". pytorch.org . Получено 28.10.2023 .
^ Белкада, Юнес (21.11.2022). «BetterTransformer, нестандартная производительность для обнимающих лиц трансформеров». PyTorch . Получено 04.09.2024 .
^ "PyTorch 2.0: наш релиз следующего поколения, который быстрее, более питонский и динамичный, чем когда-либо". PyTorch . Получено 2024-09-04 .
^ "Ускоренные генеративные диффузионные модели с PyTorch 2". PyTorch . Получено 2024-09-04 .
^ "Ускорение больших языковых моделей с помощью ускоренных трансформаторов". PyTorch . Получено 2024-09-04 .
^ PyTorch 2: более быстрое машинное обучение с помощью динамического преобразования байт-кода Python и компиляции графов, https://pytorch.org/assets/pytorch2-2.pdf
^ "ExecuTorch Alpha: вывод LLM и ИИ на передовые позиции с нашим сообществом и партнерами". PyTorch . Получено 04.09.2024 .
^ "Layla v4.6.0 была опубликована!". Layla . 2024-04-26 . Получено 2024-09-04 .
^ "⚡️Невероятно быстрый LLama2-7B-Chat на устройстве Android с 8 ГБ ОЗУ через Executorch". r/LocalLLaMA . 2024-05-15 . Получено 2024-09-04 .
^ "Введение в torchchat: ускорение локального вывода LLM на ноутбуках, настольных компьютерах и мобильных устройствах". PyTorch . Получено 04.09.2024 .
^ pytorch/torchchat, pytorch, 2024-09-04 , получено 2024-09-04
^ Устойчивый ИИ: экологические последствия, проблемы и возможности, https://arxiv.org/pdf/2111.00364.pdf
^ Годен, Шарон (2008-06-09). «IBM Roadrunner разбивает 4-минутную милю суперкомпьютеров». Computerworld . Архивировано из оригинала 2008-12-24 . Получено 2008-06-10 .
^ Филдс, Джонатан (2008-06-09). "Суперкомпьютер задает темп петафлоп". BBC News . Получено 2008-06-09 .
^ NNSA заключает контракт с IBM на создание суперкомпьютера следующего поколения, 3 февраля 2009 г.
^ Лор, Стив (8 июня 2018 г.). «Подвинься, Китай: США снова стали домом для самого быстрого суперкомпьютера в мире». The New York Times . Получено 19 июля 2018 г.
^ "Список 500 лучших - ноябрь 2022 г.". TOP500 . Ноябрь 2022 г. . Получено 13 апреля 2022 г. .
^ "Ноябрь 2022 г. | TOP500 Supercomputer Sites". TOP500 . Получено 13 апреля 2022 г. .
^ "Оптимизация конвейеров для мощности и производительности" . Получено 2024-09-04 .
^ Шварц, EM; Кришнамурти, RB; Пэррис, CJ; Брэдбери, JD; Ннебе, IM; Гшвинд, M. (2015-07-01). «Ускоритель SIMD для бизнес-аналитики на IBM z13». IBM J. Res. Dev . 59 ( 4– 5): 2:1–2:16. doi :10.1147/JRD.2015.2426576. ISSN 0018-8646.
^ Общая последовательность загрузки для утилиты управления, которая может быть инициализирована в нескольких архитектурах, патент США 9,588,774, https://patents.google.com/patent/US9588774B2
^ "Майкл Гшвинд - ICS 2012 BlueGeneQ keynote presentation" . Получено 2024-09-04 .
^ US9081501B2, Асаад, Самех; Беллофатто, Ральф Э. и Блоксом, Майкл А. и др., «Многопетамасштабный высокоэффективный параллельный суперкомпьютер», опубликовано 14 июля 2015 г.
^ Gschwind, Michael; Salapura, Valentina; Trammell, Catherine; McKee, Sally A. (2011). "SoftBeam: Точное отслеживание переходных сбоев и анализ уязвимостей во время проектирования процессора". 2011 IEEE 29-я Международная конференция по проектированию компьютеров (ICCD) . С. 404–410 . doi :10.1109/ICCD.2011.6081430. ISBN 978-1-4577-1954-7. Получено 2024-09-04 .
^ US7512772B2, Gschwind, Michael Karl & Philhower, Robert, «Мягкая обработка ошибок в микропроцессорах», выпущено 31.03.2009
^ "Эффективное планирование инструкций с точными исключениями" . Получено 2024-09-04 .
^ "Оптимизации и параллелизм оракула с динамическим переводом" . Получено 2024-09-04 .
^ "Динамическая и прозрачная двоичная трансляция" . Получено 2024-09-04 .
^ "Динамическая двоичная трансляция и оптимизация" . Получено 2024-09-04 .
^ Altman, ER; Ebcioglu, K.; Gschwind, M.; Sathaye, S. (2001). «Достижения и будущие проблемы в области бинарной трансляции и оптимизации». Труды IEEE . 89 (11): 1710– 1722. doi :10.1109/5.964447 . Получено 04.09.2024 .
^ Двоичная трансляция и проблемы конвергенции архитектуры для IBM System/390, https://www.researchgate.net/profile/Michael-Gschwind/publication/221235791_Binary_translation_and_architecture_convergence_issues_for_IBM_system390/links/0046352f27d9de5653000000/Binary-translation-and-architecture-convergence-issues-for-IBM-system-390.pdf
^ Достижения и будущие проблемы в области двоичной трансляции и оптимизации, Труды IEEE, https://ieeexplore.ieee.org/document/964447
^ Смит, Наир, Виртуальные машины: универсальные платформы для систем и процессов, https://www.amazon.com/Virtual-Machines-Versatile-Platforms-Architecture/dp/1558609105
^ Eichenberger, Alexandre E.; O'Brien, Kathryn; O'Brien, Kevin; Wu, Peng; Chen, Tong; Oden, Peter H.; Prener, Daniel A.; Shepherd, Janice C.; So, Byoungro; Sura, Zehra; Wang, Amy; Zhang, Tao; Zhao, Peng; Gschwind, Michael (2005-09-17). "Оптимизирующий компилятор для процессора CELL". 14-я Международная конференция по параллельным архитектурам и методам компиляции (PACT'05) . PACT '05. США: IEEE Computer Society. стр. 161– 172. doi :10.1109/PACT.2005.33. ISBN 978-0-7695-2429-0.
^ "Среда с открытым исходным кодом для программного обеспечения Cell Broadband Engine System" . Получено 2024-09-04 .
^ Многопроцессорная обработка на чипе и широкополосный движок Cell, https://www.computingfrontiers.org/2006/cf06-gschwind.pdf
^ Gschwind, Michael (2007-06-01). «The Cell Broadband Engine: Exploiting Multiple Levels of Parallelism in a Chip Multiprocessor». Международный журнал параллельного программирования . 35 (3): 233– 262. doi :10.1007/s10766-007-0035-4. ISSN 1573-7640.
^ «Развертывание ускорителя вывода первого поколения в Facebook». research.facebook.com . Получено 2024-09-04 .
^ PyTorch 2: более быстрое машинное обучение с помощью динамического преобразования байт-кода Python и компиляции графов, https://pytorch.org/assets/pytorch2-2.pdf
^ "ExecuTorch Alpha: вывод LLM и ИИ на передовые позиции с нашим сообществом и партнерами". PyTorch . Получено 04.09.2024 .
^ OpenPOWER Реорганизация серверной экосистемы для крупных центров обработки данных, https://old.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-12-day2-epub/HC26.12-7-Dense-Servers-epub/HC26.12.730-%20OpenPower-Gschwind-IBM.pdf
^ Спецификация Power Architecture 64-Bit ELF V2 ABI, https://ftp.rtems.org/pub/rtems/people/sebh/ABI64BitOpenPOWERv1.1_16July2015_pub.pdf
^ "Реорганизация серверной экосистемы для повышения портативности и производительности" . Получено 2024-09-04 .
^ Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (2006). «Синергическая обработка в многоядерной архитектуре Cell». IEEE Micro . 26 (2): 10– 24. doi :10.1109/MM.2006.41 . Получено 04.09.2024 .
^ Eichenberger, Alexandre E.; O'Brien, Kathryn; O'Brien, Kevin; Wu, Peng; Chen, Tong; Oden, Peter H.; Prener, Daniel A.; Shepherd, Janice C.; So, Byoungro; Sura, Zehra; Wang, Amy; Zhang, Tao; Zhao, Peng; Gschwind, Michael (2005-09-17). "Оптимизирующий компилятор для процессора CELL". 14-я Международная конференция по параллельным архитектурам и методам компиляции (PACT'05) . PACT '05. США: IEEE Computer Society. стр. 161– 172. doi :10.1109/PACT.2005.33. ISBN 978-0-7695-2429-0.
^ Gschwind, M. (2016). «Ускорение рабочей нагрузки с векторно-скалярной архитектурой IBM POWER». IBM Journal of Research and Development . 60 ( 2– 3): 14:1–14:18. doi :10.1147/JRD.2016.2527418 . Получено 04.09.2024 .
^ Харинг, Рууд; Омахт, Мартин; Фокс, Томас; Гшвинд, Майкл; Саттерфилд, Дэвид; Сугаванам, Кришнан; Котеус, Пол; Хайдельбергер, Филипп; Блумрих, Маттиас; Вишневски, Роберт; Гара, Алан; Чиу, Джордж; Бойл, Питер; Крайст, Норман; Ким, Чанхоан (2012). "Вычислительный чип IBM Blue Gene/Q". IEEE Micro . 32 (2): 48– 60. doi :10.1109/MM.2011.108 . Получено 04.09.2024 .
^ Морган, Тимоти Прикетт (22 ноября 2010 г.). "IBM раскрывает 20-петафлопсный BlueGene/Q super". The Register .
^ Шварц, EM; Кришнамурти, RB; Пэррис, CJ; Брэдбери, JD; Ннебе, IM; Гшвинд, M. (2015-07-01). «Ускоритель SIMD для бизнес-аналитики на IBM z13». IBM J. Res. Dev . 59 ( 4– 5): 2:1–2:16. doi :10.1147/JRD.2015.2426576. ISSN 0018-8646.
^ Обработка SIMD на IBM z14, z13 и z13s, https://www.ibm.com/downloads/cas/WVPALM0N

[1] "Майкл Карл Гшвинд". www.ppubs.uspto.gov .

[2] Дэвид Беккер (3 декабря 2004 г.). «PlayStation 3 chip goes easy on developers». CNET . Получено 13 января 2019 г. .

[3] Скарпино, М. (2008). Программирование процессора ячейки: для игр, графики и вычислений. Pearson Education.

[4] ttps://on-demand.gputechconf.com/gtc/2017/presentation/S7320-tim-kaldewey-optimizing-efficiency-of-deep-learning-workloads-through-gpu-virtualization.pdf, https://on-demand.gputechconf.com/gtc/2017/presentation/S7320-tim-kaldewey-optimizing-efficiency-of-deep-learning-workloads-through-gpu-virtualization.pdf

[5] Оптимизация эффективности глубокого обучения посредством виртуализации ускорителей, https://ieeexplore.ieee.org/document/8030299

[6] Виртуализация ввода-вывода и ускорение системы в Power9, https://old.hotchips.org/wp-content/uploads/hc_archives/hc27/HC27.24-Monday-Epub/HC27.24.30-HP-Cloud-Comm-Epub/HC27.24.340-IO-Virtualization-POWER8-Gschwind-IBM.pdf

[7] Gschwind, Michael (2007-06-01). «The Cell Broadband Engine: Exploiting Multiple Levels of Parallelism in a Chip Multiprocessor». Международный журнал параллельного программирования . 35 (3): 233– 262. doi :10.1007/s10766-007-0035-4. ISSN 1573-7640.

[8] "интегрированное выполнение: модель программирования для ускорителей" . Получено 2024-09-04 .

[9] Многопроцессорная обработка на чипе и широкополосный движок Cell, https://computingfrontiers.org/2006/cf06-gschwind.pdf

[10] Справочник по программированию CBE

[11] Учебник по программированию CBE, https://public.dhe.ibm.com/software/dw/cell/CBE_Programming_Tutorial_v3.1.pdf

[12] Ши, Гочунь; Киндратенко, Владимир; Пратас, Фредерико; Транкосо, Педро; Гшвинд, Майкл (2010). «Ускорение работы приложений с помощью широкополосного движка Cell». Вычислительная техника в науке и технике . 12 (1): 76– 81. Bibcode : 2010CSE....12a..76S. doi : 10.1109/MCSE.2010.4. ISSN 1521-9615.

[13] Cell GC: использование синергетического процессора Cell в качестве сопроцессора сборки мусора, ACM Virtual Execution Environments, https://dominoweb.draco.res.ibm.com/reports/rc24520.pdf

[14] М. Гшвинд, Ф. Густавсон, Дж. Принс (редакторы), Высокопроизводительные вычисления с использованием ядра широкополосной связи Cell. Научное программирование 2009, https://www.semanticscholar.org/paper/High-Performance-Computing-with-the-Cell-Broadband-Gschwind-Gustavson/c6775765100eb3b9eb7b7bc003a8eba1ca90667f

[15] М. Гшвинд, М. Перроне (редакторы), Актуальный выпуск по гибридным системам, журнал IBM Journal of Research and Development 53(5):1-2 сентября 2009 г., DOI:10.1147/JRD.2009.5429079

[16] "PowerAI: Совместно оптимизированный программный стек для ИИ на Power" . Получено 2024-09-04 .

[17] "От приема к развертыванию для больших языковых моделей | GTC Digital, сентябрь 2022 г. | NVIDIA On-Demand". NVIDIA . Получено 04.09.2024 .

[18] "MultiRay: Оптимизация эффективности для крупномасштабных моделей ИИ". ai.meta.com . Получено 28.10.2023 .

[19] MultiRay: ускоренный сервис встраивания для понимания контента, https://static.sched.com/hosted_files/pytorch2023/60/PyTorch_Conf_2023-Multiray.pdf

[20] Развертывание ускорителя вывода первого поколения на Facebook, https://arxiv.org/pdf/2107.04140.pdf

[21] "Марк Цукерберг говорит, что ИИ увеличивает монетизацию на 30% в Instagram и на 40% в Facebook". Yahoo Finance . 2023-04-27 . Получено 2024-09-04 .

[22] Гайрола, Ананья. «От $3 млрд до $10 млрд: управляемые искусственным интеллектом барабаны Meta резко увеличили рост доходов за пределы ожиданий — Meta Platforms (NASDAQ:META)». Benzinga . Получено 04.09.2024 .

[23] "PyTorch". www.pytorch.org . Получено 28.10.2023 .

[24] "A BetterTransformer для быстрого вывода Transformer". pytorch.org . Получено 28.10.2023 .

[25] Белкада, Юнес (21.11.2022). «BetterTransformer, нестандартная производительность для обнимающих лиц трансформеров». PyTorch . Получено 04.09.2024 .

[26] "PyTorch 2.0: наш релиз следующего поколения, который быстрее, более питонский и динамичный, чем когда-либо". PyTorch . Получено 2024-09-04 .

[27] "Ускоренные генеративные диффузионные модели с PyTorch 2". PyTorch . Получено 2024-09-04 .

[28] "Ускорение больших языковых моделей с помощью ускоренных трансформаторов". PyTorch . Получено 2024-09-04 .

[29] PyTorch 2: более быстрое машинное обучение с помощью динамического преобразования байт-кода Python и компиляции графов, https://pytorch.org/assets/pytorch2-2.pdf

[30] "ExecuTorch Alpha: вывод LLM и ИИ на передовые позиции с нашим сообществом и партнерами". PyTorch . Получено 04.09.2024 .

[31] "Layla v4.6.0 была опубликована!". Layla . 2024-04-26 . Получено 2024-09-04 .

[32] "⚡️Невероятно быстрый LLama2-7B-Chat на устройстве Android с 8 ГБ ОЗУ через Executorch". r/LocalLLaMA . 2024-05-15 . Получено 2024-09-04 .

[33] "Введение в torchchat: ускорение локального вывода LLM на ноутбуках, настольных компьютерах и мобильных устройствах". PyTorch . Получено 04.09.2024 .

[34] ytorch/torchchat, pytorch, 2024-09-04 , получено 2024-09-04

[35] Устойчивый ИИ: экологические последствия, проблемы и возможности, https://arxiv.org/pdf/2111.00364.pdf

[36] Годен, Шарон (2008-06-09). «IBM Roadrunner разбивает 4-минутную милю суперкомпьютеров». Computerworld . Архивировано из оригинала 2008-12-24 . Получено 2008-06-10 .

[37] Филдс, Джонатан (2008-06-09). "Суперкомпьютер задает темп петафлоп". BBC News . Получено 2008-06-09 .

[38] NNSA заключает контракт с IBM на создание суперкомпьютера следующего поколения, 3 февраля 2009 г.

[nytimes-39] Лор, Стив (8 июня 2018 г.). «Подвинься, Китай: США снова стали домом для самого быстрого суперкомпьютера в мире». The New York Times . Получено 19 июля 2018 г.

[top500-40] "Список 500 лучших - ноябрь 2022 г.". TOP500 . Ноябрь 2022 г. . Получено 13 апреля 2022 г. .

[41] "Ноябрь 2022 г. | TOP500 Supercomputer Sites". TOP500 . Получено 13 апреля 2022 г. .

[42] "Оптимизация конвейеров для мощности и производительности" . Получено 2024-09-04 .

[43] Шварц, EM; Кришнамурти, RB; Пэррис, CJ; Брэдбери, JD; Ннебе, IM; Гшвинд, M. (2015-07-01). «Ускоритель SIMD для бизнес-аналитики на IBM z13». IBM J. Res. Dev . 59 ( 4– 5): 2:1–2:16. doi :10.1147/JRD.2015.2426576. ISSN 0018-8646.

[44] Общая последовательность загрузки для утилиты управления, которая может быть инициализирована в нескольких архитектурах, патент США 9,588,774, https://patents.google.com/patent/US9588774B2

[45] "Майкл Гшвинд - ICS 2012 BlueGeneQ keynote presentation" . Получено 2024-09-04 .

[46] US9081501B2, Асаад, Самех; Беллофатто, Ральф Э. и Блоксом, Майкл А. и др., «Многопетамасштабный высокоэффективный параллельный суперкомпьютер», опубликовано 14 июля 2015 г.

[47] Gschwind, Michael; Salapura, Valentina; Trammell, Catherine; McKee, Sally A. (2011). "SoftBeam: Точное отслеживание переходных сбоев и анализ уязвимостей во время проектирования процессора". 2011 IEEE 29-я Международная конференция по проектированию компьютеров (ICCD) . С. 404–410 . doi :10.1109/ICCD.2011.6081430. ISBN 978-1-4577-1954-7. Получено 2024-09-04 .

[48] US7512772B2, Gschwind, Michael Karl & Philhower, Robert, «Мягкая обработка ошибок в микропроцессорах», выпущено 31.03.2009

[49] "Эффективное планирование инструкций с точными исключениями" . Получено 2024-09-04 .

[50] "Оптимизации и параллелизм оракула с динамическим переводом" . Получено 2024-09-04 .

[51] "Динамическая и прозрачная двоичная трансляция" . Получено 2024-09-04 .

[52] "Динамическая двоичная трансляция и оптимизация" . Получено 2024-09-04 .

[53] Altman, ER; Ebcioglu, K.; Gschwind, M.; Sathaye, S. (2001). «Достижения и будущие проблемы в области бинарной трансляции и оптимизации». Труды IEEE . 89 (11): 1710– 1722. doi :10.1109/5.964447 . Получено 04.09.2024 .

[54] Двоичная трансляция и проблемы конвергенции архитектуры для IBM System/390, https://www.researchgate.net/profile/Michael-Gschwind/publication/221235791_Binary_translation_and_architecture_convergence_issues_for_IBM_system390/links/0046352f27d9de5653000000/Binary-translation-and-architecture-convergence-issues-for-IBM-system-390.pdf

[55] Достижения и будущие проблемы в области двоичной трансляции и оптимизации, Труды IEEE, https://ieeexplore.ieee.org/document/964447

[56] Смит, Наир, Виртуальные машины: универсальные платформы для систем и процессов, https://www.amazon.com/Virtual-Machines-Versatile-Platforms-Architecture/dp/1558609105

[57] Eichenberger, Alexandre E.; O'Brien, Kathryn; O'Brien, Kevin; Wu, Peng; Chen, Tong; Oden, Peter H.; Prener, Daniel A.; Shepherd, Janice C.; So, Byoungro; Sura, Zehra; Wang, Amy; Zhang, Tao; Zhao, Peng; Gschwind, Michael (2005-09-17). "Оптимизирующий компилятор для процессора CELL". 14-я Международная конференция по параллельным архитектурам и методам компиляции (PACT'05) . PACT '05. США: IEEE Computer Society. стр. 161– 172. doi :10.1109/PACT.2005.33. ISBN 978-0-7695-2429-0.

[58] "Среда с открытым исходным кодом для программного обеспечения Cell Broadband Engine System" . Получено 2024-09-04 .

[59] Многопроцессорная обработка на чипе и широкополосный движок Cell, https://www.computingfrontiers.org/2006/cf06-gschwind.pdf

[60] Gschwind, Michael (2007-06-01). «The Cell Broadband Engine: Exploiting Multiple Levels of Parallelism in a Chip Multiprocessor». Международный журнал параллельного программирования . 35 (3): 233– 262. doi :10.1007/s10766-007-0035-4. ISSN 1573-7640.

[61] «Развертывание ускорителя вывода первого поколения в Facebook». research.facebook.com . Получено 2024-09-04 .

[62] PyTorch 2: более быстрое машинное обучение с помощью динамического преобразования байт-кода Python и компиляции графов, https://pytorch.org/assets/pytorch2-2.pdf

[63] "ExecuTorch Alpha: вывод LLM и ИИ на передовые позиции с нашим сообществом и партнерами". PyTorch . Получено 04.09.2024 .

[64] OpenPOWER Реорганизация серверной экосистемы для крупных центров обработки данных, https://old.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-12-day2-epub/HC26.12-7-Dense-Servers-epub/HC26.12.730-%20OpenPower-Gschwind-IBM.pdf

[65] Спецификация Power Architecture 64-Bit ELF V2 ABI, https://ftp.rtems.org/pub/rtems/people/sebh/ABI64BitOpenPOWERv1.1_16July2015_pub.pdf

[66] "Реорганизация серверной экосистемы для повышения портативности и производительности" . Получено 2024-09-04 .

[67] Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (2006). «Синергическая обработка в многоядерной архитектуре Cell». IEEE Micro . 26 (2): 10– 24. doi :10.1109/MM.2006.41 . Получено 04.09.2024 .

[68] Eichenberger, Alexandre E.; O'Brien, Kathryn; O'Brien, Kevin; Wu, Peng; Chen, Tong; Oden, Peter H.; Prener, Daniel A.; Shepherd, Janice C.; So, Byoungro; Sura, Zehra; Wang, Amy; Zhang, Tao; Zhao, Peng; Gschwind, Michael (2005-09-17). "Оптимизирующий компилятор для процессора CELL". 14-я Международная конференция по параллельным архитектурам и методам компиляции (PACT'05) . PACT '05. США: IEEE Computer Society. стр. 161– 172. doi :10.1109/PACT.2005.33. ISBN 978-0-7695-2429-0.

[69] Gschwind, M. (2016). «Ускорение рабочей нагрузки с векторно-скалярной архитектурой IBM POWER». IBM Journal of Research and Development . 60 ( 2– 3): 14:1–14:18. doi :10.1147/JRD.2016.2527418 . Получено 04.09.2024 .

[70] Харинг, Рууд; Омахт, Мартин; Фокс, Томас; Гшвинд, Майкл; Саттерфилд, Дэвид; Сугаванам, Кришнан; Котеус, Пол; Хайдельбергер, Филипп; Блумрих, Маттиас; Вишневски, Роберт; Гара, Алан; Чиу, Джордж; Бойл, Питер; Крайст, Норман; Ким, Чанхоан (2012). "Вычислительный чип IBM Blue Gene/Q". IEEE Micro . 32 (2): 48– 60. doi :10.1109/MM.2011.108 . Получено 04.09.2024 .

[71] Морган, Тимоти Прикетт (22 ноября 2010 г.). "IBM раскрывает 20-петафлопсный BlueGene/Q super". The Register .

[72] Шварц, EM; Кришнамурти, RB; Пэррис, CJ; Брэдбери, JD; Ннебе, IM; Гшвинд, M. (2015-07-01). «Ускоритель SIMD для бизнес-аналитики на IBM z13». IBM J. Res. Dev . 59 ( 4– 5): 2:1–2:16. doi :10.1147/JRD.2015.2426576. ISSN 0018-8646.

[73] Обработка SIMD на IBM z14, z13 и z13s, https://www.ibm.com/downloads/cas/WVPALM0N