Крей XMT

Крей XMT
ДизайнерКрей
Биты64-битный
Введено2005
Версия3-е поколение Tera MTA
Порядковый номер байтовBig-endian
ПредшественникКрей МТА-2
ПреемникКрей XMT2
Регистры
32 универсальных на поток (4096 на ЦП)
8 целевых на поток (1024 на ЦП)

Cray XMT ( Cray eXtreme MultiThreading , [1] кодовое название Eldorado [2] ) — масштабируемая многопоточная архитектура суперкомпьютера с общей памятью от Cray , основанная на третьем поколении архитектуры Tera MTA , ориентированная на большие графовые задачи (например, семантические базы данных, большие данные , сопоставление с образцом ). [3] [4] [5] Представленная в 2005 году, она заменяет более раннюю неудачную Cray MTA-2 . Она использует процессоры Threadstorm3 внутри блейд-серверов Cray XT3 . Разработанная для использования стандартных деталей и существующих подсистем для других коммерческих систем, она смягчила недостатки Cray MTA-2, связанные с высокой стоимостью полностью индивидуального производства и поддержки. [2] Он принес различные существенные улучшения по сравнению с Cray MTA-2, наиболее заметными из которых стали почти утроение пиковой производительности, а также значительное увеличение максимального количества ЦП до 8192 и максимального объема памяти до 128 ТБ с максимальным объемом TLB данных 512 ТБ. [2] [3]

Cray XMT использует скремблированную [3] модель памяти с адресацией по содержимому [6] на модулях DDR1 ECC для неявной балансировки нагрузки доступа к памяти по всему общему глобальному адресному пространству системы. [5] Использование 4 дополнительных бит расширенной семантики памяти ( полный/пустой , пересылка и 2 бита прерывания ) на 64-битное слово памяти обеспечивает легкую, мелкозернистую синхронизацию во всей памяти. [7] Аппаратные прерывания отсутствуют, а аппаратные потоки выделяются инструкцией, а не ОС. [5] [7]

Фронтенд (узлы входа в систему, ввода-вывода и другие узлы обслуживания, использующие процессоры AMD Opteron и работающие под управлением SLES Linux ) и бэкенд (вычислительные узлы, использующие процессоры Threadstorm3 и работающие под управлением MTK, простого микроядра на базе BSD Unix [3] ) взаимодействуют через интерфейс LUC (Lightweight User Communication), двунаправленный клиент-серверный интерфейс в стиле RPC . [1] [5]

Threadstorm3

Threadstorm3
Общая информация
Запущен2005
Прекращено2011
РазработаноКрей
Производительность
Макс. тактовая частота ЦП 500 МГц
Скорости HyperTransportдо 300 ГТ/с
Архитектура и классификация
Набор инструкцийМТА ИСА
Физические характеристики
Ядра
  • 1
Гнездо
История
ПредшественникПроцессор Cray MTA-2
ПреемникThreadstorm4

Threadstorm3 (называемый «процессором MT» [2] и Threadstorm до XMT2 [8] ) — это 64-битный одноядерный процессор VLIW barrel (совместимый с 940-контактным сокетом 940 , используемым процессорами AMD Opteron ) со 128 аппаратными потоками , на каждый из которых может быть отображен программный поток (эффективно создавая 128 аппаратных потоков на ЦП), работающий на частоте 500 МГц и использующий набор инструкций MTA или его надмножество. [7] [9] [nb 1] Он имеет 128 КБ, 4-канальный ассоциативный буфер данных. Каждый Threadstorm3 имеет 128 отдельных наборов регистров и счетчиков программ (по одному на каждый поток), которые достаточно [10] полностью переключаются контекстом в каждом цикле. [5] Его предполагаемая пиковая производительность составляет 1,5 GFLOPS . Он имеет 3 функциональных блока (память, объединенное умножение-сложение и управление), которые получают операции из одной и той же инструкции MTA и работают в одном цикле. [7] Каждый поток имеет 32 регистра общего назначения, 8 целевых регистров и слово состояния, содержащее счетчик программ. [6] Высокоуровневый контроль распределения заданий по потокам невозможен. [5] [nb 2] Из-за длины конвейера MTA, равной 21, каждый поток выбирается для повторного выполнения инструкций не ранее, чем через 21 цикл. [11] TDP пакета процессора составляет 30 Вт. [ 12]

Благодаря переключению контекста на уровне потоков в каждом цикле производительность процессоров Threadstorm не ограничивается временем доступа к памяти. В упрощенной модели на каждом такте выполняется инструкция одного из потоков, а другой запрос памяти ставится в очередь с пониманием того, что к моменту готовности следующего раунда выполнения запрошенные данные уже поступили. [13] Это противоречит многим традиционным архитектурам, которые задерживаются на доступе к памяти. Архитектура отлично подходит для схем обхода данных, где последующий доступ к памяти не может быть легко предсказан, и поэтому не очень подходит для традиционной модели кэширования. [1] Главным архитектором Threadstorm был Бертон Дж. Смит . [1]

Крей XMT2

Крей XMT2
ДизайнерКрей
Биты64-бит
Введено2011
Версия4-е поколение Tera MTA
Порядковый номер байтовBig-endian
ПредшественникКрей XMT
Регистры
32 универсальных на поток (4096 на ЦП)

8 целей на поток (1024 на ЦП)

8 ловушек на поток (1024 на ЦП)

Cray XMT2 [3] (также «следующее поколение XMT» [8] или просто XMT [6] ) — масштабируемый многопоточный суперкомпьютер с общей памятью от Cray , основанный на четвертом поколении архитектуры Tera MTA . [5] Представленный в 2011 году, он заменяет Cray XMT, у которого были проблемы с точками перегрузки памяти. [8] Он использует процессоры Threadstorm4 внутри блейдов Cray XT5 и увеличивает емкость памяти в восемь раз до 512 ТБ и пропускную способность памяти в три раза (300 МГц вместо 200 МГц) по сравнению с XMT за счет использования вдвое большего количества модулей памяти на узел и DDR2. [6] [8] Он вводит соединение Node Pair Link между Threadstorm, а также узлы только с памятью, с пакетами Threadstorm4, у которых отключены компоненты CPU и HyperTransport 1.x. [5] Базовая модель памяти с зашифрованным контентом была унаследована от XMT. XMT2 использует 2 дополнительных бита EMS ( полный/пустой и расширенный ) вместо 4, как в XMT.

Threadstorm4

Threadstorm4
Общая информация
Запущен2011
Прекращено2015?
РазработаноКрей
Производительность
Макс. тактовая частота ЦП 500 МГц
Скорости HyperTransportдо 400 ГТ/с
Архитектура и классификация
Набор инструкцийМТА ИСА
Физические характеристики
Ядра
  • 1
Гнездо
История
ПредшественникThreadstorm3

Threadstorm4 (также «Threadstorm IV» [1] и «Threadstorm 4.0» [nb 3] ) — это 64-битный одноядерный процессор VLIW barrel (совместимый с 1207-контактным разъемом Socket F , используемым процессорами AMD Opteron ) со 128 аппаратными потоками, очень похожий на своего предшественника Threadstorm3. Он оснащен улучшенным контроллером памяти с поддержкой DDR2 и дополнительными 8 регистрами прерываний на поток. Cray намеренно отказался от контроллера DDR3, сославшись на повторное использование существующей инфраструктуры Cray XT5 [nb 4] и более короткую длину пакета, чем DDR3. [nb 5] Хотя более длинная длина пакета может быть компенсирована более высокими скоростями DDR3, это также потребует больше энергии, чего инженеры Cray хотели избежать. [8]

Скорпион

После запуска XMT Cray исследовал возможный многоядерный вариант Threadstorm3, названный Scorpio . Большинство функций Threadstorm3 были сохранены, включая мультиплексирование многих аппаратных потоков на конвейере выполнения и реализацию дополнительных битов состояния для каждого 64-битного слова памяти. Позже Cray отказался от Scorpio, и проект не дал готового чипа. [3]

Будущее

Разработка Threadstorm4, а также всей архитектуры MTA, тихо прекратилась после XMT2, вероятно, из-за конкуренции со стороны массовых процессоров, таких как Intel Xeon [14] и, возможно, Xeon Phi , хотя Cray никогда официально не прекращал ни XMT, ни XMT2. По состоянию на 2020 год Cray удалил всю клиентскую документацию как по XMT, так и по XMT2 из своего онлайн-каталога.

Пользователи

Cray XMT2 был куплен несколькими федеральными лабораториями и академическими учреждениями, а также некоторыми коммерческими клиентами HPC: например, CSCS (глобальная память 2 ТБ с 64 процессорами Threadstorm4), [15] Noblis CAHPC. [16] Большинство систем на базе XMT и XMT2 были выведены из эксплуатации к 2020 году.

Примечания

  1. ^ Tera MTA ISA имеет закрытый исходный код, и только из-за презентации на семинаре, в которой утверждалась обратная совместимость с предыдущими системами MTA, стало ясно, что ISA, используемая на процессорах Threadstorm, не может быть подмножеством MTA ISA.
  2. ^ Хотя неизвестно, возможно ли это на уровне инструкций.
  3. ^ На физической упаковке.
  4. ^ Несмотря на то, что Cray XT6 на базе DDR3 был выпущен в 2009 году, на два года раньше XMT2.
  5. ^ Поскольку Cray XMT в основном работает с одним 8-байтовым словом случайного доступа и имеет 128-битный канал памяти, при длине пакета DDR2 4 обычные накладные расходы составляют 56 байт. DDR3 с длиной пакета 8 увеличит обычные накладные расходы до 120 байт.

Ссылки

  1. ^ abcde "Почему uRiKA так быстро обрабатывает графоориентированные запросы?". Блог YarcData . 14 ноября 2012 г. Архивировано из оригинала 14 февраля 2015 г.
  2. ^ abcd Feo, John; Harper, David; Kahan, Simon; Konecny, Petr (2005). "Eldorado". Труды 2-й конференции Computing frontiers - CF '05 . Искья, Италия: ACM Press. стр. 28. doi :10.1145/1062261.1062268. ISBN 978-1-59593-019-4.
  3. ^ abcdef Падуя, Дэвид, изд. (2011). Энциклопедия параллельных вычислений. Бостон, Массачусетс: Springer US. стр.  453–457 , 2033. doi : 10.1007/978-0-387-09766-4. ISBN 978-0-387-09765-7.
  4. ^ Mizell, David; Maschhoff, Kristyn (2009). "Ранние опыты с крупномасштабными системами Cray XMT". 2009 IEEE International Symposium on Parallel & Distributed Processing . Стр.  1– 9. doi :10.1109/IPDPS.2009.5161108. ISBN 978-1-4244-3751-1. S2CID  1964042.
  5. ^ abcdefgh Maltby, James (2012). Модель многопоточного программирования Cray XMT. «Использование следующего поколения Cray XMT (uRiKA) для крупномасштабной аналитики данных». Швейцарский национальный суперкомпьютерный центр .
  6. ^ abcd Обзор системы Cray XMT™ (S-2466-201) (PDF) . Cray . 2011. Архивировано (PDF) из оригинала 3 декабря 2012 г. . Получено 12 мая 2020 г. .
  7. ^ abcd Конечный, Петр (2011). Знакомство с Cray XMT (PDF) . Cray.
  8. ^ abcde Kopser A, Vollrath D (май 2011 г.). Обзор следующего поколения Cray XMT (PDF) . 53-я встреча группы пользователей Cray, CUG 2011. Фэрбанкс, Аляска . Получено 14 февраля 2015 г.
  9. ^ Программирование Cray XMT (PDF) . Cray. 2012. стр. 14.
  10. ^ Картер, Ларри и Фео, Джон и Снавели, Аллан. (2002). Производительность и опыт программирования на Tera MTA .
  11. ^ Snavely, A.; Carter, L.; Boisseau, J.; Majumdar, A.; Kang Su Gatlin; Mitchell, N.; Feo, J.; Koblenz, B. (1998). "Multi-processor Performance on the Tera MTA". Труды конференции IEEE/ACM SC98 . Орландо, Флорида, США: IEEE. стр. 4. doi :10.1109/SC.1998.10049. ISBN 978-0-8186-8707-5. S2CID  8258396.
  12. ^ Брошюра Cray XMT (PDF) . Cray . 2005. Архивировано из оригинала (PDF) 24 декабря 2016 г.
  13. ^ Nieplocha J, Marquez A, Petrini F, Chavarria-Miranda D (2007). "Нетрадиционные архитектуры для наук с высокой пропускной способностью" (PDF) . Обзор SciDAC (5, осень 2007 г.). Pacific Northwest National Laboratory : 46–50 . Архивировано из оригинала (PDF) 14 февраля 2015 г. . Получено 14 февраля 2015 г. .
  14. ^ "Cray CTO Connects The Dots On Future Interconnects". The Next Platform . 8 января 2016 г. Получено 2 мая 2016 г. Стив Скотт: Вы можете сделать это просто великолепно с Xeon. Мы не планируем делать еще один процессор ThreadStorm. Но для этого нужны некоторые программные технологии, которые исходят из наследия ThreadStorm.
  15. ^ "CSCS Matterhorn". Швейцарский национальный суперкомпьютерный центр .
  16. ^ Сорин, Нита (16 декабря 2011 г.). «Cray представляет суперкомпьютер XMT, работающий на собственных 128-поточных процессорах». Новости Softpedia .
Взято с "https://en.wikipedia.org/w/index.php?title=Cray_XMT&oldid=1147175080"