Галактика (вычислительная биология)

Галактика
Разработчик(и)Сообщество Галактики
Первоначальный выпуск16 сентября 2005 г. ; 19 лет назад ( 2005-09-16 )
Стабильный релиз
24.1.1 / Июль 2024 г. ( 2024-07 )
Репозиторийgithub.com/galaxyproject/галактика
Написано вПитон , JavaScript
Операционная системаUnix-подобный
ПлатформаLinux, macOS
Доступно вАнглийский
ТипНаучный рабочий процесс , интеграция данных , анализ и публикация данных
ЛицензияMIT и академическая бесплатная лицензия [1]
Веб-сайтgalaxyproject.org

Galaxy [2] — это научный рабочий процесс , интеграция данных , [3] [4] и платформа для сохранения и публикации данных и анализа , которая направлена ​​на то, чтобы сделать вычислительную биологию доступной для исследователей, не имеющих опыта в программировании или системном администрировании . Хотя изначально она была разработана для геномных исследований, она в значительной степени независима от домена и теперь используется как общая система управления рабочим процессом биоинформатики . [5]

Функциональность

Galaxy — это система научного рабочего процесса . Эти системы предоставляют средства для построения многошаговых вычислительных анализов, подобных рецепту. Обычно они предоставляют графический пользовательский интерфейс [6] для указания того, с какими данными работать, какие шаги предпринимать и в каком порядке их выполнять.

Galaxy также является платформой интеграции данных для биологических данных. Она поддерживает загрузку данных с компьютера пользователя, по URL и напрямую из многих онлайн-ресурсов (таких как UCSC Genome Browser , BioMart и InterMine ). Galaxy поддерживает ряд широко используемых форматов биологических данных и перевод между этими форматами. Galaxy предоставляет веб-интерфейс для многих утилит для обработки текста, позволяя исследователям выполнять собственное переформатирование и обработку без необходимости программирования . Galaxy включает утилиты для обработки интервалов для выполнения операций теории множеств (например, пересечение , объединение , ...) на интервалах. Многие форматы биологических файлов включают данные геномных интервалов (систему отсчета, например, имя хромосомы или контига , а также начальные и конечные позиции), что позволяет интегрировать эти данные.

Galaxy изначально был написан для анализа биологических данных, в частности геномики . Набор доступных инструментов значительно расширился за эти годы, и Galaxy теперь также используется для экспрессии генов , сборки генома , протеомики , эпигеномики , транскриптомики и множества других дисциплин в науках о жизни. Сама платформа фактически не зависит от домена и может быть применена, в теории, к любой научной области, такой как хемоинформатика . [7] Например, серверы Galaxy существуют для анализа изображений , [8] вычислительной химии [9] и разработки лекарств, [10] космологии, моделирования климата, социальных наук, [11] и лингвистики.

Наконец, Galaxy также поддерживает сохранение и публикацию данных и анализа. См. Воспроизводимость и прозрачность ниже.

Цели проекта

Galaxy — это «открытая веб-платформа для проведения доступных, воспроизводимых и прозрачных исследований в области геномики». [12]

Доступность

Вычислительная биология — это специализированная область, которая часто требует знания компьютерного программирования . Galaxy стремится предоставить биомедицинским исследователям доступ к вычислительной биологии, не требуя при этом от них понимания компьютерного программирования. [13] [14] Galaxy делает это, подчеркивая простой пользовательский интерфейс [15] вместо возможности создания сложных рабочих процессов. Такой выбор дизайна позволяет относительно легко создавать типичные анализы, но сложнее создавать сложные рабочие процессы, которые включают, например, циклические конструкции. (См. Apache Taverna для примера системы рабочих процессов, управляемых данными, которая поддерживает циклы. [16] )

Воспроизводимость

Воспроизводимость является ключевой целью науки: когда научные результаты публикуются, публикации должны включать достаточно информации, чтобы другие могли повторить эксперимент и получить те же результаты. Было предпринято много недавних попыток распространить эту цель со скамьи (« мокрая лаборатория ») на вычислительные эксперименты (« сухая лаборатория »). Это оказалось более сложной задачей, чем изначально предполагалось. [17]

Galaxy поддерживает воспроизводимость, собирая достаточно информации о каждом шаге вычислительного анализа, чтобы анализ можно было точно повторить в любой момент в будущем. Это включает отслеживание всех входных, промежуточных и конечных наборов данных, а также предоставленных параметров и порядка каждого шага анализа.

Прозрачность

Galaxy поддерживает прозрачность научных исследований, позволяя исследователям делиться любыми объектами Galaxy либо публично, либо с определенными лицами. Общие элементы могут быть детально изучены, повторно запущены по желанию, скопированы и изменены для проверки гипотез.

Объекты Galaxy: истории, рабочие процессы, наборы данных и страницы

Объекты Galaxy — это все, что можно сохранять, сохранять и передавать в Galaxy:

Истории
Истории — это вычислительные анализы (рецепты), выполняемые с указанными входными наборами данных, вычислительными шагами и параметрами. Истории также включают все промежуточные и выходные наборы данных.
Рабочие процессы
Рабочие процессы — это вычислительные анализы, которые определяют все шаги (и параметры) в анализе, но не данные. Рабочие процессы используются для запуска одного и того же анализа по нескольким наборам входных данных.
Наборы данных
Наборы данных включают в себя любые входные, промежуточные или выходные наборы данных, используемые или создаваемые в ходе анализа.
Страницы
Истории, рабочие процессы и наборы данных могут включать аннотации, предоставленные пользователем. Galaxy Pages позволяет создавать виртуальную статью, описывающую как и почему всего эксперимента. Тесная интеграция страниц с историями, рабочими процессами и наборами данных поддерживает эту цель.

Доступность

Галактика доступна:

  1. Как бесплатный публичный веб-сервер, [18] поддерживаемый проектом Galaxy. [19] Этот сервер включает в себя множество инструментов биоинформатики, которые широко используются во многих областях геномных исследований. Пользователи могут создавать логины и сохранять истории , рабочие процессы и наборы данных на сервере. Эти сохраненные элементы также могут быть переданы другим.
  2. Как программное обеспечение с открытым исходным кодом , которое можно загрузить, установить и настроить для решения конкретных задач. [20] Galaxy можно установить локально или с использованием вычислительного облака . [21]
  3. Публичные веб-серверы, размещенные другими организациями. [22] Несколько организаций, имеющих собственную установку Galaxy, также решили сделать эти серверы доступными для других.

Выполнение

Galaxy — это программное обеспечение с открытым исходным кодом, реализованное с использованием языка программирования Python . Оно разработано командой Galaxy [23] в Университете штата Пенсильвания , Университете Джонса Хопкинса , Университете здравоохранения и науки Орегона и Сообществе Galaxy. [24]

Galaxy является расширяемым, поскольку новые инструменты командной строки могут быть интегрированы и совместно использованы в Galaxy ToolShed. [25]

Примером расширения Galaxy является Galaxy-P из Института суперкомпьютеров Университета Миннесоты , который настроен как платформа анализа данных для протеомики на основе масс-спектрометрии . [26]

Сообщество

Galaxy — это проект с открытым исходным кодом, и сообщество включает пользователей, организации, которые устанавливают свой собственный экземпляр, разработчиков Galaxy и разработчиков инструментов биоинформатики. Проект Galaxy имеет списки рассылки, [27] общественный центр [28] и ежегодные встречи. [29]

Смотрите также

Ссылки

  1. ^ "Лицензии проекта". GitHub .
  2. ^ Сообщество Galaxy (20 мая 2024 г.). «Платформа Galaxy для доступного, воспроизводимого и совместного анализа данных: обновление 2024 г.». Nucleic Acids Research (выпуск веб-сервера): 1– 12. doi : 10.1093/nar/gkae410 . PMC 11223835 . 
  3. ^ Бланкенберг, Д.; Кораор, Н.; Фон Кустер, Г.; Тейлор, Дж.; Некрутенко, А.; Galaxy, Т. (2011). «Интеграция разнообразных баз данных в единую аналитическую структуру: подход Galaxy». База данных . 2011 : bar011. doi :10.1093/database/bar011. PMC 3092608 . PMID  21531983. 
  4. ^ Бланкенберг, Д.; Гордон, А.; Фон Кустер, Г.; Кораор, Н.; Тейлор, Дж.; Некрутенко, А.; Galaxy, Т. (2010). «Манипуляция данными FASTQ с помощью Galaxy». Биоинформатика . 26 (14): 1783– 1785. doi :10.1093/bioinformatics/btq281. PMC 2894519. PMID  20562416 . 
  5. ^ «Центр сообщества Галактики — Центр сообщества Галактики».
  6. ^ Schatz, MC (2010). «Отсутствующий графический пользовательский интерфейс для геномики». Genome Biology . 11 (8): 128– 201. doi : 10.1186/gb-2010-11-8-128 . PMC 2945776. PMID  20804568 . 
  7. ^ Брей, Саймон А.; Лукас, Ксавье; Кумар, Ануп; Грюнинг, Бьёрн А. (1 июня 2020 г.). «ChemicalToolbox: воспроизводимый, удобный для пользователя анализ хемоинформатики на платформе Galaxy». Журнал химинформатики . 12 (1): 40. doi : 10.1186/s13321-020-00442-7 . PMC 7268608. PMID  33431029 . 
  8. ^ "Анализ изображений галактики biotools".
  9. ^ Хильдебрандт, АК; Штёкель, Д; Фишер, Нью-Мексико; де ла Гарса, Л; Крюгер, Дж; Никель, С; Реттиг, М; Шарфе, К; Шуман, М; Тиль, П; Ленхоф, HP; Кольбахер, О; Хильдебрандт, А (2014). «Баллакси: веб-сервисы для структурной биоинформатики». Биоинформатика . 31 (1): 121–2 . doi : 10.1093/bioinformatics/btu574 . ПМИД  25183489.
  10. ^ "OSDDlinux". Архивировано из оригинала 2016-05-07 . Получено 2014-11-17 .
  11. ^ «Галактика».
  12. ^ Goecks, J.; Nekrutenko, A.; Taylor, J.; Galaxy Team, T. (2010). «Galaxy: комплексный подход к поддержке доступных, воспроизводимых и прозрачных вычислительных исследований в области наук о жизни». Genome Biology . 11 (8): R86. doi : 10.1186/gb-2010-11-8-r86 . PMC 2945788. PMID  20738864 . 
  13. ^ Бланкенберг, Д.; Тейлор, Дж.; Некрутенко, А.; Гэлакси, Т. (2011). «Как сделать множественные выравнивания всего генома пригодными для использования биологами». Биоинформатика . 27 (17): 2426– 8. doi :10.1093/bioinformatics/btr398. PMC 3157923. PMID  21775304 . 
  14. ^ Бланкенберг, Д.; Тейлор, Дж.; Шенк, И.; Хе, Дж.; Чжан, И.; Гент, М.; Вирарагхаван, Н.; Альберт, И.; Миллер, В.; Макова, К.Д.; Хардисон, Р.К.; Некрутенко, А. (2007). «Структура для совместного анализа данных ENCODE: как сделать крупномасштабные анализы удобными для биологов». Genome Research . 17 (6): 960– 964. doi :10.1101/gr.5578007. PMC 1891355 . PMID  17568012. 
  15. ^ Schatz, MC (2010). «Отсутствующий графический пользовательский интерфейс для геномики». Genome Biology . 11 (8): 128– 201. doi : 10.1186/gb-2010-11-8-128 . PMC 2945776. PMID  20804568 . 
  16. ^ Soiland-Reyes, S (2010-12-13). "Looping". The Taverna Knowledge Blog . knowledgeblog.org. Архивировано из оригинала 30 декабря 2016 года . Получено 28 января 2015 года .
  17. ^ Иоаннидис, JPA; Эллисон, Д.Б.; Болл, Калифорния; Кулибали, И.; Кюи, X.; Калхейн, АНК; Фальчи, М.; Фурланелло, К.; Гейм, Л.; Джурман, Г.; Мангион, Дж.; Мехта, Т.; Ницберг, М.; Пейдж, врач общей практики; Петретто, Э.; Ван Ноорт, В. (2008). «Повторяемость опубликованных анализов экспрессии генов на микрочипах». Природная генетика . 41 (2): 149–155 . doi : 10.1038/ng.295. PMID  19174838. S2CID  5153795.
  18. ^ "usegalaxy.org: Основной экземпляр Galaxy в Соединенных Штатах"
  19. ^ "galaxyproject.org: Центр сообщества Galaxy"
  20. ^ "getgalaxy.org: Как получить Galaxy"
  21. ^ Афган, Э.; Бейкер, Д.; Кораор, Н.; Чапман, Б.; Некрутенко, А.; Тейлор, Дж. (2010). «Galaxy CloudMan: предоставление облачных вычислительных кластеров». BMC Bioinformatics . 11 (Suppl 12): S4. doi : 10.1186/1471-2105-11-S12-S4 . PMC 3040530. PMID  21210983 . 
  22. ^ «Центр сообщества Галактики — Центр сообщества Галактики».
  23. ^ «Центр сообщества Галактики — Центр сообщества Галактики».
  24. ^ Лазарус, Р.; Тейлор, Дж.; Цю, В.; Некрутенко, А. (2008). «На пути к коммерциализации трансляционных геномных исследований: особенности проектирования и реализации геномного рабочего места Galaxy». Саммит по трансляционной биоинформатике . 2008 : 56–60 . PMC 3041519. PMID  21347127 . 
  25. ^ Бланкенберг, Даниэль; Фон Кустер, Грегори; Бувье, Эмиль; Бейкер, Дэннон; Афган, Энис; Столер, Николас; Тейлор, Джеймс; Некрутенко, Антон (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed». Genome Biology . 15 (2): 403. doi : 10.1186/gb4161 . PMC 4038738. PMID  25001293 . 
  26. ^ Шейнкман, GM; Джонсон, JE; Джагтап, PD; Шортрид, MR; Онсонго, G; Фрей, BL; Гриффин, TJ; Смит, LM (22 августа 2014 г.). «Использование Galaxy-P для использования РНК-Seq для открытия новых вариаций белков». BMC Genomics . 15 (703): 703. doi : 10.1186/1471-2164-15-703 . PMC 4158061 . PMID  25149441. 
  27. ^ «Списки рассылки Галактики».
  28. ^ "galaxyproject.org: Центр сообщества Galaxy
  29. ^ «Конференции Галактического сообщества (GCCS)».
  • Центр сообщества Galaxy
  • Загрузите и установите локально или в облаке
  • Бесплатный публичный сервер Galaxy, размещенный Galaxy Project
  • Список других публичных серверов Galaxy
  • Статистика проекта
Взято с "https://en.wikipedia.org/w/index.php?title=Галактика_(вычислительная_биология)&oldid=1241904034"