Galaxy — это система научного рабочего процесса . Эти системы предоставляют средства для построения многошаговых вычислительных анализов, подобных рецепту. Обычно они предоставляют графический пользовательский интерфейс [6] для указания того, с какими данными работать, какие шаги предпринимать и в каком порядке их выполнять.
Galaxy также является платформой интеграции данных для биологических данных. Она поддерживает загрузку данных с компьютера пользователя, по URL и напрямую из многих онлайн-ресурсов (таких как UCSC Genome Browser , BioMart и InterMine ). Galaxy поддерживает ряд широко используемых форматов биологических данных и перевод между этими форматами. Galaxy предоставляет веб-интерфейс для многих утилит для обработки текста, позволяя исследователям выполнять собственное переформатирование и обработку без необходимости программирования . Galaxy включает утилиты для обработки интервалов для выполнения операций теории множеств (например, пересечение , объединение , ...) на интервалах. Многие форматы биологических файлов включают данные геномных интервалов (систему отсчета, например, имя хромосомы или контига , а также начальные и конечные позиции), что позволяет интегрировать эти данные.
Galaxy изначально был написан для анализа биологических данных, в частности геномики . Набор доступных инструментов значительно расширился за эти годы, и Galaxy теперь также используется для экспрессии генов , сборки генома , протеомики , эпигеномики , транскриптомики и множества других дисциплин в науках о жизни. Сама платформа фактически не зависит от домена и может быть применена, в теории, к любой научной области, такой как хемоинформатика . [7] Например, серверы Galaxy существуют для анализа изображений , [8] вычислительной химии [9] и разработки лекарств, [10] космологии, моделирования климата, социальных наук, [11] и лингвистики.
Наконец, Galaxy также поддерживает сохранение и публикацию данных и анализа. См. Воспроизводимость и прозрачность ниже.
Цели проекта
Galaxy — это «открытая веб-платформа для проведения доступных, воспроизводимых и прозрачных исследований в области геномики». [12]
Доступность
Вычислительная биология — это специализированная область, которая часто требует знания компьютерного программирования . Galaxy стремится предоставить биомедицинским исследователям доступ к вычислительной биологии, не требуя при этом от них понимания компьютерного программирования. [13] [14] Galaxy делает это, подчеркивая простой пользовательский интерфейс [15] вместо возможности создания сложных рабочих процессов. Такой выбор дизайна позволяет относительно легко создавать типичные анализы, но сложнее создавать сложные рабочие процессы, которые включают, например, циклические конструкции. (См. Apache Taverna для примера системы рабочих процессов, управляемых данными, которая поддерживает циклы. [16] )
Воспроизводимость
Воспроизводимость является ключевой целью науки: когда научные результаты публикуются, публикации должны включать достаточно информации, чтобы другие могли повторить эксперимент и получить те же результаты. Было предпринято много недавних попыток распространить эту цель со скамьи (« мокрая лаборатория ») на вычислительные эксперименты (« сухая лаборатория »). Это оказалось более сложной задачей, чем изначально предполагалось. [17]
Galaxy поддерживает воспроизводимость, собирая достаточно информации о каждом шаге вычислительного анализа, чтобы анализ можно было точно повторить в любой момент в будущем. Это включает отслеживание всех входных, промежуточных и конечных наборов данных, а также предоставленных параметров и порядка каждого шага анализа.
Прозрачность
Galaxy поддерживает прозрачность научных исследований, позволяя исследователям делиться любыми объектами Galaxy либо публично, либо с определенными лицами. Общие элементы могут быть детально изучены, повторно запущены по желанию, скопированы и изменены для проверки гипотез.
Объекты Galaxy: истории, рабочие процессы, наборы данных и страницы
Объекты Galaxy — это все, что можно сохранять, сохранять и передавать в Galaxy:
Истории
Истории — это вычислительные анализы (рецепты), выполняемые с указанными входными наборами данных, вычислительными шагами и параметрами. Истории также включают все промежуточные и выходные наборы данных.
Рабочие процессы
Рабочие процессы — это вычислительные анализы, которые определяют все шаги (и параметры) в анализе, но не данные. Рабочие процессы используются для запуска одного и того же анализа по нескольким наборам входных данных.
Наборы данных
Наборы данных включают в себя любые входные, промежуточные или выходные наборы данных, используемые или создаваемые в ходе анализа.
Страницы
Истории, рабочие процессы и наборы данных могут включать аннотации, предоставленные пользователем. Galaxy Pages позволяет создавать виртуальную статью, описывающую как и почему всего эксперимента. Тесная интеграция страниц с историями, рабочими процессами и наборами данных поддерживает эту цель.
Доступность
Галактика доступна:
Как бесплатный публичный веб-сервер, [18] поддерживаемый проектом Galaxy. [19] Этот сервер включает в себя множество инструментов биоинформатики, которые широко используются во многих областях геномных исследований. Пользователи могут создавать логины и сохранять истории , рабочие процессы и наборы данных на сервере. Эти сохраненные элементы также могут быть переданы другим.
Публичные веб-серверы, размещенные другими организациями. [22] Несколько организаций, имеющих собственную установку Galaxy, также решили сделать эти серверы доступными для других.
Galaxy — это проект с открытым исходным кодом, и сообщество включает пользователей, организации, которые устанавливают свой собственный экземпляр, разработчиков Galaxy и разработчиков инструментов биоинформатики. Проект Galaxy имеет списки рассылки, [27] общественный центр [28] и ежегодные встречи. [29]
^ Сообщество Galaxy (20 мая 2024 г.). «Платформа Galaxy для доступного, воспроизводимого и совместного анализа данных: обновление 2024 г.». Nucleic Acids Research (выпуск веб-сервера): 1– 12. doi : 10.1093/nar/gkae410 . PMC 11223835 .
^ Бланкенберг, Д.; Кораор, Н.; Фон Кустер, Г.; Тейлор, Дж.; Некрутенко, А.; Galaxy, Т. (2011). «Интеграция разнообразных баз данных в единую аналитическую структуру: подход Galaxy». База данных . 2011 : bar011. doi :10.1093/database/bar011. PMC 3092608 . PMID 21531983.
^ Бланкенберг, Д.; Гордон, А.; Фон Кустер, Г.; Кораор, Н.; Тейлор, Дж.; Некрутенко, А.; Galaxy, Т. (2010). «Манипуляция данными FASTQ с помощью Galaxy». Биоинформатика . 26 (14): 1783– 1785. doi :10.1093/bioinformatics/btq281. PMC 2894519. PMID 20562416 .
^ «Центр сообщества Галактики — Центр сообщества Галактики».
^ Schatz, MC (2010). «Отсутствующий графический пользовательский интерфейс для геномики». Genome Biology . 11 (8): 128– 201. doi : 10.1186/gb-2010-11-8-128 . PMC 2945776. PMID 20804568 .
^ Брей, Саймон А.; Лукас, Ксавье; Кумар, Ануп; Грюнинг, Бьёрн А. (1 июня 2020 г.). «ChemicalToolbox: воспроизводимый, удобный для пользователя анализ хемоинформатики на платформе Galaxy». Журнал химинформатики . 12 (1): 40. doi : 10.1186/s13321-020-00442-7 . PMC 7268608. PMID 33431029 .
^ "OSDDlinux". Архивировано из оригинала 2016-05-07 . Получено 2014-11-17 .
^ «Галактика».
^ Goecks, J.; Nekrutenko, A.; Taylor, J.; Galaxy Team, T. (2010). «Galaxy: комплексный подход к поддержке доступных, воспроизводимых и прозрачных вычислительных исследований в области наук о жизни». Genome Biology . 11 (8): R86. doi : 10.1186/gb-2010-11-8-r86 . PMC 2945788. PMID 20738864 .
^ Бланкенберг, Д.; Тейлор, Дж.; Некрутенко, А.; Гэлакси, Т. (2011). «Как сделать множественные выравнивания всего генома пригодными для использования биологами». Биоинформатика . 27 (17): 2426– 8. doi :10.1093/bioinformatics/btr398. PMC 3157923. PMID 21775304 .
^ Бланкенберг, Д.; Тейлор, Дж.; Шенк, И.; Хе, Дж.; Чжан, И.; Гент, М.; Вирарагхаван, Н.; Альберт, И.; Миллер, В.; Макова, К.Д.; Хардисон, Р.К.; Некрутенко, А. (2007). «Структура для совместного анализа данных ENCODE: как сделать крупномасштабные анализы удобными для биологов». Genome Research . 17 (6): 960– 964. doi :10.1101/gr.5578007. PMC 1891355 . PMID 17568012.
^ Schatz, MC (2010). «Отсутствующий графический пользовательский интерфейс для геномики». Genome Biology . 11 (8): 128– 201. doi : 10.1186/gb-2010-11-8-128 . PMC 2945776. PMID 20804568 .
^ Soiland-Reyes, S (2010-12-13). "Looping". The Taverna Knowledge Blog . knowledgeblog.org. Архивировано из оригинала 30 декабря 2016 года . Получено 28 января 2015 года .
^ «Центр сообщества Галактики — Центр сообщества Галактики».
^ «Центр сообщества Галактики — Центр сообщества Галактики».
^ Лазарус, Р.; Тейлор, Дж.; Цю, В.; Некрутенко, А. (2008). «На пути к коммерциализации трансляционных геномных исследований: особенности проектирования и реализации геномного рабочего места Galaxy». Саммит по трансляционной биоинформатике . 2008 : 56–60 . PMC 3041519. PMID 21347127 .
^ Бланкенберг, Даниэль; Фон Кустер, Грегори; Бувье, Эмиль; Бейкер, Дэннон; Афган, Энис; Столер, Николас; Тейлор, Джеймс; Некрутенко, Антон (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed». Genome Biology . 15 (2): 403. doi : 10.1186/gb4161 . PMC 4038738. PMID 25001293 .
^ Шейнкман, GM; Джонсон, JE; Джагтап, PD; Шортрид, MR; Онсонго, G; Фрей, BL; Гриффин, TJ; Смит, LM (22 августа 2014 г.). «Использование Galaxy-P для использования РНК-Seq для открытия новых вариаций белков». BMC Genomics . 15 (703): 703. doi : 10.1186/1471-2164-15-703 . PMC 4158061 . PMID 25149441.