Биоинформатика проточной цитометрии — это применение биоинформатики к данным проточной цитометрии , которое включает хранение, извлечение, организацию и анализ данных проточной цитометрии с использованием обширных вычислительных ресурсов и инструментов. Биоинформатика проточной цитометрии требует широкого использования и вносит вклад в разработку методов вычислительной статистики и машинного обучения . Проточная цитометрия и связанные с ней методы позволяют количественно определять несколько независимых биомаркеров на большом количестве отдельных клеток . Быстрый рост многомерности и пропускной способности данных проточной цитометрии, особенно в 2000-х годах, привел к созданию различных методов вычислительного анализа, стандартов данных и общедоступных баз данных для обмена результатами.
Существуют вычислительные методы, помогающие в предварительной обработке данных проточной цитометрии, идентификации популяций клеток в ней, сопоставлении этих популяций клеток в образцах и выполнении диагностики и обнаружения с использованием результатов предыдущих шагов. Для предварительной обработки это включает компенсацию спектрального перекрытия, преобразование данных в шкалы, благоприятные для визуализации и анализа, оценку данных по качеству и нормализацию данных по образцам и экспериментам. Для идентификации популяции доступны инструменты, помогающие традиционной ручной идентификации популяций на двумерных диаграммах рассеяния (селекции), использовать уменьшение размерности для помощи в селекции и автоматически находить популяции в пространстве более высокой размерности различными способами. Также возможно характеризовать данные более комплексными способами, такими как метод разбиения двоичного пространства с учетом плотности , известный как вероятностное биннинг, или комбинаторное селекция. Наконец, диагностике с использованием данных проточной цитометрии могут способствовать контролируемые методы обучения и обнаружение новых типов клеток, имеющих биологическое значение, с помощью высокопроизводительных статистических методов в рамках конвейеров, включающих все вышеупомянутые методы.
Открытые стандарты , данные и программное обеспечение также являются ключевыми частями биоинформатики проточной цитометрии. Стандарты данных включают широко принятый стандарт проточной цитометрии (FCS), определяющий, как должны храниться данные с цитометров, а также несколько новых стандартов, разрабатываемых Международным обществом по развитию цитометрии (ISAC) для помощи в хранении более подробной информации об экспериментальном дизайне и аналитических этапах. Открытые данные медленно растут с открытием базы данных CytoBank в 2010 году и FlowRepository в 2012 году, обе из которых позволяют пользователям свободно распространять свои данные, и последняя из которых была рекомендована ISAC в качестве предпочтительного репозитория для данных, совместимых с MIFlowCyt. Открытое программное обеспечение наиболее широко доступно в виде набора пакетов Bioconductor , но также доступно для веб-исполнения на платформе GenePattern .
Проточные цитометры работают путем гидродинамической фокусировки взвешенных клеток таким образом, чтобы они отделялись друг от друга в потоке жидкости. Поток опрашивается одним или несколькими лазерами, и полученный флуоресцентный и рассеянный свет обнаруживается фотоумножителями . Используя оптические фильтры , можно количественно определить отдельные флуорофоры на клетках или внутри них по пикам в их спектрах испускания . Это могут быть эндогенные флуорофоры, такие как хлорофилл или трансгенный зеленый флуоресцентный белок , или это могут быть искусственные флуорофоры, ковалентно связанные с молекулами обнаружения, такими как антитела для обнаружения белков или гибридизационные зонды для обнаружения ДНК или РНК .
Возможность количественной оценки этих показателей привела к использованию проточной цитометрии в широком спектре приложений, включая, помимо прочего:
До начала 2000-х годов проточная цитометрия могла измерять только несколько флуоресцентных маркеров за раз. Однако с конца 1990-х до середины 2000-х годов быстрое развитие новых флуорофоров привело к появлению современных инструментов, способных количественно определять до 18 маркеров на клетку. [7] Совсем недавно новая технология массовой цитометрии заменила флуорофоры редкоземельными элементами , обнаруженными с помощью времяпролетной масс-спектрометрии , что позволило измерить экспрессию 34 или более маркеров. [8] В то же время методы микрофлюидной ПЦР предоставляют метод, подобный проточной цитометрии, для количественной оценки 48 или более молекул РНК на клетку. [9] Быстрое увеличение размерности данных проточной цитометрии в сочетании с разработкой высокопроизводительных роботизированных платформ, способных автоматически анализировать сотни и тысячи образцов, создали потребность в улучшенных методах вычислительного анализа. [7]
Данные проточной цитометрии представлены в виде большой матрицы интенсивностей по M длинам волн по N событиям. Большинство событий будут представлять собой определенную клетку, хотя некоторые могут быть дублетами (парами клеток, которые проходят лазер близко друг к другу). Для каждого события регистрируется измеренная интенсивность флуоресценции по определенному диапазону длин волн.
Измеренная интенсивность флуоресценции указывает на количество этого флуорофора в клетке, что указывает на количество, которое связалось с молекулами детектора, такими как антитела. Таким образом, интенсивность флуоресценции можно считать прокси-фактором для количества молекул детектора, присутствующих в клетке. Упрощенный, хотя и не строго точный, способ рассмотрения данных проточной цитометрии — это матрица из M измерений, умноженных на N ячеек, где каждый элемент соответствует количеству молекул.
Процесс перехода от первичных данных FCM к диагностике заболеваний и обнаружению биомаркеров включает четыре основных этапа:
Сохранение шагов, выполненных в конкретном рабочем процессе проточной цитометрии , поддерживается некоторым программным обеспечением для проточной цитометрии и важно для воспроизводимости экспериментов проточной цитометрии. Однако сохраненные файлы рабочего пространства редко являются взаимозаменяемыми между программным обеспечением. [10] Попыткой решить эту проблему является разработка стандарта данных на основе XML Gating-ML (подробнее обсуждается в разделе стандартов), который медленно принимается как в коммерческом, так и в программном обеспечении для проточной цитометрии с открытым исходным кодом. [11] Пакет CytoML R также заполняет пробел путем импорта/экспорта Gating-ML, совместимого с программным обеспечением FlowJo , CytoBank и FACS Diva.
Перед анализом данные проточной цитометрии обычно должны пройти предварительную обработку для удаления артефактов и данных низкого качества, а также для преобразования в оптимальный масштаб для идентификации интересующих популяций клеток. Ниже приведены различные этапы типичного конвейера предварительной обработки проточной цитометрии.
Когда с одним и тем же лазером используется более одного флуорохрома, их спектры излучения часто перекрываются. Каждый конкретный флуорохром обычно измеряется с помощью полосового оптического фильтра, установленного на узкую полосу на пике интенсивности излучения флуорохрома или около него. Результатом является то, что показания для любого данного флуорохрома фактически являются суммой пиковой интенсивности излучения этого флуорохрома и интенсивности спектров всех других флуорохромов, где они перекрываются с этой полосой частот. Это перекрытие называется переливом, а процесс удаления перелива из данных проточной цитометрии называется компенсацией. [12]
Компенсация обычно достигается путем запуска серии репрезентативных образцов, каждый из которых окрашен только одним флуорохромом, чтобы получить измерения вклада каждого флуорохрома в каждый канал. [12] Общий сигнал, который необходимо удалить из каждого канала, можно вычислить путем решения системы линейных уравнений на основе этих данных для получения матрицы перетока, которая при инвертировании и умножении на необработанные данные из цитометра дает скомпенсированные данные. [12] [13] Процессы вычисления матрицы перетока или применения предварительно вычисленной матрицы перетока для компенсации данных проточной цитометрии являются стандартными функциями программного обеспечения проточной цитометрии. [14]
Клеточные популяции, обнаруженные с помощью проточной цитометрии, часто описываются как имеющие приблизительно логарифмически нормальную экспрессию. [15] Таким образом, они традиционно преобразовывались в логарифмическую шкалу . В ранних цитометрах это часто достигалось даже до получения данных с помощью логарифмического усилителя . На современных приборах данные обычно хранятся в линейной форме и преобразуются в цифровую форму перед анализом.
Однако компенсированные данные проточной цитометрии часто содержат отрицательные значения из-за компенсации, и встречаются популяции клеток с низкими средними значениями и нормальным распределением. [16] Логарифмические преобразования не могут правильно обрабатывать отрицательные значения и плохо отображают нормально распределенные типы клеток. [16] [17] Альтернативные преобразования, которые решают эту проблему, включают логарифмически-линейные гибридные преобразования Logicle [16] [18] и Hyperlog, [19] , а также гиперболический арксинус и Бокс-Кокс . [20]
Сравнение обычно используемых преобразований пришло к выводу, что биэкспоненциальное преобразование и преобразование Бокса-Кокса при оптимальной параметризации обеспечивают наиболее четкую визуализацию и наименьшую дисперсию популяций клеток в разных образцах. [17] Однако более позднее сравнение пакета flowTrans, использованного в этом сравнении, показало, что он не параметризовал преобразование Logicle способом, соответствующим другим реализациям, что потенциально ставит эти результаты под сомнение. [21]
В частности, в новых, высокопроизводительных экспериментах необходимы методы визуализации , помогающие обнаруживать технические ошибки в отдельных образцах. Один из подходов заключается в визуализации сводных статистик, таких как эмпирические функции распределения отдельных измерений технических или биологических повторов, чтобы гарантировать их схожесть. [22] Для большей строгости можно использовать тест Колмогорова-Смирнова , чтобы определить, отклоняются ли отдельные образцы от нормы. [22] Тест Граббса на выбросы можно использовать для обнаружения образцов, отклоняющихся от группы.
Метод контроля качества в многомерном пространстве заключается в использовании вероятностного биннинга с бинами, подходящими для всего набора данных, объединенных вместе. [23] Затем стандартное отклонение количества ячеек, попадающих в бины в пределах каждого образца, можно принять в качестве меры многомерного сходства, при этом образцы, которые ближе к норме, имеют меньшее стандартное отклонение. [23] При использовании этого метода более высокое стандартное отклонение может указывать на выбросы, хотя это относительная мера, поскольку абсолютное значение частично зависит от количества бинов.
При использовании всех этих методов измеряется вариация между образцами. Однако это комбинация технических вариаций, вносимых приборами и обработкой, и фактической биологической информации, которую желательно измерить. Устранение неоднозначности между техническим и биологическим вкладами в вариацию между образцами может быть сложной или невозможной задачей. [24]
В частности, в многоцентровых исследованиях технические вариации могут затруднить сопоставление биологически эквивалентных популяций клеток между образцами. Методы нормализации для устранения технической дисперсии, часто получаемые из методов регистрации изображений , являются, таким образом, критическим шагом во многих анализах проточной цитометрии. Нормализация по одному маркеру может быть выполнена с использованием регистрации ориентиров, при которой пики в оценке плотности ядра каждого образца идентифицируются и выравниваются между образцами. [24]
Сложность необработанных данных проточной цитометрии (десятки измерений для тысяч или миллионов клеток) затрудняет получение ответов на вопросы напрямую с использованием статистических тестов или контролируемого обучения. Таким образом, критическим шагом в анализе данных проточной цитометрии является снижение этой сложности до чего-то более поддающегося обработке при установлении общих черт во всех образцах. Обычно это включает в себя идентификацию многомерных областей, которые содержат функционально и фенотипически однородные группы клеток. [27] Это форма кластерного анализа . Существует ряд методов, с помощью которых этого можно достичь, подробно описанных ниже.
Данные, полученные с помощью проточных цитометров, можно нанести на график в одном или двух измерениях для получения гистограммы или диаграммы рассеяния. Области на этих графиках можно последовательно разделять на основе интенсивности флуоресценции , создавая ряд извлечений подмножеств, называемых « воротами ». Эти ворота можно создавать с помощью программного обеспечения, например, FlowJo , [28] FCS Express, [29] WinMDI, [30] CytoPaint (он же Paint-A-Gate), [31] VenturiOne, Cellcion, CellQuest Pro, Cytospec, [32] Kaluza. [33] или flowCore.
В наборах данных с небольшим количеством измерений и ограниченной перекрестной технической и биологической изменчивостью (например, клинические лаборатории) ручной анализ определенных популяций клеток может давать эффективные и воспроизводимые результаты. Однако исследовательский анализ большого количества популяций клеток в многомерном наборе данных невозможен. [34] Кроме того, ручной анализ в менее контролируемых условиях (например, перекрестные лабораторные исследования) может увеличить общую частоту ошибок исследования. [35] В одном исследовании несколько алгоритмов вычислительного гейтирования работали лучше, чем ручной анализ при наличии некоторой вариации. [26] Однако, несмотря на значительные достижения в вычислительном анализе, ручное гейтирование остается основным решением для идентификации определенных редких популяций клеток, которые недостаточно хорошо отделены от других типов клеток.
Количество диаграмм рассеяния, которые необходимо исследовать, увеличивается с квадратом количества измеренных маркеров (или быстрее, поскольку некоторые маркеры необходимо исследовать несколько раз для каждой группы клеток, чтобы разрешить многомерные различия между типами клеток, которые кажутся схожими по большинству маркеров). [36] Для решения этой проблемы был использован анализ главных компонент для суммирования многомерных наборов данных с использованием комбинации маркеров, которая максимизирует дисперсию всех точек данных. [37] Однако PCA является линейным методом и не способен сохранять сложные и нелинейные отношения. Совсем недавно для руководства процессом ручного стробирования использовались двумерные макеты минимального остовного дерева . Основанная на плотности субдискретизация и кластеризация использовались для лучшего представления редких популяций и контроля временной и памяти сложности процесса построения минимального остовного дерева. [38] Более сложные алгоритмы снижения размерности еще предстоит изучить. [39]
Разработка вычислительных инструментов для идентификации популяций клеток стала областью активных исследований только с 2008 года. Недавно было разработано много индивидуальных подходов к кластеризации , включая алгоритмы на основе моделей (например, flowClust [41] и FLAME [42] ), алгоритмы на основе плотности (например, FLOCK [43] и SWIFT), графовые подходы (например, SamSPECTRAL [44] ) и совсем недавно гибриды нескольких подходов (flowMeans [45] и flowPeaks [46] ). Эти алгоритмы различаются по сложности памяти и времени, требованиям к программному обеспечению, способности автоматически определять необходимое количество популяций клеток, а также чувствительности и специфичности. Проект FlowCAP (проточная цитометрия: критическая оценка методов идентификации популяций) при активном участии большинства академических групп, ведущих исследования в этой области, предоставляет способ объективного перекрестного сравнения современных автоматизированных подходов к анализу. [26] В других исследованиях также сравнивались автоматизированные инструменты гейтирования на нескольких наборы данных. [47] [48] [49] [50]
Вероятностное биннинг — это метод анализа без стробирования, в котором данные проточной цитометрии разделяются на квантили на одномерной основе. [51] Расположение квантилей затем можно использовать для проверки различий между образцами (в неразделенных переменных) с использованием критерия хи-квадрат. [51]
Позже это было расширено на несколько измерений в форме частотного разностного стробирования, метода бинарного разделения пространства , где данные итеративно разделяются вдоль медианы. [52] Эти разделы (или ячейки) подгоняются под контрольную выборку. Затем долю клеток, попадающих в каждую ячейку в тестовых выборках, можно сравнить с контрольной выборкой с помощью теста хи-квадрат.
Наконец, цитометрическое фингерпринтинг использует вариант частотного разностного стробирования для установки бинов и измерения для серии образцов того, сколько клеток попадает в каждый бин. [23] Эти бины можно использовать в качестве ворот и использовать для последующего анализа аналогично методам автоматического ворот.
Алгоритмы кластеризации высокой размерности часто неспособны идентифицировать редкие типы клеток, которые не очень хорошо отделены от других основных популяций. Сопоставление этих небольших популяций клеток в нескольких образцах еще более сложная задача. При ручном анализе предшествующие биологические знания (например, биологический контроль) дают указания для разумной идентификации этих популяций. Однако интеграция этой информации в процесс исследовательской кластеризации (например, как в полуконтролируемом обучении ) не увенчалась успехом.
Альтернативой кластеризации высокой размерности является идентификация популяций клеток с использованием одного маркера за раз, а затем их объединение для создания кластеров более высокой размерности. Эта функциональность была впервые реализована в FlowJo. [28] Алгоритм flowType строится на этой структуре, позволяя исключать маркеры. [53] Это позволяет разрабатывать статистические инструменты (например, RchyOptimyx), которые могут исследовать важность каждого маркера и исключать избыточность высокой размерности. [54]
После идентификации интересующей популяции клеток можно провести перекрестный анализ выборки для выявления фенотипических или функциональных вариаций, которые коррелируют с внешней переменной (например, клиническим результатом). Эти исследования можно разделить на две основные группы:
В этих исследованиях целью обычно является диагностика заболевания (или подкласса заболевания) с использованием вариаций в одной или нескольких популяциях клеток. Например, можно использовать многомерную кластеризацию для идентификации набора кластеров, сопоставить их по всем образцам, а затем использовать контролируемое обучение для построения классификатора для прогнозирования интересующих классов (например, этот подход можно использовать для повышения точности классификации определенных подтипов лимфомы [55] ). В качестве альтернативы все клетки из всей когорты можно объединить в единое многомерное пространство для кластеризации перед классификацией. [56] Этот подход особенно подходит для наборов данных с большим количеством биологических вариаций (в которых сопоставление перекрестных образцов является сложной задачей), но требует тщательного контроля технических вариаций. [57]
В условиях обнаружения цель состоит в том, чтобы идентифицировать и описать популяции клеток, коррелирующие с внешней переменной (в отличие от диагностических условий, в которых цель состоит в том, чтобы объединить предсказательную силу нескольких типов клеток для максимизации точности результатов). Подобно варианту использования диагностики, сопоставление кластеров в многомерном пространстве может использоваться для исследовательского анализа, но описательная сила этого подхода очень ограничена, поскольку трудно охарактеризовать и визуализировать популяцию клеток в многомерном пространстве без предварительного уменьшения размерности. [56] [58] Наконец, комбинаторные подходы к гейтированию оказались особенно успешными в исследовательском анализе данных FCM. Упрощенное представление невероятно сложных оценок (SPICE) — это программный пакет, который может использовать функциональность гейтирования FlowJo для статистической оценки широкого спектра различных популяций клеток и визуализации тех, которые коррелируют с внешним результатом. flowType и RchyOptimyx (как обсуждалось выше) расширяют эту технику, добавляя возможность исследования влияния независимых маркеров на общую корреляцию с внешним результатом. Это позволяет удалять ненужные маркеры и обеспечивает простую визуализацию всех идентифицированных типов клеток. В недавнем анализе большой (n=466) когорты пациентов с ВИЧ+ этот конвейер выявил три коррелята защиты от ВИЧ, только один из которых был ранее идентифицирован посредством обширного ручного анализа того же набора данных. [53]
Стандарт проточной цитометрии (FCS) был разработан в 1984 году для записи и обмена данными проточной цитометрии. [59] С тех пор FCS стал стандартным форматом файла , поддерживаемым всеми поставщиками программного обеспечения и оборудования для проточной цитометрии. Спецификация FCS традиционно разрабатывалась и поддерживалась Международным обществом по развитию цитометрии (ISAC). [60] На протяжении многих лет были включены обновления для адаптации к технологическим достижениям как в проточной цитометрии, так и в вычислительных технологиях: FCS 2.0 был представлен в 1990 году, [61] FCS 3.0 в 1997 году, [62] и самая последняя спецификация FCS 3.1 в 2010 году. [63] FCS был единственным широко принятым форматом файла в проточной цитометрии. Недавно ISAC разработал дополнительные стандартные форматы файлов.
ISAC рассматривает возможность замены FCS на версию формата файла Network Common Data Form (netCDF), предназначенную для проточной цитометрии. [64] netCDF — это набор свободно доступных библиотек программного обеспечения и машинно-независимых форматов данных, которые поддерживают создание, доступ и совместное использование научных данных, ориентированных на массивы. В 2008 году ISAC разработал первую версию соглашений netCDF для хранения необработанных данных проточной цитометрии. [65]
Стандарт архивной цитометрии (ACS) разрабатывается для объединения данных с различными компонентами, описывающими эксперименты по цитометрии. [66] Он фиксирует связи между данными, метаданными, файлами анализа и другими компонентами и включает поддержку контрольных журналов, управления версиями и цифровых подписей. Контейнер ACS основан на формате файла ZIP с таблицей содержания на основе XML , определяющей связи между файлами в контейнере. Рекомендация W3C по подписи XML была принята для обеспечения цифровых подписей компонентов в контейнере ACS. Первоначальный проект ACS был разработан в 2007 году и завершен в 2010 году. С тех пор поддержка ACS была введена в нескольких программных инструментах, включая FlowJo и Cytobank.
Отсутствие взаимодействия гейтинга традиционно было узким местом, препятствующим воспроизводимости анализа данных проточной цитометрии и использованию нескольких аналитических инструментов. Для устранения этого недостатка ISAC разработал Gating-ML, механизм на основе XML для формального описания гейтов и связанных с ними преобразований данных (масштабов). [10] Проект рекомендации Gating-ML был одобрен ISAC в 2008 году, и он частично поддерживается такими инструментами, как FlowJo, flowUtils, библиотеки CytoML в R/BioConductor и FlowRepository. [66] Он поддерживает прямоугольные гейты, многоугольные гейты, выпуклые многогранники, эллипсоиды, деревья решений и булевы коллекции любых других типов гейтов. Кроме того, он включает десятки встроенных общедоступных преобразований, которые, как было показано, потенциально полезны для отображения или анализа данных цитометрии. В 2013 году версия Gating-ML 2.0 была одобрена Целевой группой по стандартам данных ISAC в качестве рекомендации. Эта новая версия предлагает немного меньшую гибкость с точки зрения мощности описания стробирования; однако ее также значительно проще реализовать в программных инструментах. [11]
Формат файла результатов классификации (CLR) [67] был разработан для обмена результатами ручного гейтирования и алгоритмических подходов к классификации стандартным способом, чтобы иметь возможность сообщать и обрабатывать классификацию. CLR основан на широко поддерживаемом формате файла CSV со столбцами, соответствующими различным классам, и значениями ячеек, содержащими вероятность того, что событие является членом определенного класса. Они фиксируются как значения от 0 до 1. Простота формата и его совместимость с распространенными инструментами электронных таблиц были основными требованиями, определяющими дизайн спецификации. Хотя изначально он был разработан для области проточной цитометрии, он применим в любой области, где необходимо фиксировать как нечеткие, так и однозначные классификации практически любых видов объектов.
Как и в других областях биоинформатики, разработка новых методов в основном осуществлялась в форме бесплатного программного обеспечения с открытым исходным кодом , и было создано несколько баз данных для размещения открытых данных .
AutoGate [68] выполняет компенсацию, стробирование, предварительный просмотр кластеров, исчерпывающее проекционное преследование (EPP), многомерное масштабирование и фенограмму, создает визуальную дендрограмму для выражения готовности HiD. Он бесплатен для исследователей и врачей в академических, государственных и некоммерческих учреждениях.
Проект Bioconductor представляет собой репозиторий бесплатного программного обеспечения с открытым исходным кодом, в основном написанного на языке программирования R. [69] По состоянию на июль 2013 года Bioconductor содержал 21 программный пакет для обработки данных проточной цитометрии. [ 70] Эти пакеты охватывают большую часть спектра функциональных возможностей, описанных ранее в этой статье.
GenePattern — это преимущественно геномная аналитическая платформа с более чем 200 инструментами для анализа экспрессии генов, протеомики и других данных. Веб-интерфейс обеспечивает легкий доступ к этим инструментам и позволяет создавать автоматизированные аналитические конвейеры, позволяющие проводить воспроизводимые исследования. Недавно был разработан пакет GenePattern Flow Cytometry Suite, чтобы предоставить расширенные инструменты анализа данных проточной цитометрии экспериментаторам без навыков программирования. Он содержит около 40 модулей проточной цитометрии GenePattern с открытым исходным кодом, охватывающих методы от базовой обработки стандартных файлов проточной цитометрии (т. е. FCS) до расширенных алгоритмов для автоматизированной идентификации популяций клеток, нормализации и оценки качества. Внутренне большинство этих модулей используют функциональность, разработанную в BioConductor.
Большая часть функциональных возможностей пакетов Bioconductor для анализа проточной цитометрии была упакована для использования с системой рабочего процесса GenePattern [71] в форме пакета GenePattern Flow Cytometry Suite. [72]
FACSanadu [73] — это портативное приложение с открытым исходным кодом для визуализации и анализа данных FCS. В отличие от Bioconductor, это интерактивная программа, предназначенная для непрограммистов для рутинного анализа. Она поддерживает стандартные файлы FCS, а также данные профиля COPAS.
hema.to — это веб-сервис для классификации данных проточной цитометрии пациентов с подозрением на лимфому. [74] Искусственный интеллект в инструменте использует глубокую сверточную нейронную сеть для распознавания шаблонов отдельных подтипов. Все данные и код находятся в открытом доступе. [75] Он обрабатывает необработанные данные, что делает стробирование ненужным. Для лучшей производительности на новых данных требуется тонкая настройка путем передачи знаний. [76]
Минимальная информация об эксперименте по проточной цитометрии (MIFlowCyt) требует, чтобы любые данные проточной цитометрии, используемые в публикации, были доступны, хотя это не включает требование о том, чтобы они были размещены в общедоступной базе данных. [77] Таким образом, хотя журналы Cytometry Part A и B, а также все журналы из Nature Publishing Group требуют соответствия MIFlowCyt, общедоступных данных по проточной цитометрии по-прежнему относительно мало. Однако были предприняты некоторые усилия по созданию общедоступных баз данных.
Во-первых, CytoBank, который является полной веб-платформой для хранения и анализа данных проточной цитометрии, был предоставлен общественности в ограниченной форме. [78] Используя кодовую базу CytoBank, в 2012 году при поддержке ISAC был разработан FlowRepository, который стал публичным репозиторием данных проточной цитометрии. [79] FlowRepository обеспечивает соответствие MIFlowCyt [80] и по состоянию на июль 2013 года содержал 65 публичных наборов данных. [81]
В 2012 году сообщество проточной цитометрии начало выпускать набор общедоступных наборов данных. Ниже описывается подмножество этих наборов данных, представляющее существующие проблемы анализа данных. Для сравнения с ручным гейтированием проект FlowCAP-I выпустил пять наборов данных, вручную гейтированных аналитиками-людьми, и два из них гейтированы восемью независимыми аналитиками. [26] Проект FlowCAP-II включал три набора данных для бинарной классификации, а также сообщал о нескольких алгоритмах, которые смогли идеально классифицировать эти образцы. FlowCAP-III включал два больших набора данных для сравнения с ручным гейтированием, а также один более сложный набор данных классификации образцов. По состоянию на март 2013 года публичный выпуск FlowCAP-III все еще продолжался. [82] Наборы данных, используемые в FlowCAP-I, II и III, либо имеют небольшое количество субъектов или параметров. Однако недавно было опубликовано несколько более сложных клинических наборов данных, включая набор данных по 466 ВИЧ-инфицированным субъектам, который обеспечивает как 14 параметрических анализов, так и достаточную клиническую информацию для анализа выживаемости. [54] [83] [84] [85]
Другой класс наборов данных — это многомерные массовые цитометрические анализы. Представитель этого класса наборов данных — исследование, включающее анализ двух образцов костного мозга с использованием более 30 поверхностных или внутриклеточных маркеров при широком диапазоне различных стимуляций. [8] Исходные данные для этого набора данных общедоступны, как описано в рукописи, а ручной анализ поверхностных маркеров доступен по запросу у авторов.
Несмотря на бурное развитие биоинформатики в области проточной цитометрии, еще предстоит решить ряд проблем.
Изменчивость в экспериментах по проточной цитометрии возникает из-за биологической изменчивости между образцами, технических различий в используемых приборах, а также методов анализа. В 2010 году группа исследователей из Стэнфордского университета и Национальных институтов здравоохранения отметила, что, хотя технические различия могут быть улучшены путем стандартизации обработки образцов, настройки приборов и выбора реагентов, решение проблемы вариабельности в методах анализа потребует аналогичной стандартизации и вычислительной автоматизации методов гейтирования. [86] Они также высказали мнение, что централизация как данных, так и анализа может помочь в снижении изменчивости между экспериментами и в сравнении результатов. [86]
Это было поддержано другой группой исследователей Pacific Biosciences и Стэнфордского университета, которые предположили, что облачные вычисления могут обеспечить централизованный, стандартизированный, высокопроизводительный анализ экспериментов по проточной цитометрии. [87] Они также подчеркнули, что продолжающаяся разработка и принятие стандартных форматов данных могут продолжать помогать в снижении изменчивости между экспериментами. [87] Они также предположили, что потребуются новые методы для моделирования и обобщения результатов высокопроизводительного анализа способами, которые могут быть интерпретированы биологами, [87] а также способы интеграции крупномасштабных данных проточной цитометрии с другой высокопроизводительной биологической информацией, такой как экспрессия генов , генетическая изменчивость , уровни метаболитов и состояния болезней. [87]
Эта статья была адаптирована из следующего источника по лицензии CC BY 4.0 (2013) (отчеты рецензентов): Киран О'Нил; Нима Агаипур; Йозеф Шпидлен; Райан Бринкман (5 декабря 2013 г.). "Flow cytometry bioinformatics". PLOS Computational Biology . 9 (12): e1003365. doi : 10.1371/JOURNAL.PCBI.1003365 . ISSN 1553-734X. PMC 3867282. PMID 24363631. Wikidata Q21045422 .
{{cite book}}
: |journal=
проигнорировано ( помощь )CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )