Архивация данных исследований

Долгосрочное хранение исследовательских данных

Архивирование исследовательских данных — это долгосрочное хранение данных научных исследований , включая естественные науки, социальные науки и науки о жизни. Различные академические журналы имеют различную политику относительно того, сколько своих данных и методов исследователи обязаны хранить в публичном архиве, и то, что фактически архивируется, сильно различается в зависимости от различных дисциплин. Аналогичным образом, основные учреждения, предоставляющие гранты, по-разному относятся к публичному архивированию данных. В целом, традиция науки заключается в том, чтобы публикации содержали достаточно информации, чтобы позволить коллегам-исследователям воспроизводить и, следовательно, проверять исследования. В последние годы этот подход становится все более напряженным, поскольку исследования в некоторых областях зависят от больших наборов данных, которые нелегко воспроизводить независимо.

Архивация данных важнее в некоторых областях, чем в других. В некоторых областях все данные, необходимые для воспроизведения работы, уже доступны в журнальной статье. При разработке лекарств генерируется большой объем данных, который необходимо архивировать, чтобы исследователи могли проверить, что отчеты, публикуемые фармацевтическими компаниями, точно отражают эти данные.

Требование архивирования данных является недавним событием в истории науки . Это стало возможным благодаря достижениям в области информационных технологий , позволяющим хранить большие объемы данных и получать к ним доступ из центральных мест. Например, Американский геофизический союз (AGU) принял свою первую политику архивирования данных в 1993 году, примерно через три года после начала работы WWW . [1] Эта политика предписывает, чтобы наборы данных, цитируемые в статьях AGU, архивировались признанным центром обработки данных; она разрешает создание «статей данных»; и она устанавливает роль AGU в поддержании архивов данных. Но она не предъявляет никаких требований к авторам статей архивировать свои данные.

До организованного архивирования данных исследователи, желающие оценить или воспроизвести статью, должны были запрашивать у автора информацию о данных и методах. Академическое сообщество ожидает, что авторы поделятся дополнительными данными . Этот процесс был признан бесполезным и затратным по времени и энергии, и получил неоднозначные результаты. Информация могла быть утеряна или испорчена с годами. В некоторых случаях авторы просто отказываются предоставлять информацию.

Необходимость в архивировании данных и комплексной проверке значительно возрастает, когда исследование касается вопросов здравоохранения или формирования государственной политики. [2] [3]

Избранные политики журналов

Биотропика

Biotropica требует, как условие публикации, чтобы данные, подтверждающие результаты в статье, и метаданные, описывающие их, были заархивированы в соответствующем публичном архиве, таком как Dryad, Figshare, GenBank, TreeBASE или NCBI. Авторы могут сделать данные общедоступными сразу после публикации статьи или, если технология архива позволяет, наложить эмбарго на доступ к данным в течение трех лет после публикации статьи. Заявление, описывающее доступность данных, будет включено в рукопись, как описано в инструкциях для авторов. Исключения из обязательного архивирования данных могут быть предоставлены по усмотрению главного редактора для исследований, которые включают конфиденциальную информацию (например, местоположение исчезающих видов). Нашу редакционную статью, объясняющую мотивацию этой политики, можно найти здесь. Более полный список хранилищ данных доступен здесь. Продвижение культуры сотрудничества с исследователями, которые собирают и архивируют данные: Данные, собранные тропическими биологами, часто являются долгосрочными, сложными и дорогими для сбора. Редакционный совет Biotropica настоятельно рекомендует авторам, которые повторно используют архивы данных, архивные наборы данных, включать в качестве полностью вовлеченных соавторов ученых, которые изначально их собрали. Мы считаем, что это значительно повысит качество и влияние полученных исследований, опираясь на глубокие познания сборщика данных в естественной истории системы исследования, снижая риск ошибок в новых анализах и стимулируя междисциплинарное и межкультурное сотрудничество и обучение, за которые ATBC и Biotropica широко признаны.

Примечание: Biotropica — один из двух журналов, который выплачивает авторам гонорары за размещение данных в Dryad.

Американский натуралист

American Naturalist требует от авторов размещать данные, связанные с принятыми статьями, в публичном архиве. Для данных о последовательностях генов и филогенетических деревьях требуется размещение в GenBank или TreeBASE соответственно. Существует множество возможных архивов, которые могут подойти для определенного набора данных, включая репозиторий Dryad для данных по экологической и эволюционной биологии. Все номера доступа для GenBank, TreeBASE и Dryad должны быть включены в принятые рукописи до того, как они попадут в производство. Если данные размещены в другом месте, пожалуйста, предоставьте ссылку. Если данные взяты из опубликованной литературы, пожалуйста, разместите собранные данные в Dryad для удобства ваших читателей. Любые препятствия к обмену данными должны быть доведены до сведения редакторов во время подачи, чтобы можно было выработать соответствующие договоренности. [4]

Журнал наследственности

Первичные данные, лежащие в основе выводов статьи, имеют решающее значение для проверяемости и прозрачности научного предприятия и должны сохраняться в пригодной для использования форме на протяжении десятилетий в будущем. По этой причине Journal of Heredity требует, чтобы вновь сообщаемые нуклеотидные или аминокислотные последовательности и структурные координаты были представлены в соответствующие публичные базы данных (например, GenBank; База данных нуклеотидных последовательностей EMBL; База данных ДНК Японии; Банк данных белков ; и Swiss-Prot ). Номера доступа должны быть включены в окончательную версию рукописи. Для других форм данных (например, генотипы микросателлитов, карты сцепления, изображения) Журнал поддерживает принципы Совместной политики архивирования данных (JDAP), поощряя всех авторов архивировать первичные наборы данных в соответствующем публичном архиве, таком как Dryad, TreeBASE или Сеть знаний по биокомплексности. Авторам рекомендуется сделать данные общедоступными во время публикации или, если позволяет технология архива, ограничить доступ к данным на период до года после публикации. Американская генетическая ассоциация также признает огромные инвестиции отдельных исследователей в создание и курирование больших наборов данных. Следовательно, мы рекомендуем уважать эти инвестиции во вторичных анализах или метаанализах в духе любезного сотрудничества.

—  oxfordjournals.org [5]

Молекулярная экология

Molecular Ecology ожидает, что данные, подтверждающие результаты в статье, будут архивированы в соответствующем публичном архиве, таком как GenBank, Gene Expression Omnibus , TreeBASE, Dryad, Knowledge Network for Biocomplexity, вашем собственном институциональном или спонсорском репозитории или в качестве вспомогательной информации на веб-сайте Molecular Ecology. Данные являются важными продуктами научного предприятия, и они должны сохраняться и использоваться в течение десятилетий в будущем. Авторы могут выбрать, чтобы данные были общедоступными на момент публикации, или, если технология архива позволяет, могут выбрать эмбарго на доступ к данным на период до года после публикации. Исключения могут быть предоставлены по усмотрению редактора, особенно для конфиденциальной информации, такой как данные о людях или местонахождении исчезающих видов.

—  Уайли [6]

Природа

Такие материалы должны быть размещены на аккредитованном независимом сайте (URL и регистрационные номера должны быть предоставлены автором) или отправлены в журнал Nature при подаче, либо загружены через онлайн-сервис подачи журнала, либо, если файлы слишком большие или имеют неподходящий формат для этой цели, на CD/DVD (пять копий). Такие материалы не могут быть размещены исключительно на личном или институциональном веб-сайте автора. [7] Nature требует, чтобы рецензент определил, все ли дополнительные данные и методы были заархивированы. Политика рекомендует рецензентам рассмотреть несколько вопросов, в том числе: «Следует ли просить авторов предоставить дополнительные методы или данные для сопровождения статьи в Интернете? (Такие данные могут включать исходный код для модельных исследований, подробные экспериментальные протоколы или математические выводы.)

—  Природа [8]

Наука

Science поддерживает усилия баз данных, которые объединяют опубликованные данные для использования научным сообществом. Поэтому перед публикацией большие наборы данных (включая данные микрочипов, последовательности белков или ДНК, а также атомные координаты или карты электронной микроскопии для макромолекулярных структур) должны быть помещены в утвержденную базу данных, и им должен быть предоставлен номер доступа для включения в опубликованную статью. [9] «Материалы и методы» — Science теперь требует, чтобы, как правило, авторы размещали большую часть своего описания материалов и методов в Интернете в качестве вспомогательного материала, предоставляя только столько описания методов в печатной рукописи, сколько необходимо для соблюдения логики текста. (Очевидно, что это ограничение не будет применяться, если статья по сути является исследованием нового метода или техники.)

—  Наука [10]

Королевское общество

Чтобы позволить другим лицам проверять и развивать работу, опубликованную в журналах Королевского общества , условием публикации является предоставление авторами данных, кода и исследовательских материалов, подтверждающих результаты, изложенные в статье.

Наборы данных и код должны быть размещены в соответствующем, признанном, общедоступном репозитории. Если репозитория, специфичного для данных, не существует, авторы должны размещать свои наборы данных в общем репозитории, например, Dryad (репозиторий) или Figshare .

Журнал археологической науки

Журнал археологической науки имеет политику раскрытия данных по крайней мере с 2013 года. Их политика гласит, что «все данные, относящиеся к статье, должны быть доступны в дополнительных файлах или размещены во внешних репозиториях и связаны внутри статьи. Политика рекомендует размещать данные в репозитории, например, в Archaeology Data Service , Digital Archaeological Record или PANGAEA . Исследование 2018 года показало, что уровень доступности данных составляет 53%, что отражает либо слабое соблюдение этой политики, либо неполное понимание редакторами, рецензентами и авторами того, как ее интерпретировать и реализовывать. [12]

Политика финансирующих агентств

В Соединенных Штатах Национальный научный фонд (NSF) ужесточил требования к архивированию данных. Исследователи, желающие получить финансирование от NSF, теперь обязаны подавать план управления данными в качестве двухстраничного приложения к заявке на грант. [13]

Инициатива NSF Datanet привела к финансированию проекта Data Observation Network for Earth ( DataONE ), который обеспечит архивирование научных данных для экологических и природоохранных данных, полученных учеными по всему миру. Заявленная цель DataONE — сохранение и предоставление доступа к многомасштабным, многопрофильным и многонациональным данным. Сообщество пользователей DataONE включает ученых, менеджеров экосистем, политиков, студентов, преподавателей и общественность.

Немецкий закон DFG требует, чтобы исследовательские данные хранились в собственном учреждении исследователя или в соответствующей общенациональной инфраструктуре в течение как минимум 10 лет. [14]

Британский центр цифрового курирования ведет обзор политик спонсоров в отношении данных. [15]

Библиотека данных

Репозиторий данных и архивный репозиторий

Исследовательские данные архивируются в библиотеках данных или архивах данных . Библиотека данных , архив данных или репозиторий данных — это набор числовых и/или геопространственных данных для вторичного использования в исследованиях. Библиотека данных обычно является частью более крупного учреждения (академического, корпоративного, научного, медицинского, государственного и т. д.), созданного для архивирования исследовательских данных и обслуживания пользователей данных этой организации. Библиотека данных, как правило, размещает локальные коллекции данных и предоставляет доступ к ним с помощью различных средств ( CD- / DVD -ROM или центральный сервер для загрузки). Библиотека данных также может поддерживать подписки на лицензированные ресурсы данных для своих пользователей, чтобы получить доступ к информации. То, будет ли библиотека данных также считаться архивом данных, может зависеть от объема уникальных фондов в коллекции, от того, предлагаются ли услуги долгосрочного хранения и от того, обслуживает ли она более широкое сообщество (как это делают национальные архивы данных). Большинство публичных библиотек данных перечислены в Реестре репозиториев исследовательских данных .

Важность и услуги

В августе 2001 года Ассоциация научных библиотек (ARL) опубликовала отчет [16], в котором представлены результаты опроса учреждений-членов ARL, занимающихся сбором и предоставлением услуг для числовых ресурсов данных.

Библиотечная служба, предоставляющая поддержку на институциональном уровне для использования числовых и других типов наборов данных в исследованиях. Среди видов поддержки, которые обычно доступны:

  • Справочная помощь — поиск числовых или геопространственных наборов данных, содержащих измеримые переменные по определенной теме или группе тем, в ответ на запрос пользователя.
  • Инструктаж для пользователей — предоставление практического обучения группам пользователей поиску ресурсов данных по определенным темам, способам загрузки данных и их считывания в электронные таблицы, статистические данные, базы данных или пакеты ГИС, способам интерпретации кодовых книг и другой документации.
  • Техническая помощь — включая упрощение процедур регистрации, устранение неполадок с набором данных, таких как ошибки в документации, переформатирование данных в формат, с которым может работать пользователь, а также помощь со статистической методологией.
  • Разработка и управление коллекциями — приобретение, поддержка и управление коллекциями файлов данных, используемых для вторичного анализа местным сообществом пользователей; приобретение подписок на институциональные данные; выполнение функций представителя сайта для поставщиков данных и национальных архивов данных учреждения.
  • Службы сохранения и обмена данными — действуют по стратегии сохранения наборов данных в коллекции, например, обновление носителей и миграция формата файлов; загружают и ведут записи об обновленных версиях из центрального репозитория. Также помогают пользователям в подготовке исходных данных для вторичного использования другими; либо для размещения в центральном или институциональном репозитории, либо для менее формальных способов обмена данными. Это может также включать разметку данных в соответствующем стандарте XML, например, Инициативе по документированию данных, или добавление других метаданных для облегчения онлайн-обнаружения.

Примеры библиотек данных

Естественные науки

Следующий список относится к архивам научных данных.

Социальные науки

В социальных науках библиотеки данных называются архивами данных. [17] Архивы данных — это профессиональные учреждения по сбору, подготовке, сохранению и распространению социальных и поведенческих данных. Архивы данных в социальных науках появились в 1950-х годах и воспринимались как международное движение:

К 1964 году Международный совет по социальным наукам (ISSC) спонсировал вторую конференцию по архивам данных по социальным наукам и имел постоянный Комитет по данным по социальным наукам, оба из которых стимулировали движение архивов данных. К началу двадцать первого века большинство развитых стран и некоторые развивающиеся страны организовали формальные и хорошо функционирующие национальные архивы данных. Кроме того, в кампусах колледжей и университетов часто есть «библиотеки данных», которые предоставляют данные своим преподавателям, сотрудникам и студентам; большинство из них несут минимальную архивную ответственность, полагаясь на эту функцию на национальное учреждение (Rockwell, 2001, стр. 3227). [18]

  • re3data.org — глобальный реестр репозиториев исследовательских данных, индексирующий архивы данных по всем дисциплинам: http://www.re3data.org
  • Членами CESSDA являются архивы данных и другие организации, которые архивируют данные по социальным наукам и предоставляют данные для вторичного использования: https://www.cessda.eu/About/Consortium
  • Консорциум европейских архивов данных по социальным наукам: http://www.cessda.org/
  • Финский архив социальных наук (FSD): http://www.fsd.uta.fi/
  • Архив датских данных: http://www.sa.dk/content/us/about_us Архивировано 29 декабря 2014 г. на Wayback Machine ; конкретная страница (только на датском языке): https://web.archive.org/web/20150318230743/http://www.sa.dk/dda/default.htm
  • Межуниверситетский консорциум политических и социальных исследований: http://www.icpsr.umich.edu/
  • Центр исследования общественного мнения имени Ропера: https://ropercenter.cornell.edu/
  • Архив данных по социальным наукам: http://dataarchives.ss.ucla.edu/
  • Корнелльский центр социальных наук: https://socialsciences.cornell.edu/ciser-data-and-reproduction-archive

Смотрите также

Ссылки

  1. ^ «Политика ссылок на данные и архивирования данных для публикаций AGU» [1]
  2. ^ «Дело в пользу должной осмотрительности при использовании эмпирических исследований при формировании политики» Брюса Маккалоу и Росса Маккитрика. [2]
  3. ^ "Data Sharing and Replication" веб-сайт Гари Кинга Архивировано 28.03.2007 на Wayback Machine
  4. ^ Подтверждающие данные и материалы
  5. ^ Политика архивирования данных
  6. ^ Политика архивирования данных
  7. ^ «Доступность данных и материалов: политика журнала Nature»
  8. ^ "Руководство по правилам публикации журналов Nature" (PDF) . 14 марта 2007 г.
  9. ^ "Общая политика журнала науки"
  10. ^ «Подготовка вашего вспомогательного онлайн-материала»
  11. ^ "Обмен данными и добыча данных"
  12. ^ Марвик, Бен; Бирч, Сюзанна Э. Пилаар (5 апреля 2018 г.). «Стандарт научного цитирования археологических данных как стимул к обмену данными». Advances in Archaeological Practice . 6 (2): 125–143. doi : 10.1017/aap.2018.3 .
  13. ^ «NSF попросит каждого заявителя на грант предоставить план управления данными»
  14. ^ «Руководящие принципы DFG по обработке исследовательских данных»
  15. ^ «Обзор политик спонсоров в отношении данных | Digital Curation Centre»
  16. ^ SPEC Kit 263: Продукты и услуги числовых данных
  17. ^ Уайт, Ховард Д. (1977). Машиночитаемые данные по социальным наукам. Drexel Library Quarterly 13 (январь 1977):1-110.
  18. ^ Rockwell, RC (2001). Архивы данных: Международные. IN: Smelser, NJ & Baltes, PB (ред.) Международная энциклопедия социальных и поведенческих наук (т. 5, стр. 3225-3230). Амстердам: Elsevier

Примечания

Дальнейшее чтение

  • Clubb, J., Austin, E., and Geda, C. «Обмен исследовательскими данными в социальных науках». В книге « Обмен исследовательскими данными » , S. Fienberg, M. Martin, and M. Straf, Eds. National Academy Press, Washington, DC, 1985, 39-88.
  • Geraci, D., Humphrey, C., and Jacobs, J. Data Basics . Канадская библиотечная ассоциация, Оттава, Онтарио, 2005.
  • Хайм, Кэтлин М. «Потребности в общественной научной информации для числовых данных: эволюция инфраструктуры международного архива данных». Collection Management 9 (весна 1987 г.): 1-53.
  • Мартинес, Луис и Макдональд, Стюарт, «Поддержка локальных пользователей данных в академическом сообществе Великобритании». Ариадна , выпуск 44, июль 2005 г.
  • См. Библиографию избранных работ IASSIST, заархивированную 3 марта 2016 г. на Wayback Machine , где вы найдете статьи, прослеживающие историю библиотек данных и их связь с профессией архивиста, начиная с 1960-х и 1970-х годов и до 1996 года.
  • См. статьи IASSIST Quarterly с 1993 года по настоящее время, посвященные библиотекам данных, архивам данных, поддержке данных и информационным технологиям для социальных наук.
  • Репозиторий машинного обучения Калифорнийского университета в Ирвайне

Ассоциации

  • IASSIST (Международная ассоциация по информации и сервисным технологиям в области социальных наук)
  • DISC-UK (Комитет специалистов по информации данных — Соединенное Королевство)
  • APDU (Ассоциация пользователей публичных данных - США)
  • CAPDU (Канадская ассоциация пользователей публичных данных)
Retrieved from "https://en.wikipedia.org/w/index.php?title=Research_data_archiving&oldid=1225005708#Data_library"