Открытая наука

Открытые научные данные – вид открытых данных, представляющих собой результаты научных исследований, доступных в Интернете для свободного скачивания, изменения и распространения без каких-либо юридических или финансовых ограничений.

В «Руководстве по открытым данным» представлено следующее определение: «Открытые данные – это данные, которые могут свободно использоваться, повторно использоваться и перераспределяться кем-либо – подчиняются только самому требованию атрибуции и совместного использования». Открытые данные существуют во многих формах, таких как наборы данных, результаты опроса и метаданные. Данные должны существовать в форме, которая может использоваться для дублирования и проверки результатов исследований

Открытые данные могут различаться в зависимости от области исследования. Так данные о точных науках включают компьютерное моделирование, моделирование и лабораторные измерения, а данные, полученные в социальных науках, могут включать в себя демографические данные, экономические показатели, результаты опроса и интервью. Важно помнить, что данные могут принимать множество общих форм, включая изображения, численные измерения, программное обеспечение и код.

В Пантонских принципах, которые представляют собой набор рекомендаций по опубликованию научных данных, в частности, говорится о том, что научные данные должны представлять собой общественное достояние и публиковаться с соответствующей лицензией таким образом, чтобы предоставлять возможность их повторного использования.

Для того, чтобы получить ожидаемые результаты от использования открытых данных исследований необходимо использовать менеджмент (план управления) цифровыми данными исследования (Research Data Management) с учетом средств их хранения, совместного использования и распространения, под которым понимается организация данных от момента их вовлечения в исследовательский цикл до распространения и архивирования результатов. Разработка плана управления научными данными – необходимое требование, выполнение которого продиктовано политиками на уровне государств, финансирующих организаций, университетов, журналов.

Планы управления научными данными, созданными в цифровом формате, помогают исследователям документировать и устанавливать: стандарты метаданных, которые будут использоваться для форматов данных; способы хранения и резервного копирования; будущий доступ к исследовательским данным для совместного использования и / или повторного использования (как, когда, кому); процедуры и положения по удержанию и уничтожению; этические вопросы и вопросы интеллектуальной собственности (ограничения, эмбарго, конфиденциальность); документацию, описывающую все вышесказанное.

Важным является вопрос о выборе способа публикации данных. Наиболее распространенными являются:

  • загрузка данных как дополнительных материалов к публикации в журнале (если журнал имеет политику по распространению данных);
  • депонирование в репозитории данных (тематических, институциональных или мультидисциплинарных, например, re3data.org, Dryad, Figshare и др.);
  • размещение на сайтах (персональных, проекта, лаборатории);
  • публикация в журналах для данных
  • неофициальное распространение (персонально по запросу других исследователей).


Примером журналов, в которые могут загружаться данные как дополнительные материалы к публикации, могут служить журналы PLOS, политика доступности данных применяется ко всем из них.

Примером организации, реализующей концепцию открытого доступа к научным данным, служит агентство NASA, имеющее длинную историю хранения огромных массивов научных данных, выкладываемых в свободном доступе в Интернете.  Открытые данные, инструменты и ресурсы NASA размещены на платформе NASA’s Open Data Portal.  В 2014 году CERN, европейская организация по ядерным исследованиям, запустила портал – CERN Open Data Portal, где предоставляет всем желающим доступ к постоянно растущему набору открытых данных, полученных в результате исследований. Вся информация об экспериментах большого адронного коллайдера публикуется в открытом доступе для всех, кто хочет использовать эту информацию.

Связанные открытые данные (Linked Open Data, LOD) можно определить как связанные наборы данных, опубликованные в RDF-формате в соответствии с концепцией семантического веба с использованием унифицированного идентификатора ресурсов URI для идентификации и связывания между собой элементов, которые они содержат, и доступные для свободного использования всеми пользователями без каких-либо ограничений в виде авторских прав, патентов и других механизмов контроля.

Депонирование данных может осуществляться в институциональные репозитории. Основными участниками движения открытых данных за рубежом являются университеты. Они выкладывают свои данные в виде связанных открытых данных. В качестве примеров можно привести ведущие университеты Европы и США, реализующие проекты, использующие принципы семантического веба и связанных данных:

  • Университет Мюнстера поддерживает проект LODUM – портал, содержащий различную информацию о научной и образовательной деятельности в машиночитаемом формате RDF;
  • Оксфордский университет достаточно давно использует для публикации результатов своей деятельности открытое хранилище;
  • Университет Саутгемптона предоставляет доступ к своему порталу открытых данных;
  • Университет Бонна разрабатывает открытую платформу для публикации открытой информации;
  • Гарвардский университет предоставляет доступ к публикациям в открытом виде при помощи инструмента HarvardDataverse и др.

Мультидисциплинарные и тематические репозитории открытых данных:

  • re3data.org  – глобальный реестр репозиториев научных данных по всем дисциплинам. Был запущен в мае 2013 года. В настоящее время предоставляет информацию о более 1200 репозиториях;
  • Dryad  – комплекс технологий Dryad, позволяют анализировать большие объемы информации в системах добычи данных, обработки изображений и потоков, а также в некоторых видах научных вычислительных приложений;
  • Zenodo  – открытая платформа, позволяющая исследователям совместно использовать и сохранять результаты научной деятельности;
  • Figshare – хранилище, которое позволяет загружать, хранить и открыто делиться результатами исследований. Новая услуга обмена данными Wiley на базе Figshare позволяет загружать данные в процессе подачи рукописи в систему ScholarOne Manuscripts. Если статья принята к публикации, данные будут автоматически переданы и в хранилище данных figshare. Ссылка на файл на платформе figshare появляется в статье, опубликованной на Wiley Online Library;
  • hepdata  (High Energy Physics Data Repository)  – уникальное хранилище данных экспериментальной физики элементарных частиц;
  • World Glacier Monitoring Service   – проект создан Всемирной службой мониторинга ледников;
  • Университет Питтсбурга поддерживает проект Tycho: DataforHealth. Его цель – упростить доступ к публичным данным здравоохранения. В настоящее время база включает все известные данные по заболеваниям в США с 1888 по 2014 гг. с детализацией по отдельным штатам до недели и до одного заболевшего.
  • Kaggle  – крупнейшая в мире площадка, где постоянно проходит существенное количество соревнований по Data Science тематике, в которых коллективный разум тысяч участников генерирует большое количество решений реальных прикладных задач;
  • CitEc  – сервис инфраструктуры RePEc, позволяющий обрабатывать цитирования в научных публикациях.
  • MENDELEY DATA – защищенный облачный сервис для распространения и цитирования массивов данных, содержит датасеты научных публикаций. Кроме того, собирает данные о научных оценках публикаций автора, о его реакции на эти оценки, а также о его оценках чужих публикаций и реакциях других ученых на оценки данного автора.

Распространение открытых данных, в том числе и научных, базируется на открытых технологиях, среди которых можно назвать такие направления, как открытое программное обеспечение, открытые стандарты, открытые архивы, открытое образование, открытая наука и др.