- Главная
- /
- Лаборатория научных коммуникаций
- /
- Работа с научными данными
- /
- Хранение данных
Хранение данных
План хранения данных исследований
План хранения данных исследований имеет важное значение как в краткосрочной, так и в долгосрочной перспективе. Краткосрочный план рассматривает, как хранить данные во время исследования, тогда как долгосрочный план определяет, как и где хранить данные для архивирования и повторного использования в будущем после завершения исследовательской деятельности.
Носители информации
Доступность данных зависит от качества носителей информации и наличия соответствующего оборудования для считывания данных.
Оптические носители подвержены повреждениям из-за неправильного обращения, изменений температуры, относительной влажности, качества воздуха и условий освещения. Файлы данных следует копировать на новый носитель каждые 2-5 лет после их первого создания.
Магнитные носители, такие как жесткие диски или ленты, также подвержены физическому износу и должны регулярно переноситься на новые носители.
Службы обмена файлами, такие как Google Docs, OneDrive и Dropbox, могут не подходить для конфиденциальных данных.
Рекомендуется, чтобы любая стратегия хранения, даже для краткосрочного проекта, включала как минимум две разные формы хранения, например, на жестком диске и на DVD. Какая бы форма ни была выбрана, следует периодически проверять целостность данных.
Физические условия для хранения данных
Для этой цели должны быть пригодны участки и помещения, предназначенные для хранения цифровых или нецифровых данных. Условия, в которых хранятся данные, существенно влияют на их долговечность.
Печатные материалы и фотографии подвержены порче под воздействием солнечного света и химических веществ. Для подготовки бумажных материалов к хранению или копий оригиналов следует использовать качественные носители.
Цифровые данные должны храниться надежно, безопасно и с возможностью восстановления. Обеспечение безопасности данных имеет решающее значение для любого исследовательского проекта. Хорошая стратегия хранения и резервного копирования поможет предотвратить возможную потерю данных.
Обеспечение безопасности данных требует уделить внимание физической безопасности, сетевой безопасности, а также безопасности компьютерных систем и файлов для предотвращения несанкционированного доступа или нежелательных изменений данных, раскрытия или уничтожения данных. Меры по обеспечению безопасности данных должны быть пропорциональны характеру данных и связанным с ними рискам.
Шифрование можно использовать для безопасного хранения и отправки файлов. Регулярное резервное копирование защищает от случайной потери данных, и эту процедуру можно легко автоматизировать. Данные должны быть надежно уничтожены, как только они становятся не нужны, так как простое удаление файлов и переформатирование жесткого диска не помешает восстановлению данных.
Файл-менеджмент
Надлежащие методы управления файлами необходимы для того, чтобы помочь вам находить и эффективно использовать ваши данные. Файлы и папки с исследовательскими данными должны быть помечены и систематизированы, чтобы их можно было идентифицировать и сделать доступными для нынешних и будущих пользователей. Важно, чтобы файлы данных можно было отличить друг от друга в пределах папки, в которой они находятся. Их можно сортировать в логической последовательности, что позволит избежать случайной перезаписи или удаления. И последнее, но не менее важное: правильное присвоение имен файлам данных предотвращает путаницу, когда несколько человек работают над общими файлами.
Наименования файлов
Существует три основных критерия, о которых нужно подумать, когда необходимо решить, как назвать и пометить файлы с исследовательскими данными.
Во-первых, это организация. Это важно для будущего доступа и поиска, поэтому необходимо учитывать любые ограничения и условия при наименовании файлов, применяемые системой, в которой вы храните свои данные.
Во-вторых, это контекст. Это может включать специфичную для контента или описательную информацию, независимо от того, где хранятся данные.
И третье — постоянство. Вы должны выработать единый подход к наименованию файлов и последовательно применять его, включая одну и ту же информацию в одном и том же порядке.
Существует ряд общих элементов, которые следует учитывать при разработке стратегии наименования файлов. К ним относятся номер версии, дата создания, имя создателя, описание контента, название группы или отдела, связанного с данными, дата публикации и номер проекта.
Имена файлов должны быть короткими и релевантными. Как правило, длина около 25 символов достаточна для сбора достаточного количества описательной информации.
Не стоит использовать специальные символы в имени файла, так как они часто применяются для специальных задач в разных операционных системах.
Лучше использовать символы подчеркивания вместо точек или пробелов, и, если вы включаете даты, вы должны форматировать их последовательно. Также важно постоянно различать разные версии ваших файлов данных. Это гарантирует наличие четкого контроля, позволяющего отслеживать эволюцию файлов данных и при необходимости возвращаться к более ранним версиям. Обычная форма для обозначения версий файла данных состоит в использовании порядковых номеров, таких как 1, 2 и 3, для основных изменений версии и десятичных дробей для незначительных изменений. Например, версия 1.1.
Форматы файлов
Выбор форматов файлов для цифровых данных следует определять на ранней стадии исследовательского цикла, чтобы гарантировать, что они подходят для всех целей, которые могут быть поставлены.
При выборе формата файлов вы можете задать себе следующие вопросы:
- Какой формат лучше всего подходит для создания данных?
- Какой формат лучше всего подходит для анализа данных и других запланированных целей?
- Какой формат лучше всего подходит для долгосрочной устойчивости и обмена данными?
- Стоит ли выбрать открытый или закрытый формат?
- Формат должен быть с потерями или нет?
- Подходит ли формат для конвертации?
Формат и программное обеспечение, в котором создаются исследовательские данные, обычно зависят от того, как исследователи собирают и анализируют данные, от используемого оборудования или наличия программного обеспечения. Это также может быть определено стандартами и традициями конкретной дисциплины.
Например, форматы изображений, аудио- и видеоданных могут определяться типом используемой камеры или записывающего оборудования. Если изначально не будут записаны высококачественные данные, их нельзя будет обновить позже. Разумным было бы собирать данные с максимальной точностью, поскольку их всегда можно понизить в качестве и уменьшить в размере, но не наоборот.
Числовые данные обычно помещаются в электронные таблицы или базы данных, где информация вносится относительно переменных или измерений. Для опросов по социальным наукам стандартным форматом файлов часто является SPSS из-за его возможностей статистического анализа. В экологических исследованиях более широко используются CSV или MS Excel, являющиеся стандартным форматом ввода данных для многих аналитических пакетов.
Качественные исследовательские данные, такие как интервью, могут быть первоначально собраны в виде цифровых аудиозаписей, например, в формате WAV или MP3, а затем транскрибированы в виде текстовых файлов, например, в формате MS Word.
Когда речь идет о долгосрочной доступности и удобстве использования исследовательских данных, необходимы устойчивые форматы цифровых файлов и программное обеспечение. Для многих форматов существует опасность устаревания в будущем, что сделает данные нечитаемыми. Несмотря на обратную совместимость многих программных пакетов для импорта данных, созданных в предыдущих версиях программного обеспечения, и функциональную совместимость между конкурирующими популярными программами, наиболее безопасным способом гарантировать долгосрочный доступ к данным является преобразование данных в стандартные или открытые форматы.
Проприетарные форматы принадлежат компании, которая заявляет права интеллектуальной собственности на использование программного обеспечения путем предоставления лицензий. Стандартные форматы включают широко используемые проприетарные программные продукты Microsoft Office (MS Word, Rich Text Format и MS Excel) или популярный формат SPSS. Они, вероятно, будут иметь долгосрочную устойчивость, поскольку они так широко используются.
Примерами открытых файловых форматов являются PDF/A, CSV, TIFF, формат OpenDocument (ODF) и XML.
Форматы файлов также могут быть с потерями или без потерь. Форматы с потерями экономят место, удаляя подробную информацию, которая считается неважной. Например, формат JPEG с потерями удаляет мелкие детали изображений, а формат TIFF без потерь сохраняет все детали. Кроме того, многократное редактирование и сохранение файлов в формате с потерями приводит к большей потере информации.
Хотя исследователи используют наиболее подходящие форматы данных и программное обеспечение в соответствии с запланированным анализом во время своих исследований, после завершения анализа данных и подготовки данных для долгосрочного хранения необходимо рассмотреть вопрос о преобразовании данных. Использование открытых, стандартных, взаимозаменяемых и долговечных форматов позволяет избежать невозможности использования данных в будущем. Это также рекомендуется для любых резервных копий. Для долгосрочного цифрового хранения центры обработки данных и архивы хранят данные в открытых и стандартных форматах.
Лучшие практики выбора формата файла включают:
- непатентованный – открытый документированный стандарт
- незашифрованный – ни полностью, ни частично
- несжатый — без сжатия с потерями или проприетарного сжатия
- без встроенных файлов, программ или скриптов
- без защиты паролем
- с использованием распространенных кодировок символов — Unicode, UTF-8
Рекомендуемые форматы цифровых данных*:
- Текст, документация, сценарии: XML, PDF/A, HTML, обычный текст.
- Неподвижное изображение: TIFF, JPEG 2000, PNG, JPEG/JFIF, DNG (цифровой негатив), BMP, GIF.
- Геопространственные: Shapefile (SHP, DBF, SHX), GeoTIFF, NetCDF.
- Графическое изображение:
- растровые форматы: TIFF, JPEG2000, PNG, JPEG/JFIF, DNG, BMP, GIF.
- векторные форматы: масштабируемая векторная графика, формат обмена чертежами AutoCAD, инкапсулированные постскриптумы, файлы форм.
- картографические: Наиболее полные данные, GeoTIFF, GeoPDF, GeoJPEG2000, Shapefile.
- Аудио: WAVE, AIFF, MP3, MXF, FLAC.
- Видео: MOV, MPEG-4, AVI, MXF.
- База данных: XML, CSV, TAB.
*Адаптировано из Заявления о рекомендуемых форматах Библиотеки Конгресса и Архива данных Великобритании.
Конфиденциальные и личные данные
Вопрос о хранении данных, которые считаются конфиденциальными, возможно, потребуется решить во время процедур получения согласия, чтобы проинформировать людей, которым принадлежат данные, о том, как и почему данные будут храниться.
С юридической точки зрения к данным, содержащим личную информацию, следует относиться с большей осторожностью, чем к данным, которые ее не содержат. Личная информация может быть удалена из файлов данных и храниться отдельно при более строгих мерах безопасности. Любые цифровые файлы или папки, содержащие конфиденциальную информацию и данные, должны быть зашифрованы. Подписанные формы согласия или другие нецифровые записи могут содержать идентифицирующую информацию и должны храниться отдельно от файлов данных, хотя при необходимости система анонимной идентификации может помочь связать два набора материалов вместе.