Перейти к содержимому

Научная библиотека БНТУ

Анализ и визуализация данных

Анализ и визуализация данных используются для выявления закономерностей, проверки гипотез и иллюстрации результатов. Во время этого процесса важно записывать свои методы, документировать этапы обработки данных, что позволит сделать ваши данные воспроизводимыми.

Типичный анализ данных может включать:

  • Обработку данных: выбор подмножества данных для анализа, объединение нескольких наборов данных или преобразование данных.
  • Графический анализ: облегчает просмотр закономерностей и может помочь в выявлении значительно выделяющихся величин.
  • Статистический анализ: для анализа экспериментальных данных используется обычная статистика; описательная статистика используется для анализа данных наблюдений или описательных данных.

При описании процесса создания производных продуктов данных в документацию данных или сопутствующий файл метаданных следует включить следующую информацию:

  1. Описание первичных входных данных и производных данных
  2. Зачем необходима обработка
  3. Этапы обработки данных и предположения
    • Предположения о первичных входных данных
    • Дополнительные требования к входным данным
    • Алгоритм обработки
    • Допущения и ограничения алгоритма
    • Опишите, как применяется алгоритм (например, вручную, с использованием программных средств)
  4. Как оценивается результат обработки
    • Как выявляются и устраняются проблемы
    • Инструменты, используемые для оценки результатов
    • Условия, при которых требуется повторная обработка
  5. Как оценивается неопределенность в обработке
    • Предоставьте числовую оценку неопределенности
  6. Как техника обработки меняется со временем

В ходе проекта могут быть созданы различные типы новых данных, например, визуализации, графики, статистические выходные данные, новый набор данных, созданный путем интеграции нескольких наборов данных, и т. д. По возможности документируйте свой рабочий процесс (процесс, используемый для очистки, анализа и визуализации данных), отмечая, какие продукты данных создаются на каждом этапе. В зависимости от характера проекта это может быть компьютерный сценарий или заметки в текстовом файле, документирующие использованный вами процесс (т. е. метаданные процесса). Если рабочие процессы сохраняются вместе с производными данных, они позволяют воспроизвести результат.

Воспроизводимость данных

При поиске данных, будь то локально на своем компьютере или во внешних репозиториях, можно использовать различные условия поиска. Кроме того, данные часто хранятся в базах данных или центрах обмена информацией, где для доступа к данным требуется запрос. Чтобы воспроизвести результаты поиска и получить похожие, если не одинаковые результаты, необходимо задокументировать, какие термины и запросы использовались.

  • Обратите внимание на расположение исходного набора данных
  • Какие условия поиска использовались
  • Задокументируйте любые дополнительные параметры, которые использовались, например, любые используемые элементы управления (раскрывающиеся списки, переключатели, формы ввода текста).
  • Задокументируйте термин запроса, который использовался, где это возможно
  • Обратите внимание на версию базы данных и/или дату, чтобы вы могли ограничить количество вновь добавленных наборов данных с момента последнего выполнения запроса.
  • Обратите внимание на название веб-сайта и URL-адрес, если это применимо.

Следующие действия помогут вам выбрать программное обеспечение, наиболее подходящее для работы с вашими данными.

  1. Определите, чего вы хотите достичь (обнаружить данные, проанализировать данные, написать статью и т. д.)
  2. Определите необходимые функции программного обеспечения для вашего проекта (например, функциональные требования).
  3. Определите требуемые логистические характеристики программного обеспечения, такие как лицензирование, стоимость, временные ограничения, опыт пользователей и т. д. (т. е. нефункциональные требования).
  4. Определите, какое программное обеспечение использовалось другими с аналогичными требованиями
    • Спросите у коллег
    • Узнайте, какое программное обеспечение используется вашим учреждением
    • Поиск в Интернете (например, службы каталогов, сайты с открытым исходным кодом, форумы)
    • Последующая независимая оценка
  5. Создайте список программ-кандидатов
  6. Оценить список; вернуться к шагу 1 по мере необходимости
  7. Насколько это возможно, попробуйте несколько программ-кандидатов, которые кажутся многообещающими.
Некоторые примеры программ для работы с данными

Google Data Studio. Этот сервис предназначен для создания информационных панелей и отчетов из нескольких источников данных. Основное внимание уделяется источникам Google, таким как Google Sheets, Google Analytics и BigQuery, но также поддерживаются некоторые другие источники, такие как базы данных MySQL и PostgreSQL.

Data Hub – многофункциональная платформа для хранения, обработки и анализа данных.

Обработка статистических данных

R Project для статистических вычислений – бесплатное статистическое программное обеспечение с открытым исходным кодом. Совместимость с Windows, Mac и Linux.

Jamovi – бесплатное статистическое программное обеспечение с открытым исходным кодом, основанное на R для вычислений, но с графическим пользовательским интерфейсом, аналогичным SPSS Statistics. Совместимость с Windows, Mac и Linux.

Графики и визуализация

Plotly работает на основе браузера. Можно загружать или вводить данные и создавать привлекательные интерактивные графики, а также публично делиться графиками и данными с другими. API доступны для Matlab, Python и R. Есть возможность бесплатного использования

VUE (Visual Understanding Environment) – бесплатное программное обеспечение с открытым исходным кодом для создания диаграмм и концептуальных карт. Он гибкий и свободный по форме, что делает его отличным инструментом для качественных исследований или составления ментальных карт. Совместимость с Windows, Mac и Linux.

Редактор графиков yEd – отображает блок-схемы, сети и диаграммы. Можно добавлять метки диаграмм (включая греческие символы и математические символы) с помощью HTML. Диаграммы можно экспортировать в несколько растровых и векторных форматов файлов.

Извлечение данных

Tabula – извлекает таблицы данных из PDF-файлов. Совместимость с Windows, Mac и Linux.

WebPlotDigitizer – веб-инструмент для извлечения данных из графиков, изображений и карт.

Географические и картографические инструменты

BatchGeo – преобразовывает наборы адресов в карты. Вы можете увидеть нужное местоположение на карте, отфильтровать необходимые данные в таблице и углубиться в изучение информации на своей карте.

OpenStreetMap создана сообществом картографов, которые добавляют и поддерживают данные о различных объектах по всему миру.

Программное обеспечение для качественного анализа данных (CAQDAS) – инструменты, которые помогают с качественным исследованием, таким, как транскрипция, кодирование и интерпретация текста, рекурсивная абстракция, анализ содержания, анализ речи и т.д.

Taguette — это бесплатный инструмент для качественных исследований с открытым исходным кодом, который работает во всех операционных системах и обеспечивает пользователям: импорт различных форматов файлов (PDF,Word (.docx), текстовых файлов (.txt), HTML, EPUB, MOBI, открытых документов (.odt) и форматированных текстовых файлов (.rtf). Taguette позволяет работать совместно с другими зарегистрированными пользователями.

Transana — это инструмент качественного анализа данных для текста, изображений, аудио- и видеоданных, который включает в себя инструменты транскрипции аудио-видео. Помимо кодирования, создания заметок и поиска, он позволяет синхронизировать несколько одновременных медиафайлов, что означает, что до четырех медиафайлов об одном и том же событии могут быть синхронизированы и воспроизведены одновременно.