В чем различие между данными и метаданными кратко

Обновлено: 05.07.2024

Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных (например, XML-схема).

Различие между данными и метаданными

Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:

Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).

Использование

В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.

Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.

Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.

Редактировать метаданные графических файлов можно в специальных программах для работы с метаданными.

Классификация метаданных

Метаданные можно классифицировать по:

Формат метаданных

Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.

Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).

Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.

Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)

Многие люди путаются между понятиями данных и метаданных. Хотя оба являются формой данных, они имеют различное использование и разные спецификации. Где Данные может быть просто частью информации, списком измерений или наблюдений, рассказом или описанием определенной вещи. Метаданные определяет релевантную информацию о данных, которая помогает идентифицировать характер и особенности данных.

Хотя между данными и метаданными не так много различий, но в этой статье я рассмотрел основные из них в сравнительной таблице, показанной ниже.

Сравнительная таблица

Основа для сравнения ДанныеМетаданные
БазовыйДанные - это набор фактов и статистических данных, которые можно использовать, ссылаться или анализировать. Метаданные описывают соответствующую информацию о данных.
ИнформацияДанные могут быть информативными, а могут и не быть.Метаданные всегда информативны.
ОбработкаДанные могут быть обработаны или нет.Метаданные - это всегда обработанные данные.

Определение данных

В СУБД, то содержание в связь (таблица) - это данные базы данных. В DML Операторы (язык манипулирования данными) добавляют или обновляют данные в базе данных. С точки зрения программирования, если вы объявляете класс и начинаете создавать экземпляры этого класса, эти экземпляры становятся постоянными данными для этого класса.

Давайте рассмотрим простой пример: если вы создаете случайный отчет в MS Word, тогда содержимое документа - это данные, а имя файла, описание хранилища, тип файла, размер файла - все становится метаданными для данные вашего отчета.

Определение метаданных

Метаданные описывается как данные о данных. Это означает, что метаданные содержат информативное и актуальное описание исходных данных. Это помогает пользователю узнать характер данных и помогает пользователю принять решение, требуются ли ему эти данные или нет.

В СУБД, метаданные хранятся в словарь с данными, и каждый DDL операторы обновляют метаданные в словаре данных. В СУБД метаданные содержат имя отношений, имя атрибутов, их типы, ограничения пользователя, информацию о целостности и информацию о хранении.

Давайте возьмем метаданные на более простом аккаунте. Например, если вы щелкнули любое изображение с камеры, то информация, связанная с изображением, как размер изображения, разрешение в пикселях, цвета в изображении, все это метаданные вашего изображения. Поскольку он описывает информацию о вашем изображении, где изображение - ваши данные.

Вы помните свои библиотечные карточки, это тоже своего рода метаданные? Где книги - это данные, а библиотечный билет, по которому вы выпускаете книги, - это метаданные. Потому что он содержит данные о книге, такие как дата выпуска, дата возврата, номер книги, автор и издатель книги. Если взять еще одно, фильм - это данные, а плакат фильма - это метаданные, которые предоставляют информацию об этом фильме.

Вывод

Метаданные несут соответствующую информацию о данных. Следовательно, он создает способ получения правильных данных, что, в свою очередь, экономит время на поиск необходимых данных.

Метаданные (от лат. meta — цель, конечный пункт, предел, край и данные) — информация о другой информации, или данные, относящиеся к дополнительной информации о содержимом или объекте. Метаданные раскрывают сведения о признаках и свойствах, характеризующих какие-либо сущности, которые позволяют автоматически искать и управлять ими в больших информационных потоках.

Содержание

Базы данных

Такая информация часто используется в базах данных:

  • Метаданные — это субканальная информация об используемых данных.
  • Структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими. набор допустимых структурированных описаний, которые доступны в явном виде и предназначение которых может помочь найти объект. Термин используется в контексте поиска объектов, сущностей, ресурсов.
  • Данные из более общей формальной системы, заданную с описывающей свойства системы данных.
  • Информация о содержащейся на веб-странице свойств информации (создателе и т. п.). Пример: Имя автора правки в тексте. Этот термин в широком смысле слова используется для любой информации о данных: именах таблиц, колонок в таблице в реляционных базах данных, номер версии в файле программы (то есть как информативная часть в бинарном файле) и т. п [1] .

Различие между данными и метаданными

Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:

Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.

Редактировать метаданные графических файлов можно в специальных программах для работы с метаданными.

Классификация метаданных

Метаданные можно классифицировать по

Тремя наиболее используемыми классами метаданных являются:

  • Внутренние метаданные, описывающие структуру или составные части вещи, то, чем вещь является. Например, формат и размер файла.
  • Административные метаданные, требующиеся для процессов обработки информации, назначение вещи. Например, информация об авторе, редакторе, дата публикации и т. п.
  • Описательные метаданные, которые описывают природу вещи, её признаки. Например, набор связанных с информацией категорий, ссылки на другие вещи, связанные с данной.

Управление метаданными

Управление метаданными - процесс управления данными , связанными с информационными активами организации по обеспечению интеграции, доступа, совместного использования, анализа и пр. для достижения наилучших результатов организации.

Элементы управления метаданными


  • Metadata repositories (Репозиторий метаданных) - используется для хранения, документирования, анализа и управления метаданными. Содержит в себе все данные на протяжении всех этапов жизненного цикла проекта: разработка, тестирование, ввод в промышленную эксплуатацию.
  • Business glossary (Бизнес словарь) - используется для управления бизнес-терминами наряду с соответствующими определениями и отношениями между этими терминами.
  • Data lineage (Происхождение данных) - определяет происхождение данных, этапы преобразования и изменения данных, направление их движения.
  • Impact analysis (Анализ влияния) - предоставление обширной информации относительно зависимостей между данными с последующим влиянием на целевые показатели.
  • Rules management (Управление правилами) - автоматизация соблюдения бизнес-правил, которые привязаны к элементам данных и связанных с ними метаданных.
  • Semantic frameworks (Семантический фреймворк) - поддержка таксономии, ER-модели, онтологии, моделирования языков таких как RDF, OWL и UML.
  • Metadata ingestion and translation (Захват и передача метаданных) - технологии и коннекторы для различных источников данных: RDBMS, BI, DIS, XML, etc.

Источники метаданных


Примеры стандартов мета-моделей


Группировка метаданных


Практическое применение в Сбербанке

Основной целью создания единой базы метаданных является автоматизация и повышение качества бизнес-процессов [2] :

  • Снижение стоимости анализа и проектирования решений
  • Сокращение времени разработки и вывода кода на среды
  • Повышение качества продуктов
  • Контроль соответствия архитектурным требованиям

Единая база метаданных, объединяет результаты анализа и архитектуры проектных решений с метаданными реальных сред.



Аналитическое пространство, является высокоуровневым описанием тракта данных от систем источников до витрин. Разрабатывается на этапе анализа и проектирования решения.



Каталог информационных компонент, обеспечивает пользователя полной, оперативной и систематизированной информацией об используемых в комплексе ЦХД – объектах, связях между объектами, компонентах, метриках, размещении.

Наукометрия в широком смысле занята количественным изучением науки. По сложившейся практике ее обычно отождествляют с библиометрией - подразделом, изучающим научные публикации. В нашем руководстве слова наукометрия и библиометрия употребряются как синонимы. Подробнее о соотношении наукометрии, библиометрии, информетрии, киберметрии и прочих терминов можно прочесть здесь (pdf).

Публикации - главные артефакты в науке, именно они содержат научные результаты. Постоянное приращение, распространение и использование результатов исследований идет через систему научных публикаций, и многочисленные характеристики этой системы и ее объектов открывают безграничные возможности для изучения.

Все публикации как объекты можно представить в виде двух взаимосвязанных сущностей: это данные и метаданные. Под "данными" уместно понимать непосредственное содержание публикаций, т.е. новое научное знание. "Метаданные" - это данные, описывающие данные, и именно они и являются основным объектом изучения наукометрии, хотя в последние годы на фоне развития технологий и роста доступности полных текстов им тоже достается все больше внимания.

Основные метаданные схематично показаны на диаграмме:

Важнейший объект изучения наукометрии - списки литературы (цитирования) - находится на стыке данных и метаданных, ему мы посвятили отдельный раздел. Кроме того, специальный раздел расскажет об идентификаторах - особом виде метаданных, нужном для надежного различения объектов изучения - публикаций (DOI), авторов (ORCID и т.д.), журналов (ISSN), организаций (ROR) и т.д. Остальные важные типы метаданных мы описываем ниже.

Название публикации (title): используется для тематического анализа и классификации, а также для отделения одной публикации от другой. На практике для этого гораздо лучше использовать идентификаторы типа doi, если они имеются: во-первых, есть масса публикаций с одинаковыми названиями, во-вторых, в различных базах данных название одной и той же публикации может отличаться, особенно если содержит символы помимо цифр и стандартных латинских букв.

Аннотация (abstract) и авторские ключевые слова (author keywords) представляют краткое описание содержания научной работы и важны для тематического анализа, в том числе автоматизированного. Некоторые базы, в т.ч. Web of Science, самостоятельно дополняют ключевые словам, указанные самими авторами, еще и словами, определенными алгоритмом постфактум (т.н. keywords plus). Эти два вида ключевых слов рекомендуется не смешивать при анализе. В последнее время наряду с аннотацией в виде связного текста многие журналы требуют от авторов указать основные результаты в виде пунктов короткого списка, называемых highlights. Прочие новации (например, видеоаннотация) пока распространены меньше.

Сведения об источнике: для периодических изданий это название журнала или серии плюс идентификаторы (обычно ISSN для журналов, ISBN для книжных серий, а также префикс DOI), а также название издательства. Для книг - название издательства и идентификатор ISBN. Важно учитывать, что названия журналов часто меняются, а сами они сливаются и разделяются, что нередко приводит к обнулению журнальных метрик (импакт-фактор, квартили и т.д.), так как для новых или даже просто сменивших название журналов они начинают рассчитываться заново.

Выходные сведения: год выхода, том, номер, страницы, DOI (DOI+ISBN или только ISBN для книг). Год выхода позволяет проводить исследования во временном разрезе. К сожалению, в базах обычно не фиксируется информация о дате подачи рукописи для рассмотрения, но ее обычно можно узнать из полного текста или на сайте журнала. Номера страниц могут использоваться в т.ч. для фильтрации полноценных публикаций: можно учитывать только статьи более N страниц (но адекватное значение N очень отличается между дисциплинами, а на странице может быть разное число знаков). Для электронных публикаций, особенно журнальных, очень важен статус публикации: многие журналы сначала выкладывают принятые статьи на сайт, а уже потом выпускают их с присвоенным томом, номером, пагинацией (номерами страниц) и годом. Бывает, что год фактического опубликования онлайн-версии при окончательной публикации меняется на более поздний, что может быть очень важно при формальной оценке. Статус публикаций фиксируется в большинстве баз (early access в WoS, article-in-press в Scopus), и такие работы рекомендуется рассматривать отдельно.

Сведения о финансировании и иной поддержке (acknowledgements): большая часть научных публикаций в наши дни выходит в рамках различных научных проектов, прежде всего - грантов. Информация о такой поддержке указывается авторами в специальном разделе публикации, называемом acknowledgemens. Здесь указываются как источники финансирования (funding acknowledgements, включая номера грантов), так и благодарности за разнообразную нефинансовую помощь. Наличие информации о конкретных грантах в публикациях позволяет связать финансирование и результаты, что очень важно для научной политики. К acknowledgemets в ряде дисциплин (например, биомедицина и фармакология) примыкают разделы о раскрытии возможных конфликтов интересов: автор привлекался фармкомпанией к платным консультациям и т.д.

Статус доступа к публикации. Про важность открытого доступа (Open Access) и его типы мы подготовили специальный раздел, а здесь отметим, что тип доступа фиксирует уже большинство библиометрических баз, и эта характеристика все активнее используется в различных исследованиях - как в контексте взаимосвязи с цитируемостью, так и сама по себе.

Отраслевые базы, посвященные конкретным дисциплинам или их группам, часто содержат массу специцифеских для этих дисциплин метаданных, например, названия химических веществ или медицинскую терминологию.

Часть важных новых метаданных наукометрическими базами, к сожалению, пока не индексируется. Речь прежде всего об авторских ролях, которые указываются рядом журналов для всех статей ("А писал текст, Б получала финансирование, В проводил опыты"), и информации о рецензировании, в случае, если оно отрытое, т.е. тексты рецензий, а иногда и имена рецензентов публикуются открыто рядом с публикацией.

В завершение отметим, что метаданные в процессе индексации базами могут изменяться или вовсе пропускаться, такие ошибки и лакуны встречаются во всех базах, особенно при работе с неанглоязычными источниками. Оригинальной и официальной информацией является та, что содержится в самой публикации (на сайте журнала, издательства, в официальном полном тексте (не препринте)), и нередко с ней необходимо сверять то, что проиндексировано в базах.

Читайте также: