Что такое модель данных кратко

Обновлено: 02.07.2024

В предыдущих разделах все время подчеркивалась роль представления данных в решении задач обработки информации (принцип независимости программ от данных, концепция баз данных и т.д.). Представление информации с помощью данных требует унифицированного подхода к понятию данных как независимого объекта моделирования. Поэтому для разработчика ИС выбор соответствующей модели данных является одной из самых важных проблем. Выбор модели данных влечет за собой выбор средств анализа предметной области (ПО БД) как сферы реального мира, подлежащего изучению и обработке средствами ВТ, - об этом мы будем говорить в следующей лекции. В конечном счете такой выбор делает разработчика "заложником" той или иной информационной технологии создания информационных систем с базами данных.

  • Модель данных ограничивает возможность выбора СУБД, так как обычно отдельно взятая модель поддерживает определенную модель данных.
  • Модель данных определяет и методы создания дружественного интерфейса пользователя за счет средств СУБД (особенности конкретной реализации модели (замкнутость на свою среду), иногда весьма существенные, ибо коммерческие интересы фирм - разработчиков СУБД вступают в противоречие с требованиями рынка информационных услуг).
  • Модель данных требует приведения представлений пользователя о данных и результатах их обработки к определенному уровню понимания, что может повлечь за собой необходимость обучения пользователя методам и средствам работы с данными (необходимость использования моделей высокого уровня для описания семантики предметной области информационной системы , желательно возможностью использования средств реинжиниринга ).

Таким образом, понятие модели данных является одним из фундаментальных понятий информатики, от которого во многом зависят механизмы реализации ИС как программно-аппаратного комплекса.

Что же такое модели данных ? В самом общем случае модель данных - это логическое представление данных и совокупность операций над ними.

Определение 5. Модель данных ( Data Model ) есть логическая структура данных, которая представляет присущие этим данным свойства, не зависимые от аппаратного и программного обеспечения и не связанные с функционированием компьютера.

Можно рассмотреть несколько аспектов моделирования в обработке данных:

  • информационное моделирование:
    • концептуальное моделирование (моделирование семантики предметной области);
    • логическое моделирование данных;
    • создание моделей доступа к данным;
    • оптимизация физической организации данных в аппаратной среде.

    Физическая модель определяется особенностями устройств хранения информации и связи. Поскольку мы в наших лекциях не занимаемся разработкой методов доступа и СУБД, то вопросы физического моделирования данных рассматриваться не будут.

    Информационная модель данных

    На рис. 1.6 иллюстрируется общее содержание понятия модели данных, сложившееся к настоящему времени.

    Объектами информационной модели являются сущности реального мира из предметной области. Иногда их называют итемами, чтобы подчеркнуть их целостность. Свойства объектов (сущностей) называют атрибутами. Сущности вступают в связи друг с другом через свои атрибуты. Эти три компонента информационной модели представляют субъективные средства описания модели, которые после определенной формализации дают внешнюю схему данных БД ИС.

    Концепция трех схем

    В рамках информационного моделирования существует несколько точек зрения (схем) на абстрагирование данных . С точки зрения пользователя (называемой внешней схемой), определение данных представляется в контексте языка предметной области. Структура данных и содержание меняется в зависимости от сферы деятельности и особенностей конкретного пользователя. С точки зрения компьютера (называемой внутренней схемой ), данные определяются в терминах файловых структур для хранения и поиска. Структура данных в этом случае зависит от конкретной компьютерной технологии и от требований эффективности обработки данных.

    При моделировании информации на основе разработки только внешней и внутренней схем по-прежнему остаются трудными для решения проблемы избыточности и противоречивости данных. Хотя СУБД значительно расширяет возможности совместного использования данных, все же ее применение не гарантирует непротиворечивости определения данных.

    Исследовательская группа по СУБД ANSI/X3/SPARC пришла к выводу, что для создания идеальной среды управления данными необходимо определение их с третьей, промежуточной точки зрения (концепция трех схем ANSI/X3/SPARC ). Эта точка зрения (называемая концептуальной схемой) сводится к единообразному определению данных в рамках предметной области, не ориентированному на какое-либо конкретное использование их и не зависящему от того, как данные физически обрабатываются на компьютере (рис. 1.7).

    Основной целью концептуальной схемы является выработка непротиворечивой интерпретации определения взаимосвязей данных для их объединения, совместного использования и управления целостностью данных.

    С другой стороны, любая информационная модель данных определяется средствами поддержки модели данных, реализуемыми СУБД.

    Моделирование данных ощутимо упрощает взаимодействие между разработчиками, аналитиками и маркетологами, как и сам процесс создания отчетов. Поэтому я перевела статью IBM Cloud Education о ценности моделирования и от себя добавила инфо о способах трансформации данных для моделирования.

    Моделирование данных

    Узнайте, как моделирование данных использует абстракцию для представления и лучшего понимания природы данных в информационной системе предприятия.

    Что такое моделирование данных

    Моделирование данных — это создание визуального представления о всей информационной системе либо ее части. Цель в том, чтобы проиллюстрировать типы данных, которые используются и хранятся в системе, отношения между этими типами данных, способы группировки и организации данных, их форматы и атрибуты.

    Модели данных строятся на основе бизнес-потребностей. Правила и требования к модели данных определяются заранее на основе обратной связи с бизнесом, поэтому их можно включить в разработку новой системы или адаптировать к существующей.

    Данные можно моделировать на различных уровнях абстракции. Процесс начинается со сбора бизнес-требований от заинтересованных сторон и конечных пользователей. Эти бизнес-правила затем преобразуются в структуры данных. Модель данных можно сравнить с дорожной картой, планом архитектора или любой формальной схемой, которая способствует более глубокому пониманию того, что разрабатывается.

    Моделирование данных использует стандартизированные схемы и формальные методы. Это обеспечивает последовательный и предсказуемый способ управления данными в организации или за ее пределами.

    В идеале модели данных — это живые документы, которые развиваются вместе с потребностями бизнеса. Они играют важную роль в поддержке бизнес-процессов и планировании ИТ-архитектуры и стратегии. Моделями данных можно делиться с поставщиками, партнерами и коллегами.

    Преимущества моделирования данных

    Моделирование упрощает просмотр и понимание взаимосвязей между данными для разработчиков, архитекторов данных, бизнес-аналитиков и других заинтересованных лиц. Кроме того, моделирование данных помогает:

    Уменьшить количество ошибок при разработке программного обеспечения и баз данных.

    Унифицировать документацию на предприятии.

    Повысить производительность приложений и баз данных.

    Упростить отображение данных по всей организации.

    Улучшить взаимодействие между разработчиками и командами бизнес-аналитики.

    Упростить и ускорить процесс проектирования базы данных на концептуальном, логическом и физическом уровнях.

    Типы моделей данных

    Разработка баз данных и информационных систем начинается с высокого уровня абстракции и с каждым шагом становится все точнее и конкретнее. В зависимости от степени абстракции модели данных можно разделить на три категории. Процесс начинается с концептуальной модели, переходит к логической модели и завершается физической моделью.

    Концептуальные модели данных. Также они называются моделями предметной области и описывают общую картину: что будет содержать система, как она будет организована и какие бизнес-правила будут задействованы. Концептуальные модели обычно создаются в процессе сбора исходных требований к проекту. Как правило, они включают классы сущностей (вещи, которые бизнесу важно представить в модели данных), их характеристики и ограничения, отношения между сущностями, требования к безопасности и целостности данных. Любые обозначения обычно просты.

    Логические модели данных уже не так абстрактны и предоставляют более подробную информацию о концепциях и взаимосвязях в рассматриваемой области. Они содержат атрибуты данных и показывают отношения между сущностями. Логические модели данных не определяют никаких технических требований к системе. Этот этап часто пропускается в agile или DevOps-практиках. Логические модели данных могут быть полезны для проектов, ориентированных на данные по своей природе. Например, для проектирования хранилища данных или разработки системы отчетности.

    Физические модели данных представляют схему того, как данные будут храниться в базе. По сути, это наименее абстрактные из всех моделей. Они предлагают окончательный дизайн, который может быть реализован как реляционная база данных, включающая ассоциативные таблицы, которые иллюстрируют отношения между сущностями, а также первичные и внешние ключи для связи данных.

    Процесс моделирования данных

    Моделирование данных начинается с договоренности о том, какие символы используются для представления данных, как размещаются модели и как передаются бизнес-требования. Это формализованный рабочий процесс, включающий ряд задач, которые должны выполняться итеративно. Сам процесс обычно выглядят так:

    Определите сущности. На этом этапе идентифицируем объекты, события или концепции, представленные в наборе данных, который необходимо смоделировать. Каждая сущность должна быть целостной и логически отделенной от всех остальных.

    Полностью сопоставьте атрибуты с сущностями. Это гарантирует, что модель отражает то, как бизнес будет использовать данные. Широко используются несколько формальных шаблонов (паттернов) моделирования данных. Объектно-ориентированные разработчики часто применяют шаблоны для анализа или шаблоны проектирования, в то время как заинтересованные стороны из других областей бизнеса могут обратиться к другим паттернам.

    Назначьте ключи по мере необходимости и определите степень нормализации. Нормализация — это метод организации моделей данных, в которых числовые идентификаторы (ключи) назначаются группам данных для установления связей между ними без повторения данных. Например, если каждому клиенту назначен ключ, этот ключ можно связать как с его адресом, так и с историей заказов, без необходимости повторять эту информацию в таблице с именами клиентов. Нормализация помогает уменьшить объем дискового пространства, необходимого для базы данных, но может сказываться на производительности запросов.

    Завершите и проверьте модель данных. Моделирование данных — это итеративный процесс, который следует повторять и совершенствовать под потребности бизнеса.

    Типы моделирования данных

    Моделирование данных развивалось вместе с системами управления базами данных (СУБД), при этом типы моделей усложнялись по мере роста потребностей предприятий в хранении данных.

    Реляционные модели данных были предложены исследователем IBM Э. Ф. Коддом в 1970 году. Они до сих пор встречаются во многих реляционных базах данных, обычно используемых в корпоративных вычислениях. Реляционное моделирование не требует детального понимания физических свойств используемого хранилища данных. В нем сегменты данных объединяются с помощью таблиц, что упрощает базу данных.

    Реляционные базы данных часто используют язык структурированных запросов (SQL) для управления данными. Эти базы подходят для поддержания целостности данных и минимизации избыточности. Они часто используются в кассовых системах, а также для других типов обработки транзакций.

    Размерные модели данных разработал Ральф Кимбалл для быстрого поиска данных в хранилище. Реляционные и ER-модели делают упор на эффективное хранение и уменьшают избыточность данных, а размерные модели упорядочивает данные таким образом, чтобы легче было извлекать информацию и создавать отчеты. Это моделирование обычно используется в системах OLAP.

    Инструменты для моделирования данных

    Сегодня широко используются многочисленные коммерческие и CASE-решения с открытым исходным кодом, в том числе различные инструменты моделирования данных, построения диаграмм и визуализации. Вот несколько примеров:

    erwin Data Modeler — это инструмент моделирования данных, основанный на языке IDEF1X, который теперь поддерживает и другие нотации, включая нотацию для размерного моделирования.

    Enterprise Architect — это инструмент визуального моделирования и проектирования, который поддерживает моделирование корпоративных информационных систем и архитектур, программных приложений и баз данных. Он основан на объектно-ориентированных языках и стандартах.

    ER/Studio — это программа для проектирования баз данных, совместимая с некоторыми из самых популярных СУБД. Она поддерживает как реляционное, так и размерное моделирование данных.

    Бесплатные инструменты моделирования данных включают решения с открытым исходным кодом, такие как Open ModelSphere.

    Для того, чтобы преобразовать данные в структуру, которая соответствует требованиям модели, можно использовать встроенный механизм регулярных запросов, которые выполняются в Google BigQuery, Scheduled Queries и AppScript. Их легко можно освоить, потому что это привычный SQL, но проводить отладку в Scheduled Queries практически нереально. Особенно, если это какой-то сложный запрос или каскад запросов.

    Есть специализированные инструменты для управления SQL-запросами, например, dbt и Dataform.

    dbt (data build tool) — это фреймворк с открытым исходным кодом для выполнения, тестирования и документирования SQL-запросов, который позволяет привнести элемент программной инженерии в процесс анализа данных. Он помогает оптимизировать работу с SQL-запросами: использовать макросы и шаблоны JINJA, чтобы не повторять в сотый раз одни и те же фрагменты кода.

    Главная проблема, которую решают специализированные инструменты — это уменьшение времени, необходимого на поддержку и обновление. Это достигается за счет удобства отладки.

    Моделирование данных (моделирование данных) — это процесс создания модели данных для хранения данных в базе данных. Эта модель данных представляет собой концептуальное представление объектов данных, связей между различными объектами данных и правилами. Моделирование данных помогает визуально представлять данные и обеспечивает соблюдение бизнес-правил, нормативных требований и государственных политик в отношении данных. Модели данных обеспечивают согласованность в соглашениях об именах, значениях по умолчанию, семантике, безопасности при обеспечении качества данных.

    Модель данных подчеркивает, какие данные необходимы и как они должны быть организованы, а не какие операции должны выполняться с данными. Модель данных похожа на план здания архитектора, который помогает построить концептуальную модель и установить отношения между элементами данных.

    Два типа методов моделей данных:

    1. Модель отношений сущностей (ER)
    2. UML (унифицированный язык моделирования)

    Мы обсудим их подробно позже.

    В этом уроке вы узнаете больше о

    Зачем использовать модель данных?

    Основная цель использования модели данных:

    • Обеспечивает точное представление всех объектов данных, необходимых для базы данных. Пропуск данных приведет к созданию ошибочных отчетов и даст неправильные результаты.
    • Модель данных помогает проектировать базу данных на концептуальном, физическом и логическом уровнях.
    • Структура модели данных помогает определить реляционные таблицы, первичные и внешние ключи и хранимые процедуры.
    • Он обеспечивает четкое представление о базовых данных и может использоваться разработчиками базы данных для создания физической базы данных.
    • Также полезно определить отсутствующие и избыточные данные.
    • Несмотря на то, что первоначальное создание модели данных является трудоемким и длительным, в конечном итоге это делает обновление и обслуживание ИТ-инфраструктуры дешевле и быстрее.

    Типы моделей данных

    Существует в основном три различных типа моделей данных:

    1. Концептуальный: эта модель данных определяет ЧТО система содержит. Эта модель обычно создается заинтересованными сторонами и архитекторами данных. Цель состоит в том, чтобы организовать, охватить и определить бизнес-концепции и правила.
    2. Логический: определяет, КАК система должна быть реализована независимо от СУБД. Эта модель обычно создается архитекторами данных и бизнес-аналитиками. Целью является разработка технической карты правил и структур данных.
    3. Физические : Эта модель данных описывает КАК система будет реализована с использованием конкретной системы СУБД. Эта модель обычно создается администратором базы данных и разработчиками. Цель — фактическая реализация базы данных.


    Концептуальная модель

    Основная цель этой модели — установить сущности, их атрибуты и их взаимосвязи. На этом уровне моделирования данных едва ли есть какая-либо подробная информация о фактической структуре базы данных.

    3 основных арендатора модели данных

    Entity : реальная вещь

    Атрибут : характеристики или свойства объекта


    Характеристики концептуальной модели данных

    Концептуальные модели данных, известные как доменные модели, создают общий словарь для всех заинтересованных сторон, устанавливая основные понятия и объем.

    Логическая модель данных

    Логические модели данных добавляют дополнительную информацию к элементам концептуальной модели. Он определяет структуру элементов данных и устанавливает отношения между ними.


    Преимущество логической модели данных состоит в том, чтобы обеспечить основу для формирования физической модели. Тем не менее, структура моделирования остается общей.

    На этом уровне моделирования данных первичный или вторичный ключ не определен. На этом уровне моделирования данных необходимо проверить и настроить детали соединителя, которые были установлены ранее для отношений.

    Характеристики логической модели данных

    • Описывает потребности в данных для одного проекта, но может интегрироваться с другими логическими моделями данных в зависимости от объема проекта.
    • Разработан и разработан независимо от СУБД.
    • Атрибуты данных будут иметь типы данных с точной точностью и длиной.
    • Процесс нормализации к модели применяется обычно до 3NF.

    Физическая модель данных

    Физическая модель данных описывает специфическую для базы данных реализацию модели данных. Он предлагает абстракцию базы данных и помогает создавать схемы. Это связано с богатством метаданных, предлагаемых физической моделью данных.


    Этот тип модели данных также помогает визуализировать структуру базы данных. Это помогает моделировать ключи столбцов базы данных, ограничения, индексы, триггеры и другие функции РСУБД.

    СУБД используют различные модели баз данных . Самые старые системы можно разделить на иерархические и сетевые базы данных — это пререляционные модели.

    Модели баз данных — иерархическая база данных

    Иерархическая модель базы данных подразумевает, что элементы организованы в структуры, связанные между собой иерархическими или древовидными связями. Родительский элемент может иметь несколько дочерних элементов. Но у дочернего элемента может быть только один предок.

    Иерархическая база данных — пример

    Будем считать, что в рамках данной статьи примером иерархической базы данных является организация, хранящая информацию о своём работнике: имя, номер сотрудника, отдел и зарплату. Организация также может хранить информацию о его детях, их имена и даты рождения.

    Сетевая модель базы данных

    Иерархическая модель данных структурирует данные в виде древа записей, где есть один родительский элемент и несколько дочерних. Сетевая модель позволяет иметь несколько предков и потомков, формирующих решётчатую структуру.

    Сетевая модель позволяет более естественно моделировать отношения между элементами. И хотя эта модель широко применялась на практике, она так и не стала доминантной по двум основным причинам. Во-первых, компания IBM решила не отказываться от иерархической модели в расширениях для своих продуктов, таких как IMS и DL/I . Во-вторых, через некоторое время её сменила реляционная модель, предлагавшая более высокоуровневый, декларативный интерфейс.

    Известные сетевые базы данных:

    • TurboIMAGE;
    • IDMS;
    • Встроенная RDM;
    • Серверная RDM.

    Реляционная модель базы данных

    В реляционной модели, в отличие от иерархической или сетевой, не существует физических отношений. Вся информация хранится в виде таблиц ( отношений ) , состоящих из рядов и столбцов. А данные двух таблиц связаны общими столбцами, а не физическими ссылками или указателями. Для манипуляций с рядами данных существуют специальные операторы.

    В отличие от двух других типов СУБД, в реляционных моделях данных нет необходимости просматривать все указатели, что облегчает выполнение запросов на выборку информации по сравнению с сетевыми и иерархическими СУБД. Это одна из основных причин, почему реляционная модель оказалась более удобна. Распространённые реляционные СУБД: Oracle , Sybase , DB2 , Ingres , Informix и MS-SQL Server .

    РСУБД — реляционная система управления базами данных, основанная на реляционной модели Э. Ф. Кодда. Она позволяет определять структурные аспекты данных, обработки отношений и их целостности. В такой базе информационное наполнение и отношения внутри него представлены в виде таблиц — наборов записей с общими полями.

    Реляционные таблицы обладают следующими свойствами:

    • Все значения атомарны.
    • Каждый ряд уникален.
    • Порядок столбцов не важен.
    • Порядок рядов не важен.
    • У каждого столбца есть своё уникальное имя.

    Некоторые поля могут быть определены как ключевые. Это значит, что для ускорения поиска конкретных значений будет использоваться индексация. Когда поля двух различных таблиц получают данные из одного набора, можно использовать оператор JOIN для выбора связанных записей двух таблиц, сопоставив значения полей.

    Поскольку отношения здесь определяются только временем поиска, реляционные базы данных классифицируются как динамические системы.

    Сравниваем три модели баз данных

    Третья модель — реляционная — более гибкая, чем иерархическая и проще для управления, чем сетевая. Реляционная модель сегодня используется чаще всего.

    Объект в реляционной модели баз данных определяется как позиция информации, хранимой в базе данных. Объект может быть осязаемым или неосязаемым. Примером осязаемого объекта может быть сотрудник организации, а примером неосязаемой сущности — учётная запись покупателя. Объекты определяются атрибутами — информационным отображением свойств объекта. Эти атрибуты также известны как столбцы, а группа столбцов — как ряд. Ряд также можно определить как экземпляр объекта.

    Объекты связываются отношениями, основные типы которых можно определить следующим образом:

    В этом виде отношений один объект связан с другим. Например, Менеджер -> Отдел .

    У каждого менеджера может быть только один отдел, и наоборот.

    В моделях данных отношение одного объекта с несколькими. Например, Сотрудник -> Отдел .

    Каждый сотрудник может быть только в одном отделе, но в самом отделе может быть больше одного сотрудника.

    В заданный момент времени объект может быть связан с любым другим. Например, Сотрудник -> Проект .

    Сотрудник может участвовать в нескольких проектах, и каждый проект может объединять несколько сотрудников.

    В реляционной модели объекты и их отношения представлены двухмерным массивом или таблицей.

    Каждая таблица представляет объект.

    Каждая таблица состоит из рядов и столбцов.

    Отношения между объектами представлены столбцами.

    Каждый столбец представляет атрибут объекта.

    Значения столбцов выбираются из области или набора всех возможных значений.

    Столбцы, которые используются для связи объектов, называются ключевыми. Есть два типа ключей — первичные и внешние.

    Первичные служат для однозначного определения объекта. Внешний ключ — это первичный ключ одного объекта, существующий как атрибут в другой таблице.

    Преимущества реляционной модели данных:

    1. Простота использования.
    2. Гибкость.
    3. Независимость данных.
    4. Безопасность.
    5. Простота практического применения.
    6. Слияние данных.
    7. Целостность данных.
    1. Избыточность данных.
    2. Низкая производительность.

    Другие модели баз данных (ООСУБД)

    В последнее время на рынке СУБД появились продукты, представленные объектными и объектно-ориентированной моделью данных, такие как Gem Stone и Versant ОСУБД. Также производятся исследования в области многомерных и логических моделей данных.

    Особенности объектно-ориентированных систем управления базами данных (ООСУБД):

    • При интеграции возможностей базы данных с объектно-ориентированным языком программирования получается объектно-ориентированная СУБД.
    • ООСУБД представляет данные как объекты одного или нескольких языков программирования.
    • Такая система должна отвечать двум критериям: являться СУБД и должна быть объектно-ориентированной. То есть должна насколько это возможно соответствовать современным объектно-ориентированным языкам программирования. Первый критерий подразумевает: длительное хранение данных, управление вторичным хранилищем, параллельный доступ к данным, возможность восстановления, а также поддержку нерегламентированных запросов. Второй критерий подразумевает: сложные объекты, идентичность объектов, инкапсуляцию, типы или классы, механизм наследования, переопределение в сочетании с динамическим связыванием, расширяемость и вычислительную полноту.
    • ООСУБД дают возможность моделирования данных в виде объектов.

    А также поддержку классов объектов и наследование свойств и методов классов подклассами и их объектами.

    На данный момент не существует общепринятого стандарта ООСУБД. Считается, что подобные модели данных находится на ранней стадии развития.

    • В конструкторских и рассредоточенных базах данных, телекоммуникации, а также в таких научных областях, как физика высоких энергий и молекулярная биология.
    • Используются в специализированных областях финансового сектора.
    • Во встроенных системах, пакетном программном обеспечении и системах реального времени, чтобы у пользователей была возможность создавать объекты по своему выбору.

    Пожалуйста, оставляйте ваши отзывы по текущей теме статьи. За комментарии, отклики, дизлайки, лайки, подписки низкий вам поклон!

    Пожалуйста, оставьте ваши комментарии по текущей теме материала. Мы очень благодарим вас за ваши комментарии, лайки, отклики, подписки, дизлайки!

    Дайте знать, что вы думаете по данной теме материала в комментариях. Мы очень благодарим вас за ваши комментарии, отклики, подписки, лайки, дизлайки!

    Читайте также: