Сетевые технологии хранения данных реферат

Обновлено: 04.07.2024

ЗАКЛЮЧЕНИЕ
5 апреля 2012 года GlobalIndustryAnalysts опубликовала отчет NetworkAttachedStorageDevices: A GlobalStrategicBusinessReport, в котором обозначила основные точки и причины роста онлайновых архитектур хранения данных. Согласно результатам проведенной исследовательской компании, объем информации в мире с каждым годом возрастает примерно на 65%, и к 2020 году достигнет цифры в 3 миллиона петабайт. Как следствие, получим ожидаемый рост инвестиций в системы, осуществляющие хранение и резервное копирование данных.
Наибольшей популярности в свете появившейся тенденции достигла архитектура NAS. Для нее не требуются высокие расходы на обслуживание, при этом технологией обеспечивается высокая доступность данных, вполне приемлемый уровень производительности, прозрачность для конечных пользо .

Содержание

Содержание
Введение 3
1 Краткий обзор традиционных способов хранения данных 4
1.1 Дополнительные жесткие диски 4
1.2 Дополнительный файловый сервер 4
1.3 Ленточные или магнитооптические (МО) накопители 5
1.4 Резюме 6
2 Сетевое хранилище данных NAS 7
2.1 Достоинства и недостатки NAS 7
2.2 Место NAS в сети 8
2.3 Основные характеристики NAS-устройств 10
Заключение 13
Список источников 15

Введение

Фрагмент работы для ознакомления

Список литературы

Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.

* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.

Именно информация приводит в действие весь современный бизнес и в настоящий момент считается наиболее ценным стратегическим активом любого предприятия. Объем информации растет в геометрической прогрессии вместе с ростом глобальных сетей и развитием электронной коммерции. Для достижения успеха в информационной войне необходимо обладать эффективной стратегией хранения, защиты, совместного доступа и управления самым важным цифровым имуществом — данными — как сегодня, так и в ближайшем будущем.

правление ресурсами хранения данных стало одной из самых животрепещущих стратегических проблем, стоящих перед сотрудниками отделов информационных технологий. Вследствие развития Интернета и коренных изменений в процессах бизнеса информация накапливается с невиданной скоростью. Согласно данным компании Strategic Research, сегодня только на серверах открытых систем хранится не менее 200 петабайт информации, и этот объем удваивается каждые полтора года. Многие компании включились в своеобразное соревнование по преобразованию внутренних систем ведения бизнеса, чтобы использовать Интернет для его развития. Они глобализируют свои системы IT для более полной поддержки приложений электронной коммерции, непрерывно работающих 24 часа в сутки, 7 дней в неделю, 365 дней в году.

Сетевое хранение данных позволяет решить многие текущие задачи в бизнесе, связанные с хранением информации, а именно:

универсальный и совместный доступ к ресурсам;
поддержание непредсказуемого, взрывного роста системы IT;
обеспечение непрерывной доступности при сохранении экономичности;
обеспечение маcштабируемости и высочайшей скорости работы хранилища данных;
создание необходимых условий для работы новых приложений, например приложений резервного копирования, без участия сервера и LAN;
упрощение управления ресурсами, связанного с их централизацией;
повышение уровня защиты информации и отказоустойчивости.

До сегодняшнего момента продукты сетевого хранения разделялись на устройства сетевого хранения (Network Attached Storage, NAS) и сети хранения данных (Storage Area Network, SAN). Продукты NAS уходят корнями в сеть Ethernet и спроектированы в соответствии с концепцией файл-сервера. Продукты SAN продолжают технологию хранения SCSI и включают несколько видов, разработанных для обеспечения функций ввода-вывода; в их число входят системные контроллеры ввода-вывода и устройства и подсистемы хранения. Наиболее известными продуктами SAN являются те, которые заменили параллельную шину SCSI коммутаторами и концентраторами.

Продукты SAN вышли на рынок на несколько лет позднее продуктов NAS. Когда на рынке появились обе технологии, специалисты ставили вопрос по поводу их будущего. В результате такой ситуации возник ряд интересных решений, в том числе предпринимались попытки разделить их на две разные архитектуры. Хотя SAN и NAS различны по структуре, они во многом одинаковы и в них заложен потенциал для разного рода интеграций.

Технологии хранения данных

етевое хранение данных построено на трех фундаментальных компонентах: коммутации, хранении и файлах. Все продукты хранения можно представить в виде комбинации функций данных компонентов. Поначалу это может вызвать замешательство: поскольку продукты хранения разрабатывались по совершенно разным направлениям, функции часто перекрывают друг друга.

Поскольку процессы хранения тесно интегрированы с сетями, будет уместно напомнить, что сетевые хранилища представляют собой системные приложения. Сервисами, которые предоставляются сетевыми приложениями хранения, могут пользоваться сложные корпоративные программы и пользовательские приложения. Как и в случае со многими технологиями, некоторые типы систем лучше отвечают требованиям сложных приложений высокого уровня.

Коммутация

Хранение

Хранение в основном затрагивает блочные операции адресного пространства, включая создание виртуальной среды, когда адреса логического блока хранения отображаются из одного адресного пространства в другое. Вообще говоря, в сетевых хранилищах функция хранения почти не изменилась, если не считать двух заметных отличий.

Первое — это возможность нахождения технологий виртуализации устройства, например управление устройством внутри оборудования сетевого хранения. Этот вид функции иногда называют контроллером домена хранения или виртуализацией LUN.

Второе главное отличие хранения заключается в масштабируемости. Продукты хранения, такие как подсистемы хранения, имеют значительно больше контроллеров/интерфейсов, чем предыдущие поколения шинной технологии, а также намного больший объем хранения.

Файлы

Функция организации файлов представляет абстрактный объект конечному пользователю и приложениям, а также организует разметку данных на реальных или виртуальных устройствах хранения. Основную часть функциональности файлов в сетевых хранилищах обеспечивают файловые системы и базы данных; их дополняют приложения управления хранением, например операции резервного копирования, также являющиеся файловыми приложениями.

Сетевое хранение к настоящему времени почти не изменило файловые функции, за исключением разработки файловых систем NAS, в частности файловой системы WAFL компании Network Appliance.

Кроме упомянутых технологий хранения данных NAS и SAN, ориентированных на крупные и глобальные сети, в небольших локальных сетях доминирующее положение занимает технология DAS (Direct Attached Storage — рис. 1), в соответствии с которой хранилище находится внутри сервера, обеспечивающего объем хранилища и необходимую вычислительную мощность.

Простейшим примером DAS может служить накопитель на жестком диске внутри персонального компьютера или ленточный накопитель, подключенный к единственному серверу. Запросы ввода-вывода (называемые также командами или протоколами передачи данных) непосредственно обращаются к этим устройствам. Однако такие системы плохо масштабируются, и компании с целью расширения объема хранилища вынуждены приобретать дополнительные серверы. Эта архитектура очень дорогая и может использоваться только для создания небольших по объему хранилищ данных.

Storage Area Network

истема хранения данных SAN (рис. 2) реализуется в специализированной локальной сети. Как и в DAS, запросы ввода-вывода непосредственно обращаются к устройствам хранения. В большинстве современных сетей SAN использует высокопроизводительный канал Fibre Channel, который обеспечивает произвольное соединение процессоров и устройств хранения данных в этой сети.

Системы хранения данных SAN позволяют решать следующие задачи: программная коммутация, создание удаленных хранилищ, консолидация хранилищ, создание гетерогенных хранилищ и обеспечение резервного копирования.

Программная коммутация. Необходимость решения этой задачи возникла исходя из ситуаций, когда в информационной системе имеется достаточно большой набор дисковых систем и требуется время от времени подключать наборы дисков к различным серверам. В случае обычных SCSI-дисков это требует физической перекоммутации, часто необходима остановка системы. Однако применение протокола Fibre Channel, FC-концентраторов и FC-коммутаторов позволяет использовать программный способ. Важно отметить, что при этом каждый диск остается подключенным только к одному серверу. Сегодня эти решения успешно применяются, а дальнейшее их развитие будет вести к поддержке большего числа хостов и к увеличению гибкости при коммутации.

Удаленные хранилища. Совершенствование технологии привело к тому, что стало возможным относить дисковые массивы на расстояния до 10 км от сервера, тем самым обеспечивая защиту данных от катастроф.

Консолидация хранилищ. Прежде всего консолидация хранилищ обеспечивает значительную экономию при эксплуатации и большую надежность систем.

Гетерогенные хранилища. Консолидация хранилищ приводит к гетерогенным подключениям к дисковому массиву, так как в информационной системе всегда существуют различные программно-аппаратные платформы.

Прямое резервное копирование. Идея прямого резервного копирования заключается в обеспечении прямого копирования данных с диска на ленточный накопитель, минуя локальную сеть. Таким образом, процессорная мощность серверов будет загружена по минимуму.

Network Attached Storage

Устройство хранения данных NAS (рис. 3) с сетевым интерфейсом (appliance) обычно содержит серверный процессор и систему дисковой памяти и подключается к сети, построенной на основе протокола TCP/IP (LAN или WAN). Доступ к устройствам NAS производится с помощью специальных протоколов доступа к файлам и совместного доступа к файлам. Принимаемые устройством NAS файловые запросы транслируются внутренним процессором на уровень запросов ввода-вывода устройства хранения данных. Наиболее распространенными протоколами файлового доступа являются протоколы CIFS (Common Internet File System — общая файловая система Интернета), которые используются на платформах Windows и NFS (Network File System — сетевая файловая система, применяемая на платформах UNIX). Эти протоколы работают поверх IP-протокола, используемого в Ethernet-сетях и в Интернете. Их назначение — обмен файлами между компьютерами, благодаря чему клиенты Windows, Macintosh и UNIX имеют полноценный доступ к дисковому массиву.

Таким образом, NAS можно считать законченным решением в области хранения данных.

Технологии коммутации

Fibre Channel

Основное достоинство технологии Fibre Channel заключается в том, что это высокоскоростная, низколатентная сеть с современной технологией контроля потоков — обработки такого пульсирующего трафика, как ввод-вывод хранения. Следует отметить, что именно эта характеристика отличается слабостью у Ethernet. Индустрия Fibre Channel несравнима с Ethernet, и поэтому у нее небольшой выбор технологий и относительно небогатый опыт внедрения и управления.

Ethernet

Ethernet — самая распространенная сетевая технология в мире; существует огромное количество специалистов и множество методов для внедрения и управления сетями Ethernet. Хотя 10/100-мегабитные разновидности Ethernet достаточны для NAS, они не подходят для поддержки SAN вследствие ограничений полосы пропускания и отсутствия управления потоками. Поэтому основанием для построения SAN станет, видимо, Gigabit Ethernet.

Без сомнения, Ethernet будет использоваться в качестве общей функции коммутации как для файлов, так и для приложений хранения, но прежде чем он начнет широко применяться в качестве корпоративной индустриальной сети, следует доказать его релевантность по отношению к хранению.

InfiniBand

InfiniBand — последовательная шина данных — служит заменой системной шине ввода-вывода PCI. Разработку InfiniBand возглавляла корпорация Intel в сотрудничестве с Compaq, Hewlett-Packard, IBM, Sun и др. В качестве основного компонента системы, который, как ожидается, будет использоваться на платформах и PC, и UNIX, InfiniBand, вероятно, будет применяться в значительных масштабах.

В отношении сетевых хранилищ возникают следующие вопросы. Будут ли файловые приложения и приложения хранения функционировать непосредственно на шине InfiniBand или потребуют каких-либо сетевых адаптеров InfiniBand? И когда это произойдет — сразу, скоро, через несколько лет или вообще никогда? Видимо, данная технология должна зарекомендовать себя в качестве общей системной шины ввода-вывода, прежде чем она сможет эффективно завоевывать такие новые рынки, как рынок сетевых хранилищ. Однако у InfiniBand есть очевидный потенциал, чтобы в будущем стать основной функцией коммутации.

Подводя итоги

стройства SAN — очень надежное решение. Основная идея здесь заключается в том, что централизованная машина больше не является единственной точкой отказа или появления узких мест в системе. Концепция корпоративного хранения SAN возлагает ответственность за долговечность данных на подсистему хранения. Иными словами, подсистемы хранения берут ответственность за собственное управление и за управление данными, которые в них находятся. При этом подразумевается, что централизованные машины могут изменять операции обработки, но обрабатываемые данные остаются в целости и сохранности в корпоративном хранилище.

Архитектурная проблема NAS и SAN заключается в том, что подсистемы хранения со встроенной файловой технологией обычно считаются продуктами NAS. А как тогда назвать подсистему хранения с половиной файловой системы? Именно поэтому анализ сетевого хранения в терминах SAN или NAS ничего не дает. NAS и SAN являются независимыми объектами; независимыми являются также коммутация, хранение и файлы.

Технология NAS, во-первых, предоставляет сервис, позволяющий приложениям и пользователям находить данные в виде объектов в сети, во-вторых, поставляет системе данные для хранения в устройствах хранения или в подсистемах. А технология SAN предоставляет функции хранения в сети; в общем и целом, она применяется в отношении логических блоков адресов, но в потенциале может использовать и другие методы адресации и идентификации хранимых данных.

Коммутация для сетей хранения должна быть чрезвычайно быстрой и надежной. До сих пор в этой роли выступал Fibre Channel, но в будущем на рынок должны выйти Gigabit Ethernet и InfiniBand. Развитие общей инфраструктуры коммуникации как для файловых приложений (NAS), так и для приложений хранения (SAN) кажется неизбежным, в итоге она станет ключевой технологией.

В ближайшем времени технологии сетевого хранения данных, такие как SAN и NAS, будут использоваться повсеместно — просто потому, что количество информации на Земле удваивается каждый год.

Сетевые технологии представляют собой одно из направлений развития систем обработки данных, которое возникло в связи с необходимостью объединения территориально рассредоточенных вычислительных средств в единую систему. Сетевые технологии обеспечивают пользователю широкий набор услуг и позволяют создавать целый ряд различных по назначению автоматизированных систем распределённой обработки информации. Наиболее значимыми технологиями обработки передаваемых данных (пакетов) являются коммутация и маршрутизация

Содержание работы

Введение ………………………………………………………………….………………. 2
Информационные технологии обработка данных …………….…………………… 3
Сетевые технологии обработки данных ……………………………………..……. 6
Глобальные вычислительные сети, Интернет ……………………………………. 10
Заключение ………………………………………………………………….…………… 13
Список литературы ……………………………………………………….……………15

Содержимое работы - 1 файл

Сетевых технологии обработки данных(курсовая) .doc

Информационные технологии обработка данных …………….…………………… 3

Сетевые технологии обработки данных ……………………………………..……. 6

Глобальные вычислительные сети, Интернет ……………………………………. 10

Заключение ………………………………………………………………….………… … 13

Список литературы ……………………………………………………….……………15

Наиболее значимыми технологиями обработки передаваемых данных (пакетов) являются коммутация и маршрутизация. До недавнего времени эти два понятия имели абсолютно разные значения – как по технологии обработки пакетов, так и по уровням модели OSI, на которых работают оба эти метода управления данными в сети, – и не могло быть и речи, чтобы объединить эти понятия. Сегодня развитие сетевых технологий идёт быстрыми темпами. Всё возрастающий объём передаваемой информации, физический рост сетей и межсетевого трафика подстегивают производителей к выпуску всё более мощных

Информационные технологии обработка данных

1.1. Распределенная обработка данных

В эпоху централизованного использования ЭВМ с пакетной обработкой информации пользователи вычислительной техники предпочитали приобретать компьютеры, на которых было бы решать почти все классы их задач. Однако сложность решаемых задач обратно пропорциональна их количеству, и это приводило к неэффективному использованию вычислительной мощности ЭВМ при значительных материальных затратах. Также доступ к ресурсам компьютеров был затруднен из-за существующей ней централизации вычислительных средств в одном месте.

Принцип централизованной обработки данных не отвечал высоким требованиям к надежности процесса обработки и затруднял развитие систем. Кратковременный выход из строя центральной ЭВМ приводил к роковым последствиям для системы в целом. Появление персональных компьютеров потребовало нового подхода к организации систем обработки данных. Возникло логически обоснованное требование перехода от использования отдельных ЭВМ в системах централизованной обработки данных к распределенной обработке данных.

Распределенная обработка данных — обработка данных, выполняемая на независимых, но связанных между собой компьютерах, представляющих распределенную систему.

Для реализации распределенной обработки данных были созданы многомашинные ассоциации, структура которых разрабатывается по одному из следующих направлений:

· многомашинные вычислительные комплексы (МВК);

· компьютерные (вычислительные) сети.

Многомашинный вычислительный комплекс — группа установленных рядом вычислительных машин, объединенных с помощью специальных средств сопряжения и выполняющих совместно единый информационно-вычислительный процесс.

Многомашинные вычислительные комплексы могут быть:

· локальными при условии установки компьютеров в одном помещении, не требующих для взаимосвязи специального оборудования и каналов связи;

· дистанционными, если некоторые компьютеры комплекса установлены на значительном расстоянии от центральной ЭВМ и для передачи данных используются телефонные каналы связи.

Пример1. Три ЭВМ объединены в комплекс для распределения заданий, поступающих на обработку. Одна из них выполняет диспетчерскую функцию и распределяет задания в зависимости от занятости одной из двух других обрабатывающих ЭВМ. Это локальный многомашинный комплекс.

Пример 2. ЭВМ, осуществляющая сбор данных по некоторому региону, выполняет их предварительную обработку и передает для дальнейшего использования на центральную ЭВМ по телефонному каналу связи. Это дистанционный многомашинный комплекс.

Компьютерная (вычислительная) сеть — совокупность компьютеров и терминалов, соединенных с помощью каналов связи в единую систему, удовлетворяющую требованиям распределенной обработки данных.

Примечание. Под системой понимается автономная совокупность, состоящая из одной или нескольких ЭВМ, программного обеспечения, периферийного оборудования, терминалов, средств передачи данных, физических процессов и операторов, способная осуществлять обработку информации и выполнять функции взаимодействия с другими системами.

1.2. Обобщенная структура компьютерной сети

Компьютерные сети являются высшей формой многомашинных ассоциаций. Основные отличия компьютерной сети от многомашинного вычислительного комплекса:

1. Размерность. В состав многомашинного вычислительного комплекса входят обычно две, максимум три ЭВМ, расположенные преимущественно в одном помещении. Вычислительная сеть может состоять из десятков и даже сотен ЭВМ, расположенных на расстоянии друг от друга от нескольких метров до тысяч километров.

2. Разделение функций между ЭВМ. Если в многомашинном вычислительном комплексе функции обработки данных, передачи данных и управления системой могут быть реализованы в одной ЭВМ, то в вычислительных сетях эти функции распределены между различными ЭВМ.

Абоненты сети — объекты, генерирующие или потребляющие информацию в сети (это м.б.: отдельные ЭВМ, комплексы ЭВМ, терминалы, промышленные роботы, станки с числовым программным управлением и т.д.). Любой абонент сети подключается к станции.

Станция — аппаратура, которая выполняет функции, связанные с передачей и приемом информации

Совокупность абонента и станции принято называть абонентской системой. Для организации взаимодействия абонентов необходима физическая передающая среда.

Физическая передающая среда — линии связи или пространство, в котором распространяются электрические сигналы, и аппаратура передачи данных.

На базе физической передающей среды строится коммуникационная сеть, которая обеспечивает передачу информации между абонентскими системами.

1.3 Классификация вычислительных сетей

В зависимости от территориального расположения абонентских систем вычислительные сети можно разделить на три основных класса:

· глобальные сети (WAN — Wide Area Network);

· региональные сети (MAN — Metropolitan Area Network); _N

· локальные сети (LAN—Local Area Network).

Глобальная вычислительная сеть объединяет абонентов, расположенных в различных странах, на различных континентах. Взаимодействие между абонентами такой сети может осуществляться на базе телефонных линий связи, радиосвязи и систем спутниковой связи. Глобальные вычислительные сети позволят решить проблему объединения информационных ресурсов всего человечества и организации доступа к этим ресурсам.

Региональная вычислительная сеть связывает абонентов, расположенных на значительном расстоянии друг от друга. Она может включать абонентов внутри большого города, экономического региона, отдельной страны. Обычно расстояние между абонентами региональной вычислительной сети составляет десятки — сотни километров.

Локальная вычислительная сеть объединяет абонентов, расположенных в пределах небольшой территории: В настоящее время не существует четких ограничений на территориальный разброс абонентов локальной вычислительной сети. Обычно такая сеть привязана к конкретному месту. К классу локальных вычислительных сетей относятся сети отдельных предприятий, фирм, банков, офисов и т.д. Протяженность такой сети можно ограничить пределами 2 - 2,5 км.

Объединение глобальных, региональных и локальных вычислительных сетей позволяет создавать многосетевые иерархии. Они обеспечивают мощные, экономически целесообразные средства обработки огромных информационных массивов и доступ к неограниченным информационным ресурсам. Пример иерархии КС приведен на рисунке.

Практика применения персональных компьютеров в различных отраслях науки техники и производства показала, что наибольшую эффективность от внедрения вычислительной техники обеспечивают не отдельные автономные ПК, а локальные вычисли тельные сети.

Сетевые технологии

2.1 Локальные вычислительные сети

2.2 Архитектура ЛВС

Клиент-сервер. Архитектура, в которой производится разделение вычислительной нагрузки между включенными в ее состав ЭВМ, выполняющими функции клиентов, и одной мощной центральной ЭВМ — сервером. В частности, процесс наблюдения за данными отделен от программ, использующих эти данные. Например, сервер может поддерживать центральную базу данных, расположенную на большом компьютере, зарезервированном для этой цели. Клиентом будет обычная программа, расположенная на любой ЭВМ, включенной в сеть, а также сама ЭВМ, которая по мере необходимости запрашивает данные с сервера. Производительность при использовании клиент-серверной архитектуры выше обычной, поскольку как клиент, так и сервер делят между собой нагрузку по обработке данных. Другими достоинствами клиент-серверной архитектуры являются: большой объем памяти и ее пригодность для решения разнородных задач, возможность подключения большого количества рабочих станций, включая ПЭВМ и пассивные терминалы.

Файл-сервер. Архитектура построения ЛВС, основанная на использовании файлового сервера(file server) - относительно мощной ЭВМ, управляющей созданием, поддержкой и использованием общих информационных ресурсов локальной сети, включая доступ к ее базам данных (БД) и отдельным файлам, а также их защиту. В отличие от клиент-серверной архитектуры данный принцип построения сети предполагает, что включенные в нее рабочие станции являются полноценными ЭВМ с установленным на них полным объемом необходимого для независимой работы составом средств основного и прикладного программного обеспечения. Другими словами, в указанном случае отсутствуют возможности разделения вычислительной нагрузки между сервером и терминалами сети, характерные для архитектуры типа клиент-сервер, и, как следствие, общие стоимостные показатели цена/производительность сети в целом могут быть хуже.

2.3 Топология ЛВС

2.4 Варианты построения локальных вычислительных сетей

AppleTalk - наименование технологии и средств программного обеспечения для создания кабельных одноранговых ЛВС небольших организаций (например, издательств, имеющих несколько ПК и 1-2 принтера в одном здании) на базе ПК Macintosh фирмы Apple. Расстояние между наиболее удаленными узлами в этой сети не должно превышать 500 м.

ARCnet (Attached Resource Computing Network) - нестандартная сетевая архитектура, разработанная корпорацией Datapoint в середине 1970-х гг. Метод доступа основан на передаче маркера в сети с шинной топологией. Недостатком этой архитектуры является невысокая скорость передачи данных (2,5 Мбит/с). Отличительной особенностью этой архитектуры является возможность использования весьма длинных сегментов (до нескольких километров).

TL;DR: Вводная статья с описанием разных вариантов хранения данных. Будут рассмотрены принципы, описаны преимущества и недостатки, а также предпочтительные варианты использования.

Зачем это все?

Хранение данных — одно из важнейших направлений развития компьютеров, возникшее после появления энергонезависимых запоминающих устройств. Системы хранения данных разных масштабов применяются повсеместно: в банках, магазинах, предприятиях. По мере роста требований к хранимым данным растет сложность хранилищ данных.

Надежно хранить данные в больших объемах, а также выдерживать отказы физических носителей — весьма интересная и сложная инженерная задача.

Хранение данных

Под хранением обычно понимают запись данных на некоторые накопители данных, с целью их (данных) дальнейшего использования. Опустим исторические варианты организации хранения, рассмотрим подробнее классификацию систем хранения по разным критериям. Я выбрал следующие критерии для классификации: по способу подключения, по типу используемых носителей, по форме хранения данных, по реализации.

По способу подключения есть следующие варианты:

Внутреннее. Сюда относятся классическое подключение дисков в компьютерах, накопители данных устанавливаются непосредственно в том же корпусе, где и будут использоваться. Типовые шины для подключения — SATA, SAS, из устаревших — IDE, SCSI.

подключение дисков в сервере

Внешнее. Подразумевается подключение накопителей с использованием некоторой внешней шины, например FC, SAS, IB, либо с использованием высокоскоростных сетевых карт.

дисковая полка, подключаемая по FC

По типу используемых накопителей возможно выделить:

Дисковые. Предельно простой и вероятно наиболее распространенный вариант до сих пор, в качестве накопителей используются жесткие диски
Ленточные. В качестве накопителей используются запоминающие устройства с носителем на магнитной ленте. Наиболее частое применение — организация резервного копирования.
Flash. В качестве накопителей применяются твердотельные диски, они же SSD. Наиболее перспективный и быстрый способ организации хранилищ, по емкости SSD уже фактически сравнялись с жесткими дисками (местами и более емкие). Однако по стоимости хранения они все еще дороже.
Гибридные. Совмещающие в одной системе как жесткие диски, так и SSD. Являются промежуточным вариантом, совмещающим достоинства и недостатки дисковых и flash хранилищ.

Если рассматривать форму хранения данных, то явно выделяются следующие:

Файлы (именованные области данных). Наиболее популярный тип хранения данных — структура подразумевает хранение данных, одинаковое для пользователя и для накопителя.
Блоки. Одинаковые по размеру области, при этом структура данных задается пользователем. Характерной особенностью является оптимизация скорости доступа за счет отсутствия слоя преобразования блоки-файлы, присутствующего в предыдущем способе.
Объекты. Данные хранятся в плоской файловой структуре в виде объектов с метаданными.

По реализации достаточно сложно провести четкие границы, однако можно отметить:

аппаратные, например RAID и HBA контроллеры, специализированные СХД.

RAID контроллер от компании Fujitsu

Программные. Например реализации RAID, включая файловые системы (например, BtrFS), специализированные сетевые файловые системы (NFS) и протоколы (iSCSI), а также SDS

пример организации LVM с шифрованием и избыточностью в виртуальной машине Linux в облаке Azure

Давайте рассмотрим более детально некоторые технологии, их достоинства и недостатки.

Direct Attached Storage — это исторически первый вариант подключения носителей, применяемый до сих пор. Накопитель, с точки зрения компьютера, в котором он установлен, используется монопольно, обращение с накопителем происходит поблочно, обеспечивая максимальную скорость обмена данными с накопителем с минимальными задержками. Также это наиболее дешевый вариант организации системы хранения данных, однако не лишенный своих недостатков. К примеру если нужно организовать хранение данных предприятия на нескольких серверах, то такой способ организации не позволяет совместное использование дисков разных серверов между собой, так что система хранения данных будет не оптимальной: некоторые сервера будут испытывать недостаток дискового пространства, другие же — не будут полностью его утилизировать:

Конфигурации систем с единственным накопителем применяются чаще всего для нетребовательных нагрузок, обычно для домашнего применения. Для профессиональных целей, а также промышленного применения чаще всего используется несколько накопителей, объединенных в RAID-массив программно, либо с помощью аппаратной карты RAID для достижения отказоустойчивости и\или более высокой скорости работы, чем единичный накопитель. Также есть возможность организации кэширования наиболее часто используемых данных на более быстром, но менее емком твердотельном накопителе для достижения и большой емкости и большой скорости работы дисковой подсистемы компьютера.

Storage area network, она же сеть хранения данных, является технологией организации системы хранения данных с использованием выделенной сети, позволяя таким образом подключать диски к серверам с использованием специализированного оборудования. Так решается вопрос с утилизацией дискового пространства серверами, а также устраняются точки отказа, неизбежно присутствующие в системах хранения данных на основе DAS. Сеть хранения данных чаще всего использует технологию Fibre Channel, однако явной привязки к технологии передачи данных — нет. Накопители используются в блочном режиме, для общения с накопителями используются протоколы SCSI и NVMe, инкапсулируемые в кадры FC, либо в стандартные пакеты TCP, например в случае использования SAN на основе iSCSI.

Недостатками такой системы являются большая стоимость и сложность, поскольку для обеспечения отказоустойчивости требуется обеспечить несколько путей доступа (multipath) серверов к дисковым полкам, а значит, как минимум, задублировать фабрики. Также в силу физических ограничений (скорость света в общем и емкость передачи данных в информационной матрице коммутаторов в частности) хоть и существует возможность неограниченного подключения устройств между собой, на практике чаще всего есть ограничения по числу соединений (в том числе и между коммутаторами), числу дисковых полок и тому подобное.

Network attached storage, или сетевое файловое хранилище, представляет дисковые ресурсы в виде файлов (или объектов) с использованием сетевых протоколов, например NFS, SMB и прочих. Принципиально базируется на DAS, но ключевым отличием является предоставление общего файлового доступа. Так как работа ведется по сети — сама система хранения может быть сколько угодно далеко от потребителей (в разумных пределах разумеется), но это же является и недостатком в случае организации на предприятиях или в датацентрах, поскольку для работы утилизируется полоса пропускания основной сети — что, однако, может быть нивелировано с использованием выделенных сетевых карт для доступа к NAS. Также по сравнению с SAN упрощается работа клиентов, поскольку сервер NAS берет на себя все вопросы по общему доступу и т.п.

Unified storage

Универсальные системы, позволяющие совмещать в себе как функции NAS так и SAN. Чаще всего по реализации это SAN, в которой есть возможность активировать файловый доступ к дисковому пространству. Для этого устанавливаются дополнительные сетевые карты (или используются уже существующие, если SAN построена на их основе), после чего создается файловая система на некотором блочном устройстве — и уже она раздается по сети клиентам через некоторый файловый протокол, например NFS.

Software-defined storage — программно определяемое хранилище данных, основанное на DAS, при котором дисковые подсистемы нескольких серверов логически объединяются между собой в кластер, который дает своим клиентам доступ к общему дисковому пространству.

Наиболее яркими представителями являются GlusterFS и Ceph, но также подобные вещи можно сделать и традиционными средствами (например на основе LVM2, программной реализации iSCSI и NFS).

N.B. редактора: У вас есть возможность изучить технологию сетевого хранилища Ceph, чтобы использовать в своих проектах для повышения отказоустойчивости, на нашем практическим курсе по Ceph. В начале курса вы получите системные знания по базовым понятиям и терминам, а по окончании научитесь полноценно устанавливать, настраивать и управлять Ceph. Детали и полная программа курса здесь.

Пример SDS на основе GlusterFS

Из преимуществ SDS — можно построить отказоустойчивую производительную реплицируемую систему хранения данных с использованием обычного, возможно даже устаревшего оборудования. Если убрать зависимость от основной сети, то есть добавить выделенные сетевые карты для работы SDS, то получается решение с преимуществами больших SAN\NAS, но без присущих им недостатков. Я считаю, что за подобными системами — будущее, особенно с учетом того, что быстрая сетевая инфраструктура более универсальная (ее можно использовать и для других целей), а также дешевеет гораздо быстрее, чем специализированное оборудование для построения SAN. Недостатком можно назвать увеличение сложности по сравнению с обычным NAS, а также излишней перегруженностью (нужно больше оборудования) в условиях малых систем хранения данных.

Гиперконвергентные системы

Подавляющее большинство систем хранения данных используется для организации дисков виртуальных машин, при использовании SAN неизбежно происходит удорожание инфраструктуры. Но если объединить дисковые системы серверов с помощью SDS, а процессорные ресурсы и оперативную память с помощью гипервизоров отдавать виртуальным машинам, использующим дисковые ресурсы этой SDS — получится неплохо сэкономить. Такой подход с тесной интеграцией хранилища совместно с другими ресурсами называется гиперконвергентностью. Ключевой особенностью тут является способность почти бесконечного роста при нехватке ресурсов, поскольку если не хватает ресурсов, достаточно добавить еще один сервер с дисками к общей системе, чтобы нарастить ее. На практике обычно есть ограничения, но в целом наращивать получается гораздо проще, чем чистую SAN. Недостатком является обычно достаточно высокая стоимость подобных решений, но в целом совокупная стоимость владения обычно снижается.

Облака и эфемерные хранилища

Логическим продолжением перехода на виртуализацию является запуск сервисов в облаках. В предельном случае сервисы разбиваются на функции, запускаемые по требованию (бессерверные вычисления, serverless). Важной особенностью тут является отсутствие состояния, то есть сервисы запускаются по требованию и потенциально могут быть запущены столько экземпляров приложения, сколько требуется для текущей нагрузки. Большинство поставщиков (GCP, Azure, Amazon и прочие) облачных решений предлагают также и доступ к хранилищам, включая файловые и блочные, а также объектные. Некоторые предлагают дополнительно облачные базы, так что приложение, рассчитанное на запуск в таком облаке, легко может работать с подобными системами хранения данных. Для того, чтобы все работало, достаточно оплатить вовремя эти услуги, для небольших приложений поставщики вообще предлагают бесплатное использование ресурсов в течение некоторого срока, либо вообще навсегда.

Из недостатков: могут заблокировать аккаунт, на котором все работает, что может привести к простоям в работе. Также могут быть проблемы со связностью и\или доступностью таких сервисов по сети, поскольку такие хранилища полностью зависят от корректной и правильной работы глобальной сети.

Заключение

Надеюсь, статья была полезной не только новичкам. Предлагаю обсудить в комментариях дополнительные возможности систем хранения данных, написать о своем опыте построения систем хранения данных.

Читайте также: