Кластеры класса беовульф реферат

Обновлено: 05.07.2024

Курсовой проект содержит 38 страниц машинописного текста, 11 литературных источников, 12 рисунков.

Ключевые слова: суперкомпьютер, архитектура, процессор, кластер, интерфейс, технология, операнд, компиляция, команда, оптимизация, переменная, данные, регистр, операция, итерационность, конвейерность, электронно-вычислительная машина.

В данном курсовом проекте рассматриваются многопроцессорные вычислительные системы Cry T3D(E) и Беовульф-кластеры рабочих станций, а также в все сопутствующие этим двум темам понятия и определения необходимые для понятного изложения материала.

1. Общие вопросы решения "больших задач"

1.1 Современные задачи науки и техники, требующие для решения суперкомпьютерных мощностей

1.2 Параллельная обработка данных

1.2.1 Принципиальная возможность параллельной обработки

1.2.2 Абстрактные модели параллельных вычислений

1.2.3 Способы параллельной обработки данных, погрешность вычислений

1.3 Понятие параллельного процесса и гранулы распараллеливания

1.4 Взаимодействие параллельных процессов, синхронизация процессов

1.5 Возможное ускорение при параллельных вычислениях (закон Амдаля)

2. Принципы построения многопроцессорных вычислительных систем

2.1 Архитектура многопроцессорных вычислительных систем

2.2 Распределение вычислений и данных в многопроцессорных вычислительных системах с распределенной памятью

2.3 Классификация параллельных вычислительных систем

2.4 Многопроцессорные вычислительные системы c распределенной памятью

2.4.1 Массивно-параллельные суперкомпьютеры серии Cry T3

2.4.2 Кластерные системы класса BEOWULF

2.4.3 Коммуникационные технологии, используемые при создании массово-параллельных суперкомпьютеров

Список используемой литературы

Еще на заре компьютерной эры, примерно в середине прошлого века, конструкторы электронно-вычислительных машин задумались над возможностью применения параллельных вычислений в компьютерах. Ведь увеличение быстродействия только за счет совершенствования электронных компонентов компьютера – достаточно дорогой способ, который, к тому же, сталкивается с ограничениями, налагаемыми физическими законами. Так параллельная обработка данных и параллелизм команд были введены в конструкцию компьютеров и сейчас любой пользователь "персоналки", возможно, сам того не зная, работает на параллельном компьютере.

Одной из заметных тенденций развития человечества является желание максимально строго моделировать процессы окружающей действительности с целью как улучшения условий жизни в настоящем, так и максимально достоверного предсказания будущего. Математические методы и приемы цифрового моделирования во многих случаях позволяют разрешать подобные проблемы, однако с течением времени имеет место серьезное качественное и количественное усложнение технологии решения задач. Во многих случаях ограничением является недостаток вычислительных мощностей современных электронно-вычислительных машинах, но значимость решаемых задач привлекли огромные финансовые ресурсы в область создания сверхсложных электронно-вычислительных машин.

С некоторых пор повышение быстродействия компьютеров традиционной (именуемой "фон Неймановской") архитектуры стало чрезмерно дорого вследствие технологических ограничений при производстве процессоров, поэтому разработчики обратили внимание на иной путь повышения производительности – объединение электронно-вычислительных машин в многопроцессорные вычислительные системы. При этом отдельные фрагменты программы параллельно (и одновременно) выполняются на различных процессорах, обмениваясь информацией посредством внутренней компьютерной сети.

Идея объединения электронно-вычислительных машин с целью повышения, как производительности, так и надежности известны с конца пятидесятых годов.

Требования получить максимум производительности при минимальной стоимости привели к разработке многопроцессорных вычислительных комплексов; известны системы такого рода, объединяющие вычислительные мощности тысяч отдельных процессоров. Следующим этапом являются попытки объединить миллионы разнородных компьютеров планеты в единый вычислительный комплекс с огромной производительностью посредством сети Internet. На сегодняшний день применение параллельных вычислительных систем является стратегическим направлением развития вычислительной техники. Развитие "железа" с необходимостью подкрепляются совершенствованием алгоритмической и программной компонент – технологий параллельного программирования.

Метод распараллеливания вычислений существует уже давно, организация совместного функционирования множества независимых процессоров требует проведения серьезных теоретико-практических исследований, без которых сложная и относительно дорогостоящая многопроцессорная установка часто не только не превосходит, а уступает по производительности традиционному компьютеру.

Потенциальная возможность распараллеливания неодинакова для вычислительных задач различного типа – она значительна для научных программ, содержащих много циклов и длительных вычислений и существенно меньше для инженерных задач, для которых характерен расчет по эмпирическим формулам.

В данном курсовом проекте рассматриваются две основные темы:

1. Многопроцессорные вычислительные системы – (массивно-параллельные суперкомпьютеры) Cray T3D(E) с количеством процессоров от 40 до 2176. Это суперкомпьютеры с распределенной памятью на RISC-процессорах типа Alpha21164A, с топологией коммуникационной сети – трехмерный тор, операционной системой UNIX с микроядром и трансляторами для языков FORTRAN, HPF, C/C++. Поддерживаемые модели программирования: MPI, PVM, HPF.

2. Беовульф-кластеры рабочих станций. Кластеры рабочих станций – совокупность рабочих станций, соединенных в локальную сеть. Кластер – вычислительная система с распределенной памятью и распределенным управлением. Кластерная система может обладать производительностью, сравнимой с производительностью суперкомпьютеров. Кластеры рабочих станций обычно называют Беовульф-кластерами (Beowulf cluster – по одноименному проекту), связанны локальной сетью Ethernet и используют операционную систему Linux.

Также в данном курсовом проекте рассматриваются все сопутствующие этим двум темам понятия и определения необходимые для понятного изложения материала.

Интерфейс MPI поддерживает создание параллельных программ в стиле MIMD (Multiple Instruction Multiple Data), что подразумевает объединение процессов с различными исходными текстами. Однако писать и отлаживать такие программы очень сложно, поэтому на практике программисты, гораздо чаще используют SPMD-моделъ (Single Program Multiple Data) параллельного программирования, в рамках которой для всех параллельных процессов используется один и тот же код. В настоящее время все больше и больше реализаций MPI поддерживают работу с так называемыми "нитями".

Поскольку MPI является библиотекой, то при компиляции программы необходимо прилинковать соответствующие библиотечные модули.

После получения выполнимого файла необходимо запустить его на требуемом количестве процессоров.

После запуска одна и та же программа будет выполняться всеми запущенными процессами, результат выполнения в зависимости от системы будет выдаваться на терминал или записываться в файл.

Процессоры с сокращенным набором команд (RISC). В основе RISC-архитектуры (RISC – Reduced Instruction Set Computer) процессора лежит идея увеличения скорости его работы за счет упрощения набора команд.

Исследования показали, что 33% команд типичной программы составляют пересылки данных, 20% – условные ветвления и еще 16% – арифметические и логические операции. В подавляющем большинстве команд вычисление адреса может быть выполнено быстро, за один цикл. Более сложные режимы адресации используются примерно в 18% случаев. Около 75% операндов являются скалярными, то есть переменными целого, вещественного, символьного типа и т. д., а остальные являются массивами и структурами. 80% скалярных переменных – локальные, а 90% структурных являются глобальными. Таким образом, большинство операндов – это локальные операнды скалярных типов. Они могут храниться в регистрах.

Согласно статистике, большая часть времени тратится на обработку операторов "вызов подпрограммы" и "возврат из подпрограммы". При компиляции эти операторы порождают длинные последовательности машинных команд с большим числом обращений к памяти, поэтому даже если доля этих операторов составляет всего 15%, они потребляют основную часть процессорного времени. Только около 1% подпрограмм имеют более шести параметров, а около 7% подпрограмм содержат более шести локальных переменных.

В результате изучения этой статистики был сделан вывод о том, что в типичной программе доминируют простые операции: арифметические, логические и пересылки данных. Доминируют и простые режимы адресации. Большая часть операндов – это скалярные локальные переменные. Одним из важнейших ресурсов повышения производительности является оптимизация указанных операторов.

В основу RISC-архитектуры положены следующие принципы и идеи. Набор команд должен быть ограниченным и включать только простые команды, время выполнения которых после выборки и декодирования один такт или чуть больше. Используется конвейерная обработка. Простые RISC-команды допускают эффективную аппаратную реализацию, в то время как сложные команды могут быть реализованы только средствами микропрограммирования. Конструкция устройства управления в случае RISC-архитектуры упрощается, и это дает возможность процессору работать на больших тактовых частотах. Использование простых команд позволяет эффективно реализовать и конвейерную обработку данных, и выполнение команд.

Сложные команды RISC-процессором выполняются дольше, но их количество относительно невелико. В RISC-процессорах небольшое число команд адресуется к памяти. Выборка данных из оперативной памяти требует более одного такта. Большая часть команд работает с операндами, находящимися в регистрах. Все команды имеют унифицированный формат и фиксированную длину. Это упрощает и ускоряет загрузку и декодирование команд, поскольку, например, код операции и поле адреса всегда находятся в одной и той же позиции. Переменные и промежуточные результаты вычислений могут храниться в регистрах. С учетом статистики использования переменных, большую часть локальных переменных и параметров процедур можно разместить в регистрах. При вызове новой процедуры содержимое регистров обычно перемещается в оперативную память, однако, если количество регистров достаточно велико, удается избежать значительной части длительных операций обмена с памятью, заменив их операциями с регистрами. Благодаря упрощенной архитектуре RISC-процессора, на микросхеме появляется место для размещения дополнительного набора регистров.

В настоящее время вычислительные системы с RISC-архитектурой занимают лидирующие позиции на мировом компьютерном рынке рабочих станций и серверов. Развитие RISC-архитектуры связано с развитием компиляторов, которые должны эффективно использовать преимущества большого регистрового файла, конвейеризации и т. д.

В течение последних лет наблюдался бурный рост производительности микропроцессоров и вычислительной техники на их основе. Однако, не смотря на это, потребность в суперкомпьютерах не снизилась, а наоборот продолжает расти. Многие задачи, требующие решения, являются весьма требовательными к вычислительным ресурсам. А это требует создания вычислительных систем, превышающих самые современные микропроцессоры по производительности во много раз. Становится очевидным, что единственным выходом из этой ситуации становится использование многопроцессорных технологий. Эти технологии имеют массу преимуществ. Одним из них является возможность масштабирования этих систем, а именно изменения объёма вычислительных ресурсов за счёт числа процессоров, используемых в системе. Поэтому многопроцессорность в настоящее время перестаёт быть чертой, исключительно присущей суперкомпьютерам.

Сама же идея параллельной обработки данных была выдвинута более сотни лет назад до появления первого компьютера Чарльзом Бэббиджем, но существовавшие на тот момент технологии не могли позволить ему реализовать её. И вот, с появлением ЭВМ эти идеи стали воплощаться в жизнь. До недавнего времени этим воплощением были супер ЭВМ, но и им появилась альтернатива. И эта альтернатива - кластер .

Кластерные системы возникли как более дешевое решение проблемы недостатка вычислительных ресурсов, и основываются на использовании в своей архитектуре широко распространенных и относительно дешевых технологий, аппаратных и программных средств, таких как PC, Ethernet, Linux и т.д. Использование массовых технологии в кластерных системах стало возможным благодаря значительному прогрессу в развитии компонентов обычных вычислительных систем, таких как центральные процессоры, операционные системы, коммуникационные среды.

Кластерные системы

Кластер всегда состоит из узлов, являющихся полноценными компьютерами, которые соединены сетью для выполнения обмена данными. При этом, эти компьютеры не обязательно должны быть однотипными, система может быть и гетерогенной, объединяя в себе компьютеры различной архитектуры - от персональных ЭВМ до сверхпроизводительных супер ЭВМ.

Кластер может быть как территориально сосредоточен, так и распределён. Построению распределённых кластеров способствует развитие глобальной сети Internet. На наш взгляд, в будущем будет происходить преобладание именно этого типа кластеров, что позволит получить вычислительные мощности огромных объёмов, которые не будут уступать отдельным супер ЭВМ.

При построении кластеров можно выделить два следующих подхода:

·в кластерную систему собираются все доступные компьютеры, которые также могут функционировать и отдельно. Например в такую кластерную систему можно объединить компьютеры, находящиеся в учебной аудитории или подключённые к университетской сети;

·в кластерную систему целенаправленно соединяются промышленно выпускаемые ЭВМ. При это создаётся мощный вычислительный ресурс. Этот подход позволяет удешевить саму кластерную систему, т.к. не требуется снабжать каждый отдельный узел монитором, клавиатурой и другими периферийными устройствами.

Кластерные системы являются развитием параллельных систем. Чтобы показать место кластерных систем среди остальных типов параллельных архитектур вычислительных систем нужно привести их классификацию. Параллельные системы могут быть классифицированы по различным критериям.

Одним из наиболее распространенных способов классификации ЭВМ является систематика Флинна (Flynn), в рамках которой основное внимание при анализе архитектуры вычислительных систем уделяется способам взаимодействия последовательностей (потоков) выполняемых команд и обрабатываемых данных.

SISD (Single Instruction, Single Data) - системы, в которых существует одиночный поток команд и одиночный поток данных. К такому типу можно отнести обычные последовательные ЭВМ;

SIMD (Single Instruction, Multiple Data) - системы c одиночным потоком команд и множественным потоком данных. Подобный класс составляют многопроцессорные вычислительные системы, в которых в каждый момент времени может выполняться одна и та же команда для обработки нескольких информационных элементов; такой архитектурой обладают, например, многопроцессорные системы с единым устройством управления. Этот подход широко использовался в предшествующие годы (системы ILLIAC IV или CM-1 компании Thinking Machines), в последнее время его применение ограничено, в основном, созданием специализированных систем;

MISD (Multiple Instruction, Single Data) - системы, в которых существует множественный поток команд и одиночный поток данных. Относительно этого типа систем нет единого мнения: ряд специалистов считает, что примеров конкретных ЭВМ, соответствующих данному типу вычислительных систем, не существует и введение подобного класса предпринимается для полноты классификации; другие же относят к данному типу, например, систолические вычислительные системы или системы с конвейерной обработкой данных;
MIMD (Multiple Instruction, Multiple Data) - системы c множественным потоком команд и множественным потоком данных. К подобному классу относится большинство параллельных многопроцессорных вычислительных систем.

Кластерные системы класса BEOWULF

Запредельная стоимость промышленных массивно-параллельных компьютеров не давали покоя специалистам, желающим применить в своих исследованиях вычислительные системы сравнимой мощности, но не имеющих возможностей приобрести промышленные супер-ЭВМ. Поиски в этом направлении привели к развитию вычислительных кластеров (не путать с кластерами баз данных и WEB-серверов); технологической основой развития кластеризации стали широкодоступные и относительно недорогие микропроцессоры и коммуникационные (сетевые) технологии, появившиеся в свободной продаже в девяностых годах.

Вычислительный кластер представляет собой совокупность вычислительных узлов (от десятков до десятков тысяч), объединенных высокоскоростной сетью c целью решения единой вычислительной задачи. Каждый узел вычислительного кластера представляет собой фактически программируемых электронно-вычислительных машин (часто двух- или четырех- процессорный/ядерный SMP-сервер), работающую со своей собственной операционной системой (в подавляющем большинстве Linux(*)); объединяющую сеть выбирают исходя из требуемого класса решаемых задач и финансовых возможностей, практически всегда реализуется возможность удаленного доступа на кластер посредством InterNet.

Вычислительные узлы и управляющий компьютер обычно объединяют (минимум) две (независимые) сети - сеть управления (служит целям управления вычислительными узлами) и (часто более производительная) коммуникационная сеть (непосредственный обмен данными между исполняемыми на узлах процессами), дополнительно управляющий узел имеет выход в Internet для доступа к ресурсам кластера удаленных пользователей, файл-сервер выполняет функции хранения программ пользователя (рисунок 12). Администрирование кластера осуществляется с управляющей ЭВМ (или посредством удаленного доступа), пользователи имеют право доступа (в соответствие с присвоенными администратором правами) к ресурсам кластера исключительно через управляющий компьютер.

Windows-кластеры значительной мощности до настоящего времени остаются экзотикой в силу известных причин (несмотря на активно продвигаемые MS решения класса Windows Compute Cluster Server - WCCS).

Одним из первых кластерных проектов явился проект BEOWULF. Проект "БЕОВУЛЬФ" был заложен в созданном на основе принадлежащей NASA организации GSFC (Goddard Space Flight Center) исследовательском центре CESDIS (Center of Excellence in Space Data and Information Sciences) в 1994 году и стартовал сборкой в GSFC 16шестнадцатиузлового кластера (на процессорах 486DX4/100 MHz, 16 Mb памяти, 3 сетевых адаптера на каждом узле и 3 параллельных 10 Mbit Ethernet-кабелей); вычислительная система предназначалась для проведения работ по проекту ESS (Earth and Space Sciences Project).

Позднее в подразделениях NASA были собраны другие модели BEOWULF-подобных кластеров: например, theHIVE (Highly-parallel Integrated Virtual Environment) из 64 двухпроцессорных (Pentium Pro/200 MHz, 4 Gb памяти и 5 коммутаторов Fast Ethernet в каждом) узлов. Именно в рамках проекта Beowulf были разработаны драйверы для реализации режима Channel Bonding.

"Беовульф" - типичный образец многопроцессорной системы MIMD (Multiple Instruction ? Multiple Data), при этом одновременно выполняются несколько программных ветвей, в определенные промежутки времени обменивающиеся данными. Многие последующие разработки во всех странах мира фактически являются кланами Beowulf.

В 1998 году в национальной лаборатории Лос-Аламос астрофизик Michael Warren с сотрудниками группы теоретической астрофизики построили вычислительную систему Avalon, представляющую Linux-кластер на процессорах DEC Alpha/533 MHz. Первоначально Avalon состоял из 68 процессоров, затем был расширен до 140, в каждом узле установлено 256 MB оперативной памяти, EIDE-жесткий диск 3,2 Gb, сетевой адаптер фирмы Kingston.

Узлы соединены с помощью четырех коммутаторов Fast Ethernet и центрального двенадцатипортового коммутатора Gigabit Ethernet фирмы 3Com.

Типичным образцом массивно-параллельной кластерной вычислительной системы являются МВС-1000M (коммуникационная сеть - Myrinet 2000, скорость обмена информацией 120-170 Мбайт/сек, вспомогательные - Fast и Gigabit Ethernet) и МВС-15000ВС.

Требование максимальной эффективности использования ресурсов вычислительных мощностей (как процессорных, так и оперативной и дисковой памяти) отдельных процессоров кластера неизбежно приводит к снижению "интеллектуальности" операционной системы вычислительных узлов до уровня мониторов; с другой стороны, предлагаются распределенные кластерные операционные системы - например, Amoeba, Chorus, Mach и др.

Специально для комплектации аппаратной части вычислительных кластеров выпускаются Bladed - сервера (*) - узкие вертикальные платы, включающие процессор, оперативную память (обычно 256 - 512 МБайт при L2-кэше 128 - 256 КБайт), дисковую память и микросхемы сетевой поддержки; эти платы устанавливаются в стандартные "корзины" формата 3U шириной 19 и высотой 5,25 до 24 штук на каждую (240 вычислительных узлов на стойку высотою 180 см). Для снижения общего энергопотребления могут применяться расходующие всего единицы ватт (против 75 W для P4 или 130 W для кристаллов архитектуры IA-64) процессоры Transmeta Crusoe серии TM 5x00 с технологией VLIW; при этом суммарная потребляемая мощность при 240 вычислительных узлах не превышает 1 кВт.

Заключение

Как уже было отмечено, в настоящий момент происходит бурное развитие параллельных вычислительных систем и кластерных систем в частности. Как показывает статистика распределения различных параллельных систем в мире, кластерные системы занимают не последнее место по производительности (как максимальной, так и пиковой).

Итак, подведём итог сказанному, перечислив преимущества и недостатки кластеров.

1. Наличие общедоступного ПО.

2.Возможность использования существующей сетевой инфраструктуры.

3. Не требуется приобретать специализированное оборудование.

4. Возможность создания гетерогенных вычислительных систем.

5. Возможность создания систем с произвольным количеством узлов(от двух до нужного количества).

6. Возможность использования кластера несколькими пользователями одновременно, причём каждый пользователь резервирует лишь необходимые для его вычислений ресурсы.

1. Скорость обмена между узлами зависит от используемого сетевого оборудования. А, следовательно, желательно использовать наиболее современное и дорогостоящее оборудование.

Как мы видим из перечисленного, кластерные технологии являются наиболее перспективным направлением для разработок и исследований в области высокопроизводительных вычислительных систем. Они позволяют добиться приемлемых результатов при приемлемом уровне затрат, что является одним из основных аргументов в их пользу.

Что такое Beowulf?

Поставщики традиционных коммерческих суперкомпьютеров (SMP, MPP, параллельных векторных) достаточно быстро улучшают производительность, надежность и простоту использования своих продуктов. Однако у этих компьютеров есть один большой недостаток - цена, подчас недоступная для многих образовательных и научно-исследовательских организаций. Однако потребность в вычислительных ресурсах у этих организаций велика.

Следует иметь в виду, что производительность персональных компьютеров на базе процессоров Intel в последние годы также значительно выросла. Такие компьютеры стали создавать серьезную конкуренцию рабочим станциям на базе RISC, особенно по показателю цена/производительность. Одновременно стала приобретать все большую популярность ОС Linux - бесплатно распространяемая версия UNIX. При этом в научных организациях и университетах, как правило, имеются энтузиасты бесплатного распространяемого ПО и специалисты ("гуру") по ОС Linux.

Возникла идея создавать параллельные вычислительные системы (кластеры) из общедоступных компьютеров на базе Intel и недорогих Ethernet-сетей, устанавливая на эти компьютеры Linux и одну из бесплатно распространяемых коммуникационных библиотек (PVM, а затем MPI). Оказалось, что на многих классах задач и при достаточном числе узлов такие системы дают производительность, сравнимую с суперкомпьютерной.

История проекта Beowulf

Проект возник в научно-космическом центре NASA - Goddard Space Flight Center (GSFC), точнее в созданном на его основе CESDIS (Center of Excellence in Space Data and Information Sciences).

Проект Beowulf начался летом 1994 года сборкой в GSFC 16-процессорного кластера (на процессорах 486DX4/100MHz, 16MB памяти и 3 сетевых адаптера на каждом узле, 3 "параллельных" Ethernet-кабеля по 10Mbit). Данный кластер, который и был назван "Beowulf", создавался как вычислительный ресурс проекта Earth and Space Sciences Project (ESS). Есть картинка с изображением этого первого Beowulf-а.

Далее в GSFC и других подразделениях NASA были собраны другие, более мощные кластеры. Например, кластер theHIVE (Highly-parallel Integrated Virtual Environment) содержит 64 узла по 2 процессора Pentium Pro/200MHz и 4GB памяти в каждом, 5 коммутаторов Fast Ethernet. Общая стоимость этого кластера составляет примерно $210 тыс. Доступна информация о производительности theHIVE на различных приложениях и тестах.

В рамках проекта Beowulf был разработан ряд высокопроизводительных и специализированных сетевых драйверов (в частности, драйвер для использования нескольких Ethernet-каналов одновременно).

Откуда возник термин "Beowulf"?

Изначательно термин "Beowulf" возник как собственное имя Linux-кластера в GSFC. Затем он стал применяться ко всем аналогичным кластерным системам (Beowulf-кластер, кластер "а-ля" Beowulf).

Avalon, суперкомпьютер на базе Linux

В 1998 году в Лос-аламосской национальной лаборатории астрофизик Michael Warren и другие ученые из группы теоретической астрофизики построили суперкомпьютер Avalon, который представляет из себя Linux-кластер на базе процессоров DEC Alpha/533MHz. Avalon первоначально состоял из 68 процессоров, затем был расширен до 140. В каждом узле установлено 256MB оперативной памяти, EIDE-жесткий диск на 3.2GB, сетевой адаптер от Kingston (общая стоимость узла - $1700). Узлы соединены с помощью 4-х 36-портовых коммутаторов Fast Ethernet и расположенного "в центре" 12-портового коммутатора Gigabit Ethernet от 3Com.

Общая стоимость Avalon - $313 тыс., а его производительность по LINPACK (47.7 GFLOPS) позволила ему занять 114 место в 12-й редакции списка Top500 (рядом с 152-процессорной системой IBM SP2). 70-процессорная конфигурация Avalon по многим тестам показала такую же производительность, как 64-процессорная система SGI Origin2000/195MHz стоимость которой превышает $1 млн.

В настоящее время Avalon активно используется в астрофизических, молекулярных и других научных вычислениях. На конференции SC'98 создатели Avalon представили доклад, озаглавленный "Avalon: An Alpha/Linux Cluster Achieves 10 Gflops for $150k" и заслужили премию по показателю цена/производительность ("1998 Gordon Bell Price/Performance Prize").

Mike Warren на фоне своего детища

Как построить Beowulf?

Кластер состоит из отдельных машин (узлов) и объединяющей их сети (коммутатора). Кроме ОС, необходимо установить и настроить сетевые драйверы, компиляторы, ПО поддержки параллельного программирования и распределения вычислительной нагрузки.

Одну из машин следует выделить в качестве центральной (головной) куда следует установить достаточно большой жесткий диск, возможно более мощный процессор и больше памяти, чем на остальные (рабочие) узлы. Имеет смысл обеспечить (защищенную) связь этой машины с внешним миром.

При комплектации рабочих узлов вполне возможно отказаться от жестких дисков - эти узлы будут загружать ОС через сеть с центральной машины, что, кроме экономии средств, позволяет сконфигурировать ОС и все необходимое ПО только 1 раз (на центральной машине). Если эти узлы не будут одновременно использоваться в качестве пользовательских рабочих мест, нет необходимости устанавливать на них видеокарты и мониторы. Возможна установка узлов в стойки (rackmounting), что позволит уменьшить место, занимаемое узлами, но будет стоить несколько дороже.

Возможна организация кластеров на базе уже существующих сетей рабочих станций, т.е. рабочие станции пользователей могут использоваться в качестве узлов кластера ночью и в выходные дни. Системы такого типа иногда называют COW (Cluster of Workstations).

Количество узлов следует выбирать исходя из необходимых вычислительных ресурсов и доступных финансовых средств. Следует понимать, что при большом числе узлов придется также устанавливать более сложное и дорогое сетевое оборудование.

2. Сеть. В простейшем случае используется один сегмент Ethernet (10Mbit/sec на витой паре). Однако дешевизна такой сети, вследствие коллизий оборачивается большими накладными расходами на межпроцессорные обмены; а хорошую производительность такого кластера следует ожидать только на задачах с очень простой параллельной структурой и при очень редких взаимодействиях между процессами (например, перебор вариантов).

Для получения хорошей производительности межпроцессорных обменов используют полнодуплексный Fast Ethernet на 100Mbit/sec. При этом для уменьшения числа коллизий или устанавливают несколько "параллельных" сегментов Ethernet, или соединяют узлы кластера через коммутатор (switch).

Более дорогостоящим, но также популярным вариантом являются использование коммутаторов типа Myrinet (1.28Gbit/sec, полный дуплекс). Менее популярными, но также реально используемыми при построении кластеров сетевыми технологиями являются технологии сLAN, SCI и Gigabit Ethernet.

Примерная конфигурация и ее стоимость

Возьмем следующую конфигурацию кластера: 12 машин по 2 процессора Pentium II/350MHz на материнских платах Iwill, 64MB памяти и сетевой адаптер 100Mbit Ethernet от 3Com на каждой машине; машины соединим "звездой" через 12-портовый коммутатор BayStack. На центральную машину установим жесткий диск IDE объемом 10 GB, видеокарту и 17-дюймовый монитор . Суммарная стоимость оборудования такого кластера составит около $11200 (взяты цены московских компьютерных магазинов по состоянию на апрель 1999 г.); а пиковая производительность - 10 GFLOPS (учтите, что реальная производительность на конкретных приложениях будет гораздо ниже).

Системное ПО

1. Операционная система. Следует установить бесплатно распространяемую OC Linux с усовершенствованным ядром версий 2.2.*. Дистрибутивы Linux распространяются через Интернет или на CD-ROM. Рекомендуемый дистрибутив - RedHat Linux версий 5.2 и позже. Существует также русифицированный дистрибутив - KSI Linux. Существует и отлажена техника загрузки Linux через сеть, что очень полезно для бездисковых конфигураций. Необходимо найти и правильно настроить наиболее подходящие к установленным адаптерам драйвера.

2. Компиляторы. Бесплатные компиляторы проекта GNU - GCC/G77, распространяемые вместе с Linux, к сожалению, не обеспечивают приемлемого уровня оптимизации программ. Имеет смысл выбрать коммерческие компиляторы Fortran/C/C++, входящие в пакет PGI Workstation компании Portland Group (PGI). Эти компиляторы адаптированы к платформе Intel и обеспечивают очень высокий уровень оптимизации для процессоров Pentium Pro/Pentium II (именно они используются на суперкомпьютере ASCI Red), и поддерживают популярный интерфейс OpenMP для распараллеливания программ в модели общей памяти на SMP-компьютерах. Стоимость поставки только компилятора Fortran 77 $299. Доступна evaluation-версия пакета PGI Workstation ("test drive").

После установки реализации MPI имеет смысл протестировать реальную производительность сетевых пересылок.

Кроме MPI, есть и другие библиотеки и системы параллельного программирования, которые могут быть использованы на кластерах. Следует понимать, что использование для программирования нестандартных средств ведет к плохой переносимости параллельных программ.

Смотрите также

Ссылки. Рекомендуемые статьи и Web-страницы по данной тематике

(PS, 236K) - для чего нужны Beowulf-кластеры? (PS, 93K) - высокоскоростные сетевые протоколы для кластеров.

Другие интересные проекты

Доступна статья "A Case for Networks of Workstations: NOW" (PS, 58K), опубликованная в феврале 1995 г. журналом IEEE Micro. Обсуждаются основные идеи проекта NOW.

Проект Condor (High Throughput Computing). Система Condor разрабатывается в университете шт. Висконсин (Madison). Condor распределяет независимые подзадачи по существующей в организации сети рабочих станций, заставляя компьютеры работать в свободное время (то есть в то время, когда они простаивали бы без своих пользователей). Программное обеспечение системы Condor доступно бесплатно. В настоящее время поддерживаются платформы SGI, Solaris, Linux, HP-UX, и Digital Unix, однако планируется также поддержка Windows NT.

Проект T-Система - система программирования и run-time среда, реализующие автоматическое динамическое распараллеливание программ. Разрабатывается в ИПС РАН (Переславль-Залесский). В рамках проекта создан специальный язык t2cp - функциональное расширение С. Система ориентирована на задачи с динамическим (скрытым до момента запуска) параллелизмом. В настоящее время T-система реализована для TCP/IP-сети Linux-компьютеров (в т.ч. SMP).

Проект MOSIX - программный модуль для поддержки кластерных вычислений на Linux. Разрабатывается в Hebrew University (Израиль). Обеспечивает элементы NUMA-функциональности на кластере. Встроены алгоритмы автоматического распределения загрузки. Программное обеспечение доступно бесплатно.

ВНИМАНИЕ! Если вы знаете о других интересных статьях, Web-страницах или новостях, посвященных параллельным вычислениям на кластерах - присылайте, пожалуйста, ссылки. Все Ваши замечания по поводу этого документа будут с благодарностью приняты.

Для эффективной работы многим из нас требуется современное аппаратное и программное обеспечение. Поэтому приходится идти в ногу с последними новинками техники. Но что делать с устаревшим оборудованием? Выбрасывать старую технику на свалку или убирать в дальний угол кажется расточительным. Более эффективное решение — построить из старого оборудования кластер Beowulf для ускорения вычислений.

О кластерах Beowulf

Что требуется для настройки кластера?

В первую очередь нам потребуется оборудование, которое мы собираемся использовать. Для этой статьи мы воспользовались нашими старыми верными ноутбуками, но с тем же успехом мы могли взять старые ПК или серверы. В любом случае, при построении кластера Beowulf желательно, чтобы его узлы состояли из сходного оборудования. Наши ноутбуки далеко не самые быстрые — на них установлены процессоры Intel® T2400 с тактовой частотой 1,83 ГГц и по 2 ГБ оперативной памяти. Они также снабжены сетевыми картами Ethernet, которые мы используем для соединения компьютеров в кластер. Для этого нам также потребуется коммутатор. Мы воспользовались старым коммутатором HP® 1800, но и здесь мы могли использовать обычную потребительскую технику (например, пятипортовый коммутатор для домашнего офиса) в зависимости от того, сколько узлов будет в нашем кластере.

Наш кластер Beowulf построен из шести старых ноутбуков и старого коммутатора.

Так как кластер Beowulf, согласно определению выше, должен использовать операционную систему с открытым исходным кодом, мы установили на ноутбуки дистрибутивы Linux®. Несмотря на то, что существуют операционные системы, специально предназначенные для кластерных вычислений на Beowulf, можно воспользоваться и обычной серверной операционной системой, такой как Debian®.

Настройка кластера Beowulf и установка COMSOL Multiphysics

Для нашего кластера мы выбрали Debian® Stable 6 — один из дистрибутивов, поддерживаемых в COMSOL Multiphysics на момент написания статьи. Далее мы перешли к настройке систем. В нашем сценарии мы попытались обойтись минимумом программ, установив только базовую систему с дополнительным сервером SSH для доступа к кластеру по сети. Графическая оболочка в нашем случае не требуется — она бы только снизила производительность нашей системы Beowulf.

После успешной установки операционной системы нам потребовалось настроить сеть и, конечно же, кластерную файловую систему для всех вычислительных узлов. Мы установили сервер NFS для кластерной файловой системы на первом узле, который будет работать как главный узел. После этого мы экспортировали оттуда пути к папкам для совместно используемой файловой системы. Один из примеров настройки:

Мы автоматически смонтировали эти совместно используемые файловые ресурсы на вычислительных узлах.

Так как на наших системах не установлена графическая оболочка, мы воспользуемся автоматизированным установщиком (см. стр. 77 COMSOL Multiphysics Installation Guide, руководства по установке COMSOL Multiphysics на английском языке).

Для нашей задачи мы изменили файл setupconfig.ini из установочного пакета. Самый важный шаг — изменить значение параметра showgui с 1 на 0. Кроме этого, важно указать путь назначения.

После этого запускается текстовый установщик, который выводит информацию в командной строке. Чтобы указать COMSOL Multiphysics, какие вычислительные узлы можно использовать, нам потребуется написать простой файл mpd.hosts, содержащий список имен узлов:

Наконец, мы запускаем COMSOL Server на первом узле кластера из шести узлов:

Теперь вы можете запустить COMSOL Multiphysics на своем компьютере и подключиться к серверу.

Результаты налицо: повышение производительности на старом оборудовании

Чтобы проверить работу нашего нового кластера, мы выбрали модифицированный вариант модели камертона (Tuning Fork), доступной в Галерее моделей. Для тестового запуска мы решили увеличить число параметров, вычисляемых при параметрическом анализе, до 48. После этого мы рассчитали модель с помощью команды batch в COMSOL Multiphysics, которая могла использовать от одного до шести ноутбуков. Вы можете увидеть статистику по выполненным задачам моделирования в сутки на графике ниже.

Увеличение производительности (в задачах в сутки) с учетом полного времени от открытия файла до сохранения результата для разного числа используемых ноутбуков.

Как вы можете видеть, шесть ноутбуков могут решить почти 140 задач в сутки, а один ноутбук — не более 40 задач в сутки. В целом, мы ускорили работу почти в 3,5 раза. Учитывая то, что мы использовали старые ноутбуки, это впечатляющий результат.

Стоит заметить, правда, что измеряется не время решения задачи, а полное время выполнения моделирования. Оно включает в себя открытие, расчет и сохранение модели. Чтение и запись по своей природе — последовательные задачи, и закон Амдала (о котором мы упоминали в более ранней статье о пакетном анализе) говорит, что мы не видим истинного роста производительности решателя. Если мы дополним наш кластер Beowulf функциональными возможностями COMSOL Client/Server и еще раз сравним время вычисления, мы получим еще больший прирост производительности, чем показанный выше.

Таким образом, мы действительно можем использовать нашу старую технику для COMSOL Multiphysics, чтобы повысить производительность и ускорить вычисления, особенно параметрические.

Наш эксперт. Дэвида Хейворда вырастили тюлени, природные враги пингвинов, но это отнюдь не мешало ему любить Linux.

Как минимум два компьютера.
Два экземпляра BCCD на диске или на USB-брелке. ISO-образ есть на нашем DVD.
Локальная проводная сеть с доступом к Интернету и DHCP.
Номер вашей любимой команды Folding@Home, либо – милости просим в команду LXF, 217805.

Кластеризация для всех

Конечно, на самом деле все немного сложнее, но заберись мы в дебри суперкомпьютеров и кластеризации, на рассказ ушел бы весь день; поэтому не будем. Обычно мы представляем себе суперкомпьютеры (или кластеры, как мы будем называть их далее) как что-то недоступное нам, простым смертным, и принадлежащее полубогам IT, чья работа – обитать в темных уголках серверных комнат, спрятанных глубоко во внутренностях огромных корпораций, кормить кластеры и удовлетворять их потребности.

На самом деле все совсем не так, по крайней мере, в основном, но до самых недавних пор кластеризация была недоступна обычным людям. С появлением Linux и бесплатных открытых операционных систем каждый, у кого есть немного знаний и по меньшей мере пара компьютеров, может успешно создать кластер и пользоваться им почти так же, как это делают в NASA. Кластеры можно применять для решения многих повседневных задач, стоит только захотеть. В кластерах высокой доступности HA (High Availability) есть избыточные узлы, вводимые в действие, если другой узел выходит из строя. Они используются в основном для рабочих целей, но вы можете пользоваться ими и дома, например, для запуска web-хостинга.

У вас может быть кластер хранения файлов, который предоставляет дисковое пространство для использования несколькими компьютерами через сеть – дома его можно использовать как сервер мультимедиа. Эта идея лежит в основе многих популярных облачных сервисов.

У нас может быть кластер обработки данных, или вычислительный кластер. Он использует циклы простоя процессоров на каждом узле для выполнения вычислений или моделирования. Последним мы и займемся далее, запустив его поверх нашей локальной сети и используя доступные нам ресурсы. Подобная архитектура также известна как кластер Беовульф.

Folding@Home

Первые шаги к успеху кластера

Следующий пункт в списке – экземпляр ISO BCCD. BCCD, сокращение от Bootable Cluster CD [Загрузочный диск кластера]; это образ Knoppix Linux, поставляемый с готовыми системами распределенных вычислений.

Возьмите ISO-образ с нашего диска или загрузите его с bit.ly/oOtbcO. Мы воспользовались 32-битным образом версии 3.x. Запишите образ на несколько дисков с помощью своей любимой программы или на несколько USB-брелков с помощью Unetbootin. Почему на несколько? Ну, вы ведь хотите запускать это не на одном компьютере, правда?

Покончив с записью (мы воспользовались брелками), включите свой первый компьютер, или главный узел, как мы будем его называть, откройте меню загрузки ПК, обычно клавишей F12 или похожей, и выберите носитель, с которого нужно загружаться. Это Live-образ, и он не повлияет на данные, хранимые на жестком диске – но, как и в большинстве таких случаев, лучше сделать резервную копию.

Загрузка главного узла

Во время загрузки BCCD задаст несколько вопросов; первым из них будет предложение нажать Enter для загрузки. Если при появлении заставки BCCD этого не происходит, не волнуйтесь, это загрузчик Unetbootin (или что-то похожее) перехватывает управление. Если в верху экрана есть пингвины и образ загружается, все хорошо.

Затем будет запрошен пароль (имя хоста заполняется автоматически). Просто нажимаем Enter, чтобы оставить его пустым (мы сделали так на обоих компьютерах); последнее, что нам нужно – чтобы пароли не совпали из-за неверно напечатанного слова, поэтому нажмите Enter для задания пустого пароля и еще раз – для подтверждения (см. рис. 1).

Рабочий стол BCCD

Вслед за этим должен появиться рабочий стол BCCD. Если этого не происходит и вы остаетесь в текстовом режиме, причина, возможно, в том, что не удалось загрузить X-сервер; в этом случае наберите startx и подождите, пока рабочий стол загрузится. Если все пройдет успешно, вы увидите на экране нечто вроде рис. 3.

Прополощем, постираем, повторим

Отлично, первый барьер преодолен. Оставьте первый компьютер и перейдите ко второму, он же – узел 2. Повторите те же действия: пустой пароль и т. д. Сетевая карта должна получить другой IP-адрес (если нет, перезагрузитесь и попробуйте снова), и через минуту или две вы должны смотреть на два одинаковых рабочих стола BCCD.

Создание кластера

Прежде чем начать смеяться злобным смехом и гладить белую кошку, наберем несколько команд, с целью убедиться, что два компьютера могут связаться друг с другом и кластер будет работать. На главном узле в верхнем окне Терминал [Terminal] RXVT (с черным фоном) введите следующие команды:

Эта команда соберет ключи SSH хостов, что позволит обмениваться данными между двумя хостами без ввода паролей. Теперь введите команду:

Она создаст или перезапишет файл machines, используемый программой MPI – подробнее о ней чуть позже. Сделайте то же самое на узле 2; хотя в теории этого не требуется, мы обнаружили. что BCCD лучше работает с одинаковыми файлами machines. Если вам интересно, что в этом файле, наберите в окне терминала главного узла команду:

и нажмите Enter.

Разворачиваем FAH

Освоить FAH нетрудно. Несмотря на то, что последняя версия – 7, мы воспользуемся версией 6, так как она уж точно работает с BCCD. На главном узле введите следующую команду в окне терминала:

mkdir -p ~/folding

Создастся каталог folding с родительскими каталогами (при необходимости). Затем выполните команду

Вы перейдете в новый каталог folding. Команда

загрузит клиент FAH в 32-битной версии с внешнего сервера. Команда

tar xzf FAH6.02-Linux.tgz /

распакует архив и извлечет необходимые файлы.

Теперь у нас есть клиент, и его нужно настроить для работы в BCCD. Для этого введите следующую команду:

Она сделает программу fah6 исполняемой. Наконец, нужно сделать так, чтобы клиент работал с должной командой участников и именем пользователя. Введите команду:

MPI: ввод и вывод

MPI (Message Passing Interface – интерфейс передачи сообщений) – программа, которая позволяет процессам взаимодействовать друг с другом путем отправки и приема сообщений через сеть. Она используется для программирования параллельных вычислений и выступает в качестве посредника между многими узлами, которые потенциально могут общаться друг с другом.

Другими словами, она нужна нам затем, чтобы FAH использовал процессоры на обоих компьютерах так, как если бы он работал на одном компьютере. На самом деле это очень сложно. MPI управляет вводом и выводом данных и гарантирует, что они верны и в них нет ошибок; это незаменимо для программы вроде FAH.

Работай, MPI, работай

Если просто запустить FAH на главном узле, то клиент будет принимать пакеты и обрабатывать их, но без помощи второго узла. Теперь нам нужно сообщить главному узлу, что он будет запускать клиент FAH в кластере из двух уже идентифицированных узлов (самого себя и узла 2) в соответствии с файлом machines, так что ему будут доступны вычислительная мощность и результаты обработки с обоих компьютеров. Не спешите пугаться – это значительно проще, чем кажется.

Первая задача – синхронизировать каталог folding с обоими узлами. Для этого перейдите во вновь созданный каталог folding (на главном узле), набрав в терминале: cd ~/folding. Текущий каталог можно определить по строке приглашения. Она должна быть bccd@node000:~/folding$, как на рис. 4. Когда вы окажетесь в каталоге FAH, введите следующую команду (только на главном узле): bccd-syncdir . ~/machines.

Она создаст синхронизируемую папку на основе информации из файла machines, это каталог ~/folding, а идентифицированные в кластере компьютеры, которые получают доступ к этому файлу – node000 и node009 (главный узел и узел 2). Через пару минут на экране должно появиться окно, показанное на рис. 5.

Запишите временный каталог, использованный при синхронизации, в данном случае это /tmp/node000-bccd. Он понадобится нам на следующем шаге. Затем нажмите OK для возврата в терминал. Синхронизация настроена; осталось вызвать MPI для запуска клиента FAH в синхронизируемом каталоге, доступ к которому имеют оба наших узла.

Чтобы запустить FAH в кластере, введите следующую команду в окно терминала:

mpirun -machinefile ~/machines -np 6 /tmp/node000-bccd/./fah6 -verbosity 9

Эта команда просит MPI запуститься и заглянуть в файлы machines для определения активных узлов. Ключ –np 6 сообщает MPI, что исполняемая команда должна использовать шесть процессоров. Каталог /tmp – временный, он используется при синхронизации. Часть ./fah6 -verbosity – исполняемый файл, который запускает FAH. Нажмите Enter, и вы должны увидеть окно, показанное на рис. 6.

Кластер благодеяний

Ну вот и все – поздравляю, вы только что создали свой первый суперкомпьютер, или кластер. И послужили на благо людям. Если вы ждали завывания сирен и десантников в масках, врывающихся в комнату через окно – простите, что разочаровал. Щелкнув правой кнопкой мыши на рабочем столе каждого узла, вы можете открыть утилиты X и в них Xload; так вы получите базовую информацию по загрузке процессора.

Если вам понадобятся графические клиенты для сбора статистики, поищите сами и выберите наилучший для вас. Но для начала щелкните правой кнопкой мыши на рабочем столе, выберите Clustering [Кластеры] и затем XPVM. Кликните на Hosts [Хосты] и добавьте другой хост (node000 или node 009), затем кликните на Tasks > Spawn [Задания > Размножить] и в командной строке наберите:

Посмотрите на различные представления – они должны дать вам приблизительное понятие о происходящих там процессах.

Остальное – за вами: как далеко вы намерены зайти в этом проекте? Есть ли у вас другие компьютеры, которые можно добавить в кластер? Что бы вы ни решили, помните, что здесь мы только коснулись поверхности, поэтому двигайтесь дальше и учреждайте кластеры во славу Linux Format.

Кластер по имени.

BCCD – не единственная кластерная система. На поиски в сети можно потратить целый день, но чтобы вы не слишком напрягали глаза, вот еще несколько:

Одни кластеры лучше, другие хуже, но обязательно прогуляйтесь на их сайты и убедитесь, что проекты еще живы и развиваются.

Распределенные вычисления

Если вам почeму-либо не нравится FAH или вы не согласны с ним, вот краткий список других всемирных проектов параллельных вычислений:

> SETI@Home – поиск внеземных цивилизаций с SETI.

> Docking@home – модель докинга (стыковки) молекул белка.

> AQUA@home – использует Quantum Monte Cairo для предсказания производительности сверхпроводниковых адиабатических квантовых компьютеров. Кхе.

> Einstein@home – к сожалению, не модель самого гения в натуральную величину, а поиск гравитационных волн.

Проектами буквально полнится Интернет – уверен, вам удастся найти что-нибудь для себя.|

Читайте также: