Использование больших данных в менеджменте реферат

Обновлено: 05.07.2024

Главным направлением перестройки менеджмента и его радикального усовершенствования, приспособления к современным условиям стало массовое использование новейшей компьютерной и телекоммуникационной техники, формирование на ее основе высокоэффективных информационно-управленческих технологий. Средства и методы прикладной информатики используются в менеджменте и маркетинге. Новые технологии, основанные на компьютерной технике, требуют радикальных изменений организационных структур менеджмента, его регламента, кадрового потенциала, системы документации, фиксирования и передачи информации. Особое значение имеет внедрение информационного менеджмента, значительно расширяющее возможности использования компаниями информационных ресурсов. Развитие информационного менеджмента связано с организацией системы обработки данных и знаний, последовательного их развития до уровня интегрированных автоматизированных систем управления, охватывающих по вертикали и горизонтали все уровни и звенья производства и сбыта.

В современных условиях эффективное управление представляет собой ценный ресурс организации, наряду с финансовыми, материальными, человеческими и другими ресурсами. Следовательно, повышение эффективности управленческой деятельности становится одним из направлений совершенствования деятельности предприятия в целом. Наиболее очевидным способом повышения эффективности протекания трудового процесса является его автоматизация. Но то, что действительно, скажем, для строго формализованного производственного процесса, отнюдь не столь очевидно для такой изящной сферы, как управление.

Трудности, возникающие при решении задачи автоматизированной поддержки управленческого труда, связаны с его спецификой. Управленческий труд отличается сложностью и многообразием, наличием большого числа форм и видов, многосторонними связями с различными явлениями и процессами. Это, прежде всего, труд творческий и интеллектуальный. На первый взгляд, большая его часть вообще не поддается какой-либо формализации. Поэтому автоматизация управленческой деятельности изначально связывалась только с автоматизацией некоторых вспомогательных, рутинных операций. Но бурное развитие информационных компьютерных технологий, совершенствование технической платформы и появление принципиально новых классов программных продуктов привело в наши дни к изменению подходов к автоматизации управления производством.

Глава 1. Понятие и структура информационных технологий в менеджменте.

Само понятие "технология" используется в производстве и определяется как система взаимосвязанных способов обработки материалов и приемов изготовления продукции в производственном процессе.

Управленческая деятельность в любой организации так же основана на переработке информации и производстве новой информации, что позволяет говорить о наличии технологии преобразования исходных данных в результатную информацию, т.е. информационная технология – это система методов и способов сбора. Передачи, накопления, обработки, хранения, представления и использования информации на основе применения технических средств.

Информационные технологии в соответствии с различием информационных процессов можно классифицировать на технологии:

Каждый конкретный информационный процесс может быть реализован отдельной технологией с использованием своей технологической базы, системы управления техническими средства и организационно-методического обеспечения.

Управленческая деятельность основана на реализации практически всех перечисленных видов информационных технологий в соответствии с последовательностью и содержанием отдельных этапов процесса принятия решений. Поэтому современные информационные технологии обеспечения управленческой деятельности основаны на комплексном использовании различных видов информационных процессов на базе единого технического комплекса, основой которого является средства компьютерной техники. В связи с этим очень часто под современными или новыми информационными технологиями понимают компьютерные технологии.

Развитие информационных технологий идет с нарастанием темпов. Так, до второй половины XIX в. В основу информационной технологии составляли бумага, чернильница и бухгалтерская, статистическая, учетная книга. Коммуникация (связь) осуществляется путем отправления адресату документов: столбцов, свитков – с курьером. Продуктивность информационной обработки была низкой: каждое письмо изготавливалось вручную, учетные и расчетные книги не только велись вручную, но и копировались повсеместно для создания информационной базы вышестоящих органов управления – московских приказов.

Серьезные изменения в информационной технологии этого периода сыграл переход с пергамента на бумагу, приведший к изменениям в технологии оформления документов, их комплектования в документальные процессы, создал почву для начала формирования офисных учётно-справочных массивов.

Ручную информационную технологию в конце XIX века заменила механизированная. Изобретения пишущей машинки, телеграфа, телефона – всё это послужило основой для изменений в создании, тиражировании, обработке управленческой информации и, как следствие, продуктивности работы. Но механизированная технология не привела к значительным изменениям организованной структуры существующих учреждений, технологии работы с документами.

Внедрение электрической технологии, основанная на широком использовании электрических пишущих машинок со сменными шрифтами, значительной оперативной памятью, копировальных машин на обычной бумаге, магнитофонов и диктофонов улучшили учрежденческую деятельность за счёт повышения качества, количества и скорости обработки документов. Многие учреждения работают на электрической технологии до настоящего времени.

Появление во второй половине 1960-х годов электронно-вычислительной машины на периферии учрежденческой деятельности, вычислительных центров начало смещать акцент в информационных технологиях на обработку не формы, а содержания информации. Это было началом формирования электронной, или компьютерной, технологии.

С появлением персональных компьютеров, стремительным наращиванием их быстродействия, объёмов памяти, программного обеспечения происходит принципиальная модернизация идеи автоматизации управления. Но становится очевидным, что самая современная вычислительная машина в обозримом будущем не сможет заменить человека.

В настоящее время речь идёт о структурной человекомашинной единице управления, которая оптимизирует в процессе работы: возможности компьютеров расширяются за счёт структуризации пользователем решаемых задач и пополнения её базы знаний, а возможности пользователя – за счёт автоматизации тех задач, которые ранее был целесообразно переносить на компьютер по экономическим или техническим соображениям. Доступность приобретений, возможности многоцелевого использования вводит компьютерные технологии в состав стандартного офисного делопроизводства.

В составе комплекса технических средств обеспечения информационных технологий выделяют средства компьютерной техники и средства организационной техники.

Современные офисные средства компьютерной техники могут быть разделены на персональные компьютеры и корпоративные компьютеры.

Персональные компьютеры представляют собой вычислительные системы, все ресурсы которых полностью направлены на обеспечение деятельности одного рабочего места управленческого работника. Это наиболее многочисленный класс средств вычислительной техники, в составе которого можно выделить персональный компьютер IBM PS и совместимые с ним, а также персональные компьютеры Macintosh фирмы "Apple".

Корпоративные компьютеры – это многопользовательские системы, имеющие центральный блок с большой вычислительной мощностью и значительными информационными ресурсами, к которому подсоединяются большое количество рабочих мест с минимальной оснащённостью: видеотерминал, клавиатура, устройство позиционирования типа "мышь" и, возможно, устройство печати (рис.1).

Рис. 1. Схема корпоративной компьютерной сети фирмы

Современная область использования корпоративных компьютеров – реализация информационных технологий обеспечение управленческой деятельности в крупных финансовых и производственных систем, обслуживающих большое количество пользователей в рамках одной функции: биржевые и банковские системы, бронирование и продажа билетов для оказания транспортных услуг населению и т.п.

Интенсивное развитие современных информационных технологий связано именно с широким распространением сначала 80-х годов персональных компьютеров, сочетающих относительную дешевизну с достаточно широкими для не профессионального пользователя возможностями.

В настоящее время преобладает тенденция объединения различных вычислительных систем в вычислительные сети различного масштаба, что позволяет интегрировать информационно-вычислительные ресурсы для наиболее эффективной реализации информационных технологий.

Принципиальные отличия компьютерных информационных технологий от ранее существовавших состоит не только в автоматизации процессов, изменения формы или местоположения информации, но в изменении её содержания.

Можно выделить две стратегии разработки реализации современных информационных технологий в управленческой деятельности.

Первая стратегия – информационная технология приспосабливается к организационной структуре в её существующем виде, происходит модернизация сложившихся методов работы:

- рационализируются в первую очередь рабочие места, происходит перераспределение функций между техническими работниками (операторами), специалистами (администраторами);

- происходит слияние функций сбора и обработки информации – физический поток документов – с функцией принятия решений – информационный поток;

- вопросам коммуникаций отводится второстепенная роль.

Вторая стратегия – организационная структура модернизируется таким образом, чтобы информационная технология дала наибольший эффект:

- основной стратегией являются максимальное развитие коммуникаций и разработка новых организационных взаимосвязей, ранее экономически нецелесообразных;

- вводятся новые рабочие места, ликвидируются старые должности, производится запроектированное перераспределение обязанностей практически всеми сотрудниками фирмы;

- разрабатывается новая нормативно-методическое обеспечение по организации документационного обеспечения, проводится сплошное переобучение сотрудников в в работе по новым технологиям;

- продуктивность организационной структуры возрастает, так как рационально распределяются архивные данные, снижается объём циркулирующей по системным канала информации и достигается сбалансированность эффективности каждого управленческого уровня и объёма решаемых задач.

Итак, первая стратегия ориентируется на существующую структуру учреждения, при этом степень риска от внедрения сводится к минимуму, ибо затраты минимальны и организационная структура не рационализируется; вторая – на будущую структуру, при которой система расширяется строго в соответствии с потребностями, но в заданных параметрах.

Для обеих стратегий принципиально меняется подход к использованию информационной технике: она становиться основой типового оснащения рабочего места в офисе. Тем самым ликвидируется разрыв между информационной и организационной структурой. Для новой информационной технологии характерны:

- работа пользователя в режиме манипулирования данными. Пользователь должен "видеть" - средства вывода: экран. Принтер – и " действовать" – средства вывода: клавиатура, "мышь", сканер;

- сквозная информационная поддержка на всех этапах прохождения информации на основе интегрированной базы данных, предусматривающая единую унифицированную форму представления, хранения, поиска, восстановления и защиты данных;

- безбумаженный процесс обработки документа, при котором на бумаге фиксируется только окончательный вариант документа, а промежуточные версии и необходимые данные записаны на машине носителе и доводятся до пользователя через экран видеотерминала;

- интерактивный (диалоговый) режим решения задачи с широкими возможностями для пользователя;

- возможность адаптивной перестройки формы и способа представления информации в процессе решения задачи.

При этом на счет универсальности используемых технических и программных средств обеспечения не только технологическая и методическая интеграция, но и организационная (физическая) интеграция информационных систем и процессов в виде широкой сети автоматизированных рабочих мест (AРМ).

Глава 2. Информационная система организации

Современные компании применяют информационные технологии для совершенствования методов работы. В результате изменяется организационная структура компании, разрабатываются новые организационные взаимосвязи, которые ранее экономически были невозможны. Вот почему информационные технологии являются весьма перспективной и эффективной сферой для капиталовложений. Принципиальная схема построения и взаимодействия основных элементов современной информационной системы организации приведена на рис. 24.1.

Во-вторых, осуществляется автоматизация отдельных функций руководителя. Выросло количество эффективно функционирующих автоматизированных систем, охватывающих производство, хозяйственную деятельность, организационно-технологические процессы и т.п. Все большая часть работы при составлении планов передается компьютеру. При этом существенно повышается качество планов, разработанных с использованием микрокомпьютеров на более низком уровне управления. Кроме того, четко согласуются планы для отдельных подсистем системы управления. Совершенствуются системы контроля, в том числе дающие возможность обнаружить отклонения от запланированного уровня и обеспечивающие обнаружение причин возникновения таких отклонений.

Автоматизированный офис предъявляет новые требования к деловым качествам руководителя, среди которых - умение и навыки пользоваться сложной техникой управления, определять стратегию развития системы, руководить коллективом, мотивировать и направлять его деятельность. Особое место занимает умение разрешать конфликты, оперативно реагировать на возникновение проблемных ситуаций, четко обосновывать принятые решения, своевременно доводить их до исполнителей. Творческий подход к решению управленческих задач, развитие стратегического мышления руководителей предполагают использование новых информационных технологий, возможностей автоматизированных офисов.

При обучении кадров большое внимание в настоящее время уделяется так называемым корпоративным системам, т.е. комплексным информационным системам управления предприятиями. В этом случае электронная обработка данных обеспечивает все стороны управления предприятиями. Находясь на своем рабочем месте, управляющие получают необходимую информацию по новым изделиям, производству, поставкам, финансам, экономике и др. Появление персональных компьютеров, которые могут быть подключены к другим ЭВМ, значительно расширило возможности использования баз данных конкретными пользователями для оперативного получения необходимой информации из больших ее массивов. Персональная ЭВМ дает возможность получать сопоставимые данные, отслеживать динамику изменения показателей, в том числе и в графическом виде.

Заключение

Сегодня управление организацией, если она хоть сколько-нибудь вышла за рамки кустарной мастерской, без применения информационных технологий не то, что не эффективно, но просто невозможно. Сегодня фирма может не иметь своего офиса, но ей просто необходимо иметь собственный e-mail – адрес. Скорость принятия решений в современном мире играет решающее значение, особенно это касается решений управленческих. От того насколько быстро организация среагирует на изменение во внешних или внутренних условиях зависит само дальнейшее существование этой организации. Повысить оперативность, достоверность и полноту информации позволяют современные информационные технологии.

Каждый день создается новое программное решение в чем-то опережающее своих предшественников. Задача управляющего следить за новыми технологиями и внедрять их в своей организации по мере необходимости. Главное в любом деле знать меру: не гнаться за модными веяниями и не идти на поводу у большинства, а начинать использование лишь те нововведения, прибыль от которых будет действительно больше, чем затраты на их внедрение.

В системе коммуникаций немаловажную роль играют информационные технологии. Интернет стал частью повседневной жизни любого человека. Через сети Интернет можно осуществлять различные операции купли-продажи, игры на биржах, поиск информации относительно новостей науки, экономики, искусства, медицины и т.д. Посредствам сети Интернет производится налаживание новых каналов связи, поиск новых клиентов и знакомств.

Широкое применение нашел ряд различных прикладных программ, обеспечивающих менеджеру свободу в действиях без особых затрат времени и усилий.

В условиях бурного развития научно-технического прогресса существование современного человека вне информации невозможно.

1. Борзов К.Л. Менджмент. – М.: Юристъ, 2003.

2. Волков В.И. Информация и менеджмент. М., 2005

3. Менеджмент: Конспект лекций. – Информационные системы в экономике (под редакцией В.Д. Камаева). М., 2006.

4. Информационное обеспечение в управлении предприятием. Учебник (под редакцией А.С. Буханцева). М., 2007.

5. Документальное обеспечение управления – А.В.Пшенко 3-е издание. М.:Форум, 2002.

Функция "чтения" служит для ознакомления с работой. Разметка, таблицы и картинки документа могут отображаться неверно или не в полном объёме!

Оглавление Введение

Глава 1. Динамика управления персоналом - от интуитивных решений к аналитике

.1 Понятие больших данных

.2 Понятие управления человеческими ресурсами

.3 Диджитализация как главный тренд управления персоналом

.4 Области использования больших данных и инструментов people analytics в управлении человеческими ресурсами

.4.1 Найм и отбор кандидатов

.4.2 Анализ сети организации

.4.3 Оценка эффективности персонала

Глава 2. Совмещение культурного профиля сотрудников и систем больши данных

.1 Культурологическая платформа для составления культурного профиля сотрудника

.2 Культурные профили сотрудников на примере стран США и России

.3 Применения систем больших данных для анализа культурного профиля сотрудника

.4 Возможный вариант визуализации предлагаемого подхода

.4.1 Визуализация первого этапа: выбор страны для поиска кандидата по совместимости культурного профиля со страной компании-работодателя

.4.2 Визуализация второго этапа: выбор кандидата на основе анализа больших данных

.5 Преимущества и возможные риски предлагаемого подхода

.6 Прогноз факторов, способствующих развитию использования инструментов people analytics и больших данных в управлении персоналом

Глоссарий основных терминов

Список использованной литературы

управление человеческий персонал профиль

Большие данные сегодня привлекают внимание во многих областях. Доступность данных разных типов, появляющихся из различных источников и с ускоряющимися темпами, а также новые интеллектуальные методы анализа, которые обещают автоматически обнаруживать и прогнозировать новые интересные факты, сулят большой потенциал системам больших данных.

Интеллектуальный анализ больших данных рассматривается как важный источник информации, которая может быть использована для принятия более обоснованных решений в различных областях. Управление персоналом, или управление человеческими ресурсами, выделяется как одна из этих областей, где ранее основанные на интуиции и ожиданиях человека решения теперь могут базироваться на реальных данных.

Учитывая постоянно увеличивающийся объем данных, хранящихся в различных автоматизированных системах управления персоналом и хранилищах данных, неудивительно, что управление человеческими ресурсами выделено в качестве области, в которой большие данные могут принести пользу. Мощные новые технологии позволяют совместить внутренние данные с невероятным объемом данных из внешних источников для принятия эффективных управленческих решений в области HR.

Некоторые компании уже используют большие данные в управлении человеческими ресурсами. На данный момент их опыт показывает, что большие данные улучшают, но не заменяют HR-функцию.

Несмотря на достаточно большое количество исследований и статей на тему больших данных в управлении персоналом, эта область по-прежнему недостаточно изучена. На сегодняшний день обсуждается вопрос значимости больших данных в HR. Проблема управления человеческими ресурсами заключается в том, чтобы понять, какие решения должны принимать люди, а какие должны быть переданы в руки технологий.

В последнее время наметилась устойчивая тенденция к тому, что ведущие отраслевые компании, непрерывно совершенствующие деятельность своих предприятий, стремятся обеспечить управление с полным пониманием происходящих процессов, повысить оперативность в принятии решений, улучшить и оптимизировать качество планирования, используя для этого промышленные системы управления (Industrial Control Systems, ICS) и большие данные (Big Data — структурированные и неструктурированные данные огромных объемов и многообразия).

Таким образом, исходя из сказанного выше, подходы к решению проблем обеспечения кибербезопасности для защиты предприятий и организаций от угроз и атак также необходимо организовывать для больших данных, осуществляя интеллектуальное управление сетевым трафиком и поведением передаваемых по сетям пакетов. Обычно в интеллектуальных решениях для бизнеса сделан акцент использование внутренних структурированных данных и аналитической информации, основанной на определенных правилах, и уже потом эти сведения обрабатываются для принятия того или иного решения. Как следует из самого определения, переход к большим данным приводит к увеличению диапазона и разнообразия поступающей в систему управления информации. В современных системах эти данные могут быть проанализированы, а следовательно, будет получена дополнительная информация о сопутствующих факторах. Благодаря этому мы имеем более тонкое и точное понимание процессов, что позволяет принять оптимальное решение, усовершенствовать выполнение тех или иных процессов и повысить осведомленность о безопасности и наличии или отсутствии угроз.

Большие данные — отнюдь не хаос, по размеру и скорости они масштабируются предсказуемым и простым способом, а потому инструменты отчетности бизнес-аналитики могут развиваться вполне органично. Причем решающее значение, естественно, имеет короткий период ожидания и обработки. Для того чтобы ускорить получение результатов при использовании больших данных, этому процессу следует обеспечить преимущество, добавив возможности просмотра текущей ситуации в режиме реального времени. Таким образом, в повседневных ситуациях оперативный, инженерный и диспетчерский персонал будет реагировать более гибко и принимать более эффективные решения.

Преимущества управления с использованием больших данных

Сырые, то есть необработанные и неструктурированные данные, если они потом не превращаются в знания, сами по себе не столь полезны. Поэтому их необходимо анализировать и использовать в интересах лиц, принимающих решения, с учетом конкретного сектора индустрии и архитектуры применяемой сети. Ответом на такую потребность становятся средства программной аналитики и инструменты, подходящие для принятия решений по управлению теми или иными активами, промышленными и технологическими процессами. С точки зрения эффективного применения больших данных для улучшения выпускаемых продуктов и повышения качества и производительности соответствующих процессов, компании могут также визуализировать собранные сведения.

Основой любой архитектуры сети, работающей с большими данными и использующей их для системы управления (ICS), является возможность накапливать архивные, или исторические данные, а также инфраструктура, которая дополняет их. Такая архитектура Big Data и сопутствующая инфраструктура служат для агрегирования и представления исторических данных в реальном времени непосредственно в платформу процессов управления для последующей аналитики. Не следует упускать из виду и необходимость иметь надежную инфраструктуру, предназначенную для сбора данных с датчиков, которая должна быть интегрирована в оборудование и системы и обеспечивать возможность их подключения к аналитике больших данных.

Имплементация Big Data и архитектура сети должны гарантировать, что инфраструктура связи с датчиками является достаточно сложной и неоднозначной. Это необходимо, чтобы впоследствии должным образом исследовать и изучать возможные инциденты, происходящие из-за тех или иных нарушений, и не допустить их проявления в будущем. Что касается непосредственно больших данных, их объем определяют сети и связанные с ними функциональные бизнес-единицы. Поскольку все больше секторов индустрии уже использует такие информационные ресурсы, то они, соответственно, смогут создавать больше данных, что со временем станет преимуществом конкретного предприятия при переходе к их конвергенции с системой управления.

Все большее распространение в индустриальном секторе цифровых платформ приводит к тому, что очередная эволюция такой платформы должна найти новые варианты и возможности для промышленных объектов в части сетевого подключения и создания таким путем дополнительной стоимости. Одной из таких платформ является Fieldbus , которая считается ключевой технологией средств промышленной автоматизации и позволяет промышленным объектам добиться значительного повышения производительности и, соответственно, экономической эффективности. Капиталоемкий процесс эволюции цифровых платформ в первую очередь нацелен на дорогостоящие производственные активы с длительным жизненным циклом, критические для конкретных отраслей индустрии и, следовательно, на протяжении всего срока эксплуатации требующие постоянного усиленного мониторинга и уже на его основе — прогнозного технического обслуживания.

Цифровые решения Fieldbus выбирают многие компании — исходя из открывающихся благодаря их использованию возможностей для повышения производительности и снижения совокупной стоимости владения объектами (Total Cost of Ownership, TCO), что достигается за счет максимизации применения производственного и технологического оборудования, а также сооружений и объектов инфраструктуры. Это же касается и критериев выбора платформы для работы с большими данными. Такая платформа не должна стать некой самоцелью, а привнести новую ценность благодаря сбору и хранению данных, поступающих от дорогостоящих производственных активов и процессов, в структуре которых она работает. Это также предоставит новые возможности для повышения производительности труда и создания сервисов, основанных на структурированной информации, поступающей в виде больших данных от таких активов и процессов.

Текущая осведомленность в части кибербезопасности

Непрерывный мониторинг трафика данных, собранных по всей системе предприятия в реальном времени, позволит, например, быстро обнаружить нехарактерную активность или несанкционированную деятельность и сделать это с помощью предварительного моделирования ситуации и машинного обучения в части соответствующего реагирования (рис. 1). Таким образом, владельцы предприятий и аудиторы систем защиты от киберпреступности получают беспрецедентные возможности по обнаружению и точному пониманию проблем устойчивости системы, причем независимо от того, что именно произошло: кибератака, операционный сбой или иной инцидент. В этом случае решения по захвату и анализу пакетов способны проанализировать каждый из них в реальном времени при прохождении захваченного пакета через сеть предприятия. Причем уровни протоколов для передачи пакетов можно разбить так, чтобы можно было определить маршрут, точки назначения и детали по каждому пакету данных.

Рис. 1. Непрерывный мониторинг трафика данных позволяет, например, быстро обнаружить нехарактерную активность или несанкционированную деятельность

Анализируя каждый пакет, можно разработать и использовать нормальные шаблоны трафика, позволяющие выявлять отклонения с высокой вероятностью предупреждения их возникновения. Однако существуют проблемы безопасности, исходящие непосредственно от среды получения больших данных, что также необходимо нивелировать с помощью решений, которые обеспечивают защиту и коррелируют с непрерывной эволюцией нереляционных баз данных. Здесь мы имеем в виду меры безопасности для защиты автоматизированной передачи данных, обеспечивающие высокий уровень проверки достоверности (валидации) информации для подтверждения ее аутентичности, происхождения и точности. Кроме того, необходимо противодействовать извлечению данных для последующего несанкционированного использования, предусмотреть шифрование управления доступом на основе атрибутов и наличие возможностей для подробного аудита, который может управлять таким поистине огромным объемом данных.

Шесть преимуществ больших данных

Поставщики и провайдеры систем управления (ICS), объединяющих разрозненные источники данных в единое целое и анализирующих их через распознавание шаблонов, что позволяет конечным пользователям принимать более эффективные решения, будут определять новую базу для конкуренции и роста бизнеса компаний, что, соответственно, создает и условия для дальнейшего роста всей мировой экономики. Однако практическая реализация решений с использованием больших данных может быть затруднена, поскольку собранная информация предоставляется с большого числа удаленных узлов сети, датчиков и систем, что может потребовать не только значительных финансовых вложений, но и затрат времени на их имплементацию, а также технических знаний и опыта.

Большие данные можно применить для следующих целей:

Сделать информацию более транспарентной (прозрачной).
Получить дополнительную детальную информацию об эффективности того или иного производственного и технологического оборудования, что стимулирует инновации и повышает качество конечной продукции.
Использовать более эффективную, точную аналитику, чтобы минимизировать риски и заранее обнаруживать проблемы, незаметные до непосредственного их проявления и способные иногда приводить к катастрофическим последствиям.
Внедрить те или иные идеи и проанализировать полученные результаты в контролируемых экспериментальных средах и таким образом определить целесообразность конкретных инвестиционных проектов.
Обеспечить персонал центра управления (диспетчерской) операционными данными в режиме реального времени, содержащими информацию от систем автоматизации производственных и технологических процессов и аналитику. Это делает управление рисками более эффективным и минимизирует время простоя оборудования, что, в свою очередь, приводит к сокращению персонала управления на 15% и увеличению выпуска конечной продукции на 5%.
Укоренить революционное управление цепочками поставок, прогнозирование спроса, комплексное бизнес-планирование, организацию сотрудничества с поставщиками и эффективный анализ рисков.

Что мешает внедрять новые технологии?

В ходе проведенных исследований (рис. 2) некоторые респонденты отметили, что у них недостаточно знаний для обоснования затрат, связанных с технологией, рассматриваемой в рамках настоящей статьи. Другие ссылались на нехватку ресурсов и времени. Более половины респондентов сообщили, что у них уже есть экономически эффективные и достаточно надежные системы для обеспечения безопасности и роста доходов, а их компании успешно развиваются и без использования больших данных. В то время как сторонники рекламируют большие данные и видят их преимущество в огромном объеме информации, который может улучшить работу предприятий, скептики подчеркивают, что Big Data способствуют расширению зон для кибератак и при отсутствии достаточных защитных слоев негативно влияют на обеспечение кибербезопасности.

Одно из решений проблемы, связанной с повышением отдачи от больших данных, заключается в развертывании мощных визуализаций, охватывающих все доступные данные. Это позволит обеспечить мультиструктурное и итеративное обнаружение нарушений и раскрывает информацию без необходимости направления каких-либо запросов.

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.

Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.

Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.

История вопроса и определение термина

Термин Big Data появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года (ссылка):

При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и осветить вопрос – необходимо определиться с понятием.

В своей практике я встречался с разными определениями:

· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)

· Big Data – это такие данные, которые невозможно обрабатывать в Excel

· Big Data – это такие данные, которые невозможно обработать на одном компьютере

· Вig Data – это вообще любые данные.

· Big Data не существует, ее придумали маркетологи.

В этом цикле статей я буду придерживаться определения с wikipedia:

Большие данные (англ. big data) — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

Таким образом под Big Data я буду понимать не какой-то конкретный объём данных и даже не сами данные, а методы их обработки, которые позволяют распредёлено обрабатывать информацию. Эти методы можно применить как к огромным массивам данных (таким как содержание всех страниц в интернете), так и к маленьким (таким как содержимое этой статьи).

Приведу несколько примеров того, что может быть источником данных, для которых необходимы методы работы с большими данными:

· Логи поведения пользователей в интернете

· GPS-сигналы от автомобилей для транспортной компании

· Данные, снимаемые с датчиков в большом адронном коллайдере

· Оцифрованные книги в Российской Государственной Библиотеке

· Информация о транзакциях всех клиентов банка

· Информация о всех покупках в крупной ритейл сети и т.д.

Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

Принципы работы с большими данными

Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:

1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.

2. Отказоустойчивость. Принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, Hadoop-кластер Yahoo имеет более 42000 машин (по этой ссылке можно посмотреть размеры кластера в разных организациях). Это означает, что часть этих машин будет гарантированно выходить из строя. Методы работы с большими данными должны учитывать возможность таких сбоев и переживать их без каких-либо значимых последствий.

3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.

Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.

MapReduce

Про MapReduce на хабре уже писали (раз, два, три), но раз уж цикл статей претендует на системное изложение вопросов Big Data – без MapReduce в первой статье не обойтись J

MapReduce – это модель распределенной обработки данных, предложенная компанией Google для обработки больших объёмов данных на компьютерных кластерах. MapReduce неплохо иллюстрируется следующей картинкой (взято по ссылке):

MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

1. Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи.

Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

Несколько дополнительных фактов про MapReduce:

1) Все запуски функции map работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

2) Все запуски функции reduce работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.

4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).

5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.

Примеры задач, эффективно решаемых при помощи MapReduce

Word Count

Начнём с классической задачи – Word Count. Задача формулируется следующим образом: имеется большой корпус документов. Задача – для каждого слова, хотя бы один раз встречающегося в корпусе, посчитать суммарное количество раз, которое оно встретилось в корпусе.

Раз имеем большой корпус документов – пусть один документ будет одной входной записью для MapRreduce–задачи. В MapReduce мы можем только задавать пользовательские функции, что мы и сделаем (будем использовать python-like псевдокод):

Функция map превращает входной документ в набор пар (слово, 1), shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1]), reduce суммирует эти единички, возвращая финальный ответ для слова.

Обработка логов рекламной системы

Второй пример взят из реальной практики Data-Centric Alliance.

Задача: имеется csv-лог рекламной системы вида:

Необходимо рассчитать среднюю стоимость показа рекламы по городам России.

Функция map проверяет, нужна ли нам данная запись – и если нужна, оставляет только нужную информацию (город и размер платежа). Функция reduce вычисляет финальный ответ по городу, имея список всех платежей в этом городе.

Резюме

В статье мы рассмотрели несколько вводных моментов про большие данные:

· Что такое Big Data и откуда берётся;

· Каким основным принципам следуют все средства и парадигмы работы с большими данными;

· Рассмотрели парадигму MapReduce и разобрали несколько задач, в которой она может быть применена.

Первая статья была больше теоретической, во второй статье мы перейдем к практике, рассмотрим Hadoop – одну из самых известных технологий для работы с большими данными и покажем, как запускать MapReduce-задачи на Hadoop.

В последующих статьях цикла мы рассмотрим более сложные задачи, решаемые при помощи MapReduce, расскажем об ограничениях MapReduce и о том, какими инструментами и техниками можно обходить эти ограничения.

773 Слова | 4 Стр.

Big Data

3626 Слова | 15 Стр.

Big data

5390 Слова | 22 Стр.

Big Data презентация

1488 Слова | 6 Стр.

Big data. Презентация

BIG DATA Рустамов Мамур. RISEBA Рост цифровых данных и доступной памяти Прогноз роста данных до 2015 года Обвал данных • Каждый день в мире производится 2,5 квинтильона (1018) байтов данных. 90% данных созданы за последние два года. • Каждый час Wal-Mart совершает 1 миллион сделок, пополняя базу данных на 2,5 петабайта (1015)- в 170 раз больше объема данных Библиотеки Конгресса США. • Объем отправлений, доставляемых американской Почтовой службой за один год, равен 5 петабайтам.

938 Слова | 4 Стр.

big data реферат

3770 Слова | 16 Стр.

big data

Большие данные (англ. Big Data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

914 Слова | 4 Стр.

введение заключение отчёт

информатизация культуры, Big Data, повышение эффективности, Минкультуры России. Объектом исследования являются рабочие процессы, составляющие основу функциональной деятельности структурных подразделений Минкультуры России, а также возможность и целесообразность их автоматизации с использованием технологий обработки больших данных. Целью работы является исследование возможности и научно-техническое обоснование принятия решения по выбору информационных технологий Big Data в сфере информатизации культуры.

21776 Слова | 88 Стр.

13771 Слова | 56 Стр.

электронный_бизнес

6350 Слова | 26 Стр.

Primenenie_tekhnologii_big_data_v_sfere_obrazovania

1065 Слова | 5 Стр.

ВЛИЯНИЕ МЕТОДОВ БОЛЬШИХ ДАННЫХ НА СОВРЕМЕННОЕ ОБЩЕСТВО

1608 Слова | 7 Стр.

презентация_Уткин

Применение технологий (фактор масштаба) (интеллектуальные системы управления, системы автоматизации); - IoT (интернет вещей); - Embedded Systems системы); (встраиваемые - Big Data (большие данные); - Mobility (мобильность); Smart Home / Умные дома малый масштаб (small scale) Smart Cities / Умные города большой масштаб (big scale) и т.д. Технологические тематики - Комплексы систем жизнеобеспечения и инженерных систем; - Комплексы систем безопасности; - Комплексы ИТ-систем; - Системы видео-мониторинга;.

874 Слова | 4 Стр.

Квалификационная работа

Stream — Single Data Stream) — один поток команд и один поток данных. 2. SIMD (Single Instruction Stream — Multiple Data Stream) — один поток команд и несколько потоков данных. 3. MISD (Multiple Instruction Stream — Single Data Stream) — несколько потоков команд и один поток данных. 4. MIMD (Multiple Instruction Stream — Multiple Data Stream) — несколько потоков команд и несколько потоков данных. Рассмотрим эту классификацию более подробно. SISD (single instruction stream / single data stream) - одиночный.

7453 Слова | 30 Стр.

KR_VSRPP

= NULL) < CString strAboutMenu; strAboutMenu.LoadString(IDS_ABOUTBOX); if (!strAboutMenu.IsEmpty()) < pSysMenu->AppendMenu(MF_SEPARATOR); pSysMenu->AppendMenu(MF_STRING, IDM_ABOUTBOX, strAboutMenu); >> SetIcon(m_hIcon, TRUE);// Set big icon SetIcon(m_hIcon, FALSE);// Set small icon m_listF.AddString(L"F"); m_listF.AddString(L"S"); m_listN.AddString(L"T"); m_listN.AddString(L"F"); m_listF.SetCurSel(2); return TRUE; return TRUE; // return TRUE unless you set the focus to.

1901 Слова | 8 Стр.

Тенденции развития рынка ИТ

экспортеров ПО в 2012 году, но темп роста за этот период снизился. Половина от общего дохода пришлась на услуги заказной разработки для внешних компаний, готовые продукты принесли участникам рынка 40% выручки. Объем российского рынка DLP (Data Loss Prevention) в 2012 году составил 32 млн. долларов (1,3 млрд рублей) в ценах заказчиков. что примерно на 44% больше аналогичного показателя за 2011 год. Резко отрицательную динамику продемонстрировал сегмент бизнес ПО: число компаний.

3561 Слова | 15 Стр.

Android

| | | |$filename = '/path/to/data-file'; | |$file = fopen($filename, 'r') .

1321 Слова | 6 Стр.

Министерство образования и науки Республики Казахстан

11362 Слова | 46 Стр.

Технология IoT Интернет вещей правовые проблемы множатся угрозы информационной безопасности растут

opportunity. Promising technology brings additional threats to information security, in particular, problems related to the processing of personal data. We propose two legislative solutions that can make the technology IoT (Internet of Things) is safer. Ключевые слова: Интернет вещей, Большие данные, кибербезопасность Keywords: Internet of Things, Big Data, cybersecurity Созданная в 1999 году технология IoT (Интернет вещей) бурно развивается, так что к 2016 количество подключенных к Интернету устройств.

877 Слова | 4 Стр.

Безопасность при администрировании ИС

защитит от утечки информации при потере носителя или ноутбука. Но, если инсайдер передаст носитель вместе с ключом, на котором зашифрована информация другой стороне, то такой метод защиты будет бесполезен. Системы выявления и предотвращения утечек (Data Leakage Prevention, DLP). Данные системы также называют системами защиты конфиденциальных данных от внутренних угроз (далее, системы защиты от утечек). Эти системы контролируют каналы утечки данных в реальном времени. Существуют комплексные (покрывающие.

7659 Слова | 31 Стр.

политтехнолог будущего

696 Слова | 3 Стр.

инфографика и вузализация знаний

Здесь рассматривают эволюцию области визуализации, предоставляя инновационные примеры из различных дисциплин, акцентируя внимание на важной роли, которую играет визуализация в добыче и организации понятий, найденных в сложных данных. Mauldin S. Data vizualization and Infographics /Sarah K. C. Mauldin, Ellyssa Kroski / Beverley E Care [Place of publication not identified] : Rowman & Littlefield, 2015 Мульди Сара, Визуальзация данных и инфографика Руководство по созданию понятной, с первого.

15204 Слова | 61 Стр.

РЕШЕНИЯ IBM

1386 Слова | 6 Стр.

Бизнес аналитика в банковском секторе

Сокращение временного объема, необходимого для обработки информации Поиск оптимальных решений, на основе анализируемой информации Повышение эффективности работы специалистов Документирование важных данных, с возможностью быстрого доступа к ним С созданием Big Data (Большие Данные) возможность хранения и накопления информации стала намного больше. Маркетинговые исследования продажи, финансы, кадровые вопросы, производственная статистика – по всем вопросам, связанными с деятельностью, как организации, так и.

1021 Слова | 5 Стр.

Большие данные

Используется в data mining. Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining. Cluster analysis. Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining. Crowdsourcing. Методика сбора данных из большого количества источников. Data fusion and data integration. Набор.

3652 Слова | 15 Стр.

barsegyan_a_a_kupriyanov_m_s_kholod_i_i_tess_m_d_elizarov_s

организация хранилищ данных, оперативный (OLAP) и интеллектуальный (Data Mining) анализ данных. В третьем издании по сравнению со вторым, выходившем под названием "Технологии анализа данных: Data Mining, Text Mining, Visual Mining, OLAP", добавлены визуальный (Visual Mining) и текстовый (Text Mining) анализ данных, анализ процессов (Process Mining), анализ Web-ресурсов (Web mining) и анализ в режиме реального времени (Real-Time Data Mining). Приведено описание методов и алгоритмов решения основных.

Читайте также: