Что такое data mining кратко

Обновлено: 07.07.2024

Data Mining — это методология и процесс обнаружения в больших массивах данных, накапливающихся в информационных системах компаний, ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining является одним из этапов более масштабной методологии Knowledge Discovery in Databases.

Знания, обнаруженные в процессе Data Mining, должны быть нетривиальными и ранее неизвестными. Нетривиальность предполагает, что такие знания не могут быть обнаружены путем простого визуального анализа. Они должны описывать связи между свойствами бизнес-объектов, предсказывать значения одних признаков на основе других и т.д. Найденные знания должны быть применимы и к новым объектам.

Практическая полезность знаний обусловлена возможностью их использования в процессе поддержки принятия управленческих решений и совершенствовании деятельности компании.

Data Mining — это не один, а совокупность большого числа различных методов обнаружения знаний. Все задачи, решаемые методами Data Mining, можно условно разбить на шесть видов:

Data Mining носит мультидисциплинарный характер, поскольку включает в себя элементы численных методов, математической статистики и теории вероятностей, теории информации и математической логики, искусственного интеллекта и машинного обучения.

Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивалась и развивается на стыке таких дисциплин, как математическая статистика, теория информации, машинное обучение и базы данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. Например, алгоритм кластеризации k-means был заимствован из статистики.

В Data Mining большую популярность получили следующие методы: нейронные сети, деревья решений, алгоритмы кластеризации, в том числе и масштабируемые, алгоритмы обнаружения ассоциативных связей между событиями и т.д.

Основателем и одним из идеологов Data Mining считается Пятецкий-Шапиро. Впервые термин был введен в 1989 году на одном из семинаров, посвященных технологиям поиска знаний в базах данных, проводимых в рамках Международной конференции по искусственному интеллекту (International Joint Conference on Artificial Intelligence) IJCAI-89.

Data mining (с англ. добыча данных) – это автоматизированный поиск данных, основанный на анализе огромных массивов информации. За цель берется идентификация тенденций и паттернов, которая при обычном анализе невозможна. Для сегментации данных и оценки вероятности последующих событий используются сложные математические алгоритмы.

Основные составляющие data mining:

Автоматическое обнаружение паттернов. Для этого выстраиваются специальные модели, на базе которых задействуются определенные алгоритмы анализа и разбора данных.
Прогнозирование вероятных результатов. Согласно некоторым формам data mining можно устанавливать так называемые “правила” или “ограничения”, чтобы повысить уровень точности прогноза события.
Генерирование релевантной информации. Также есть формы data mining, которые могут помочь сегментировать группы потребителей с учетом необходимых характеристик, что значительно повышает точность таргетинга рекламы.
Фокусирование внимания на больших массивах данных. Несмотря на то, что природа целей статистики и data mining очень схожа, есть несколько существенных отличий:

Статистические методы требуют постоянного контроля специалистов для корректировки и подтверждения исправности работы модели анализа, что делает их практически не автоматизированными.

Data mining, в свою очередь, очень легко автоматизируется.

Статистические методы обычно работают с небольшими объемами информации, так называемыми выборками, что существенно искажает прогнозируемость результатов.

Алгоритмы data mining выстроены таким образом, чтобы непосредственно работать с огромными массивами информации. Так что, чем больше данных, тем лучше!

А для обработки собранной информации используется другая структура – online analytical processing. Это быстрый онлайн анализ данных, собранных с разных площадок. Таким образом, взаимодействие этих двух структур помогает сделать сбор и анализ данных ультра быстрым.

Лимиты возможностей Data Mining

Data mining не принесет пользу без обдуманного управления. Сам процесс даст результаты только в случае четкого понимания специфики самого бизнеса, данных, методов аналитики. Data mining позволяет раскрыть новые способы применения данных компании, но необходим непосредственный анализ для определения ценности найденных паттернов.
Важно помнить, что спрогнозированные взаимоотношение потребителей с брендом, не обязательно являются причиной его действий. Таким образом, data mining поможет идентифицировать группу потребителей, которые вероятно купят продукт, но принадлежность к этой группе не будет причиной их покупки.

Кратко о процессе data mining.

Всего существует 4 этапа добычи данных:

– определение проблемы (задачи);

– сбор данных и подготовка к анализу;

– построение модели и оценка;

– использование полученных знаний на практике.

Остановимся на основных задачах каждого из этапов.

Определение проблемы

Четкое обозначение целей и требований. Изначально стоит определить проблему, которую необходимо решить. Например, как продать больше продукта потребителю. Далее следует интерпретировать этот вопрос в понятную для data mining цель – каких потребителей вероятнее всего заинтересует этот продукт. После чего можно установить требования к аудитории и тд.

Сбор данных и подготовка к анализу

Поиск и сбор данных ;
Определить, насколько релевантна собранная информация длярешениябизнес проблемы (определенной на первом этапе);
Снять шум – убрать ненужную информацию;
Идентифицировать закономерности и паттерны ;
Построение таблицы , в которой будет структурировано собрана информация, необходимая для будущей модели анализа.

Построение модели анализа и оценка

Корректировка параметров и технологий построения модели для создания оптимизированной системы анализа проблемы;
Соотношение получившейся модели и проблемы , которую она призвана решить. Если они отличаются, возвращаемся на этап выше.

Использование полученных знаний на практике

Применение полученных результатов для таргетинга ;
Изучение специфики модели , которая принесла определенные результаты (или не принесла, тоже важно понимать, что было сделано не верно во избежание повторения ошибок).

Сам процесс добычи данных бесконечен. Это круговорот взаимодополняющих и последовательных шагов, которые помогают идентифицировать, решить и определить новую задачу.

Результаты data mining процесса становятся базисом для новых бизнес задач.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных ) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году [1] [2] [3] .

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Содержание

Введение

Методы Data Mining (или, что то же самое, Knowledge Discovery In Data, сокращённо, KDD) лежат на стыке баз данных, статистики и искусственного интеллекта [8] .

Исторический экскурс

Область Data Mining началась с семинара (англ. workshop), проведёного Григорием Пятецким-Шапиро в 1989 году. [1]

Постановка задачи

Первоначально задача ставится следующим образом:

ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;
доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Эти требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.

Data mining и базы данных

Data mining и статистика

Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена.
Вы можете отредактировать эту статью, добавив ссылки на авторитетные источники.
Эта отметка установлена 11 апреля 2012.

В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы. В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что часто исследователи для упрощения необоснованно используют параметрические тесты вместо непараметрических, и во вторых, результаты анализа трудно интерпретируемы [источник не указан 233 дня] , что полностью расходится с целями и задачами Data mining [источник не указан 233 дня] . Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.

Data mining и искусственный интеллект

Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:

ассоциативные правила;
деревья решений;
кластеры;
математические функции.

Задачи

Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive ) и предсказательные (англ. predictive ).

В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

поиск ассоциативных правил или паттернов (образцов);
группировка объектов, кластерный анализ;
построение регрессионной модели.

К предсказательным задачам относятся:

классификация объектов (для заранее заданных классов); , анализ временны́х рядов.

Алгоритмы обучения

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.

Этапы обучения

Выделяется типичный ряд этапов решения задач методами Data Mining:

Формирование гипотезы;
Сбор данных;
Подготовка данных (фильтрация);
Выбор модели;
Подбор параметров модели и алгоритма обучения;
Обучение модели (автоматический поиск остальных параметров модели);
Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

Подготовка данных

Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.

Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными.

Очищенные данные сводятся к наборам признаков (или векторам, если алгоритм может работать только с векторами фиксированной размерности), один набор признаков на наблюдение. Набор признаков формируется в соответствии с гипотезами о том, какие признаки сырых данных имеют высокую прогнозную силу в расчете на требуемую вычислительную мощность для обработки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа.

Ряд алгоритмов умеют обрабатывать пропущенные данные, имеющие прогностическую силу (например, отсутствие у клиента покупок определенного вида). Скажем, при использовании метода ассоциативных правил (англ.) русск. обрабатываются не векторы признаков, а наборы переменной размерности.

См. также

Примечания

Литература

Ссылки

Добавить иллюстрации.
Проставив сноски, внести более точные указания на источники.
Переработать оформление в соответствии с правилами написания статей.

Математическая статистика
Хранилище данных
Инженерия знаний
Анализ данных

Wikimedia Foundation . 2010 .

Полезное

Смотреть что такое "Data mining" в других словарях:

Data Mining — [engl.], Datenfilterung … Universal-Lexikon

data mining — data .mining n [U] the process of using a computer to examine large amounts of information about customers, in order to discover things about them that are not easily seen or noticed … Dictionary of contemporary English

data mining — data ,mining noun uncount COMPUTING the process of searching a DATABASE using special software in order to find out information, for example what type of people buy a product . It is often used by companies as a way of trying to increase sales … Usage of the words and phrases in modern English

Data mining — Not to be confused with analytics, information extraction, or data analysis. Data mining (the analysis step of the knowledge discovery in databases process,[1] or KDD), a relatively young and interdisciplinary field of computer science[2][3] is… … Wikipedia

Data Mining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… … Deutsch Wikipedia

Data mining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… … Deutsch Wikipedia

Data-Mining — Unter Data Mining (der englische Begriff bedeutet etwa „aus einem Datenberg etwas Wertvolles extrahieren“, eine adäquate deutsche Übersetzung existiert nicht.[1] Der Duden empfiehlt die Schreibweise „Data Mining“[2]) versteht man die… … Deutsch Wikipedia

Data Mining — Exploration de données L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction … Wikipédia en Français

Data mining — Exploration de données L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction … Wikipédia en Français

Data Mining — von Professor Dr. Richard Lackes I. Begriff und Motivation Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhängen zwischen Planungsobjekten, deren Daten in einer … Lexikon der Economics

В публикациях на JavaRush мы стараемся регулярно делать обзоры профессий, ниш и специализаций в ИТ-сфере. В первую очередь тех, в которых активно применяется язык программирования Java и написанные на нем платформы и решения. Сегодня поговорим о Data mining (“добыча данных”, “интеллектуальный анализ данных”, “глубинный анализ данных” или просто “майнинг данных” в русскоязычной интерпретации). “Мы верим в Бога. Чтобы поверить во все остальное, нужны данные.” Уильям Эдвардс Деминг (W. Edwards Deming), американский ученый и статистик.

Что такое Data mining?

Data mining — это собирательное название, которое используется для описания целого ряда методов исследования и анализа больших объемов данных для выявления в них закономерностей и правил. Добыча данных считается отдельной дисциплиной в области науки о данных. Если говорить о распространенном применении знаний и разработок в данной сфере, то Data mining компании чаще всего используют для того, чтобы извлекать из данных полезную для себя информацию. С помощью программных решений для поиска паттернов в больших объемах данных компании могут изучать поведение и привычки потребителей, чтобы разрабатывать более эффективные маркетинговые решения, повышать продажи и сокращать расходы. Кроме того, методы интеллектуального анализа данных используются для построения моделей машинного обучения (machine learning, ML), которые используются в современных приложениях искусственного интеллекта, таких как алгоритмы поисковых систем и системы рекомендаций, например. “Можно иметь данные, но не иметь информации, но информации без данных не бывает.” Дэниел Киз Моран (Daniel Keys Moran), эксперт в программировании и писатель.

Чем Data mining отличается от Больших данных (Big data)?

Также будет полезно сразу прояснить, чем добыча данных как понятие отличается от Больших данных (к слову, о применении Java в сфере больших данных у нас есть отдельная статья). Если говорить по-простому, то термином Big data обозначают все аспекты больших объемов данных разного рода, включая как структурированные, так и неструктурированные данные, их сбор, хранение, классификацию и т.д. Тогда как Data mining относится исключительно к глубокому погружению в данные для извлечения ключевых знаний, шаблонов и сходств, а также другой информации из данных любого объема (как большого, так и не очень). Таким образом, оба понятия относятся к данным и в целом пересекаются, но Data mining — это уже об использовании собранной информации с конкретными целями. “Без глубинного анализа данных компании ничего не видят и не слышат; в Сети они так же беспомощны и растеряны, как олень, выбежавший на автостраду.” Джеффри Мур (Geoffrey Moore), писатель и специалист по теории менеджмента.

Сферы применения Data mining

Маркетинг и таргетинг целевых групп потребителей в ритейле.

Чаще других дата майнинг применяют ритейлеры, чтобы лучше понимать потребности своих клиентов. Анализ данных позволяет им более точно разделять потребителей по группам и подстраивать под них рекламные акции.

Например, продуктовые супермаркеты часто предлагают покупателям завести карту постоянного клиента, которая открывает скидки, недоступные остальным. С помощью таких карт ритейлеры собирают данные о том, какие покупки совершают те или иные группы потребителей. Применение глубинного анализа к этим данным позволяет изучать их привычки и предпочтения, адаптируя к учётом этой информации ассортимент и акции.

Управление кредитными рисками и кредитными историями в банках.

Банки разрабатывают и внедряют модели интеллектуального анализа данных для прогнозирования способности заемщика брать и погашать кредиты. Используя разного рода демографические и личные данные заемщика, эти модели автоматически определяют процентную ставку в зависимости от уровня риска каждого клиента индивидуально.

Обнаружение и борьба с мошенничеством в финансовой сфере.

Финансовые организации используют Data mining для обнаружения и предотвращения мошеннических транзакций. Данная форма анализа применяется ко всем транзакциям, и зачастую потребители даже не подозревают об этом. Например, отслеживание регулярных расходов клиента банка позволяет автоматически выявлять подозрительные платежи и мгновенно задерживать их осуществление до тех пор, пока пользователь не подтвердит покупку. Таким образом Data mining используется для защиты потребителей от разного рода мошенников.

Анализ настроений в социологии.

Анализ настроений на основе данных социальных сетей — также распространенная сфера применения глубинного анализа данных, в которой используется метод, называемый анализом текста. С его помощью можно получить понимание того, как определенная группа людей относится к определенной теме. Это делается с помощью автоматического анализа данных из социальных сетей или других публичных источников.

Биоинформация в здравоохранении.

В медицине Data mining модели используются, чтобы предсказывать вероятность возникновения у пациента различных недугов на основании факторов риска. Для этого собирают и анализируют демографические, семейные и генетические данные. В развивающихся странах с большим населением такие модели не так давно начали внедрять, чтобы диагностировать пациентов и расставлять приоритеты медицинской помощи еще до прибытия врачей и личного осмотра.

Data mining и Java

RapidMiner — это открытая платформа для добычи данных, написанная на Java. Одно из лучших доступных решений для прогнозного анализа с возможностью создания интегрированных сред для глубокого обучения, анализа текстов и машинного обучения. Многие организации используют для глубинного анализа данных именно ее. RapidMiner можно использовать как на локальных серверах, так и в облаке.

Apache Mahout — это open source Java библиотека для машинного обучения от Apache. Mahout является именно инструментом масштабируемого машинного обучения с возможностью обработки данных на одной или нескольких машинах. Реализации данного машинного обучения написаны на Java, некоторые части построены на Apache Hadoop.

MicroStrategy — это программная платформа для бизнес-аналитики и анализа данных, которая поддерживает все модели добычи данных. Благодаря широкому набору собственных шлюзов и драйверов платформа может подключаться к любому корпоративному ресурсу и анализировать его данные. MicroStrategy отлично справляется с преобразованием сложных данных в упрощенные визуализации, которые можно использовать с разными целями.

Java Data Mining Package — это библиотека Java с открытым исходным кодом для анализа данных и машинного обучения. Она облегчает доступ к источникам данных и алгоритмам машинного обучения и предоставляет модули визуализации. JDMP включает в себя ряд алгоритмов и инструментов, а также интерфейсы для других пакетов машинного обучения и интеллектуального анализа данных (таких как LibLinear, Elasticsearch, LibSVM, Mallet, Lucene, Octave и другие).

Waikato Environment for Knowledge Analysis (WEKA) Machine Learning Suite — это открытый список алгоритмов, которые используются для разработки методов машинного обучения. Все алгоритмы WEKA заточены под машинное обучение и интеллектуальный анализ данных. Сейчас набор WEKA Machine Learning Suite широко используется в бизнес-среде, предоставляя компаниям упрощенный анализ данных и предиктивную аналитику.

Как осуществляется добыча данных

Определение бизнес-целей.

Для начала нужно сформировать общие бизнес-цели проекта и понять, как майнинг данных поможет их достичь. На этой стадии должен быть разработан план, включающий сроки, действия и назначения ролей.

Понимание данных.

На втором этапе проводится сбор необходимых данных из разных источников. Для изучения свойств данных, чтобы гарантировать, что они помогут достичь бизнес-целей, часто используют инструменты визуализации. На этом и следующем этапе чаще всего применяются Java-инструменты и, соответственно, требуется квалификация Java-программиста.

Подготовка данных.

Затем данные очищаются и дополняются, чтобы убедиться, что массив готов к добыче информации. В зависимости от объема анализируемых данных и количества источников данных, обработка может занимать огромное количество времени. Поэтому для обработки используют современные системы управления базами данных (СУБД), что позволяет ускорить процесс глубинного анализа.

Моделирование данных.

На этом этапе к данным применяются специальные инструменты и математические модели, которые позволяют находить в них закономерности.

Затем полученные результаты оценивают и сопоставляют с бизнес-целями, чтобы определить, позволяют ли полученные данные их достичь.

Развертывание.

Ну и на заключительном этапе добытые в результате вышеописанных шагов данные интегрируются в бизнес-операции. В качестве инструмента для внедрения полученной информации часто используют различные платформы бизнес-аналитики.

Читайте также: