Сбор данных это кратко

Обновлено: 05.07.2024

Понимание информации начинается со сбора данных. Технологии Intel® поддерживают инновационные методы сбора данных на периферии.

Выводы в отношении сбора данных:

Сбор и обработка данных — первый шаг конвейера данных для поддержки бизнес-аналитики, исследований, разработки и принятия решений.

Методы сбора данных быстро развиваются, растет разнообразие устройств интернета вещей, генерирующих данные на периферии, и аналитикам приходится работать с постоянно растущими базами данных, которые обрабатываются высокопроизводительными вычислительными системами.

Корпорация Intel предлагает передовые технологии для уровней процессора, сети и хранения, обеспечивающие быстрый сбор данных и их доступность на периферии, в облаке и ЦОД.

Сбор данных — первый шаг к аналитике. По мере развития периферийных технологий и Интернета вещей все больше разнообразных устройств используются для сбора все большего количества типов данных. Технологии Intel® работают, помогая упростить и ускорить процесс сбора данных из многочисленных источников и их сохранения в центре облака.

Сбор данных — первый шаг к аналитике. По мере развития периферийных технологий и Интернета вещей все больше разнообразных устройств используются для сбора все большего количества типов данных. Технологии Intel® работают, помогая упростить и ускорить процесс сбора данных из многочисленных источников и их сохранения в центре облака.

Что такое сбор данных?

Сбор данных или обработка данных — это первый шаг в конвейере данных, предусматривающий сбор информации из разнообразных источников. Цель сбора данных — предоставить необходимую информацию для бизнес-аналитики, исследований и принятия решений. Во многих случаях решения на основе данных могут приниматься в месте генерирования данных. Например, на умном производстве компьютерное зрение с ИИ может использоваться для контроля качества готовой продукции на производственной линии. В других случаях анализ может занимать намного больше времени и включать обработку нескольких петабайт данных, например, в таких сложных вычислительных задачах как геномное секвенирование. По мере развития интернета вещей, периферийных технологий и технологий ЦОД, методы и решения сбора данных становятся все более разнообразными.

Структурированные и неструктурированные данные

Существует два основных типа данных: структурированные и неструктурированные. Некоторые эксперты также используют термин полуструктурированные в отношении данных, имеющих характеристики обоих первых типов.

  • Структурированные данные — это конкретные организованные данные, которые можно легко считывать и интерпретировать на основе реляционных баз данных. Обычно это иерархические данные, которые можно легко сравнивать. К структурированным данным относятся данные по финансовым транзакциям, данные систем управления взаимоотношениями с клиентами (CRM), данные систем управления ресурсами предприятия (ERP), данные медицинских карт и т. д.
  • Неструктурированные данные носят более качественный характер и изначально менее организованы или упорядочены. Наборы неструктурированных данных сложно включать в иерархии, и они существенно опережают аналитику, оставляя большую часть данных "в темноте" или без анализа со стороны организации, которая производит и сохраняет эти данные. Обычно для хранения неструктурированных данных и доступа к ним используются нереляционные базы данных. В качестве примера неструктурированных данных можно привести аудиофайлы, файлы PDF, посты в социальных сетях, отзывы клиентов или архивные документы.

И структурированные, и неструктурированные данные могут собираться с метаданными, то есть с данными о самих этих данных. Например, цифровые камеры собирают метаданные о дате и времени съемки и оборудовании камеры, и эти метаданные включаются в файл цифровой фотографии.

Источники и способы сбора данных

Сбор данных описывает один из двух процессов: аналитики могут собирать и курировать информацию в базах данных и переносить ее в ЦОД или облачную среду для обработки; в то время как датчики интернета вещей, камеры и другие устройства могут собирать данные на периферии. Во многих случаях при работе с периферийным Интернетом вещей эти данные обрабатываются практически в реальном времени на периферийных серверах, что позволяет использовать их для автоматизированного обнаружения дефектов на умных заводах, интеллектуального управления трафиком в умных городах и т. п. Данные, собираемые на периферии, также можно перемещать в облако для дальнейшей обработки и анализа.

Источники и способы сбора данных стали более диверсифицированными и теперь включают:

  • Устройства и датчики Интернета вещей: с развитием периферийных технологий появилась возможность сбора данных с помощью автоматических процессов из беспрецедентного количества источников, включая датчики на промышленном оборудовании, канализационных трубах, мостах и т. .п., устройства мониторинга пациентов и многие другие устройства.
  • Сбор аудиовизуальных данных: По мере того как решения теперь включают анализ неструктурированных данных, в том числе аудио, изображение и видео, сбор этих данных стал беспрецедентно важным. Файлы с этими неструктурированными данными занимают намного больше места, и для их обработки требуется больше вычислительной мощности.
  • Аналитика в реальном времени: аналитика в реальном времени позволяет собирать и анализировать потоки данных на непрерывной основе. Например, датчики емкости помогут ретейлерам соблюдать требования общественного здравоохранения и отправлять оповещения в реальном времени при достижении или превышении безопасной емкости.
  • Анонимизированный сбор данных: В связи с требованиями конфиденциальности возникла необходимость анализировать некоторые данные без их привязки к физическому лицу, к которому они относятся. Сбор и обработка данных теперь могут включать группировку по демографическим параметрам без доступа к определенным персональным данным.
  • Курирование данных: Профессиональные аналитики специализируются на организации структурированных источников данных для поддержки сложного анализа таких аспектов как секвенирование генома, климатология и финансовые прогнозы. В связи с объемом этих наборов данных для их анализа обычно требуется инфраструктура высокопроизводительных вычислений.

Современная стратегия сбора данных может включать широкий спектр таких методик и источников.

Устройства сбора данных на периферии

Технологические требования стратегии сбора данных зависят от того, где генерируются данные и чего организация хочет добиться с помощью этих данных. Существует два важных преимущества обработки данных в том месте, где они собираются или генерируются. Первое преимущество заключается в том, что рабочие нагрузки не нужно перемещать в облако, так что организации могут сэкономить за счет более низких требований к сетевой инфраструктуре. Второе преимущество заключается в том, что обработка данных в месте их генерирования обеспечивает аналитику практически в реальном времени.

Устройства интернета вещей могут воспользоваться преимуществами процессоров машинного зрения Intel Atom® или Intel® Movidius™ Myriad™ X для обеспечения необходимой производительности для аудио-визуальных или сенсорных потоков на периферии. В зависимости от сценария использования, эти процессоры также хорошо подойдут для использования в небольших корпусах или даже на открытом воздухе. В случае периферийных рабочих нагрузок с большими объемами данных, таких как логическая обработка данных ИИ на нескольких видеопотоках, устройства ИИ и периферийные серверы с процессорами Intel® Core™ 11-го поколения или масштабируемыми процессорами Intel® Xeon® 3-го поколения обеспечивают более высокую пропускную способность данных, чем сами по себе периферийные серверы. Эти серверы также открывают более широкие возможности связи с разъемами расширения PCIe, благодаря чему системные интеграторы могут добавить дополнительные ускорители для конкретных моделей развертывания.

Технология сбора данных для облака и ЦОД

Перенос вычислительных нагрузок на периферию не всегда целесообразен. Если для конкретного решения требуется быстрое вертикальное масштабирование ресурсов сверх уровня, доступного на периферийном устройстве, то обработка данных в облаке будет более эффективной. Некоторые рабочие задачи требуют таких объемов вычислительных ресурсов, памяти и ресурсов хранения, что для своевременного генерирования результатов им требуется инфраструктура ЦОД или высокопроизводительных вычислений. В этих случаях технологии сбора данных будут наиболее эффективными в сбалансированной конфигурации, сочетающей в себе ключевые усовершенствования для вычислительных систем, систем хранения и сетевых систем и обеспечивающей более эффективное использование платформы и доступность данных.

  • Обработка: Масштабируемые Intel® Xeon® 3-го поколения идеально подходят для рабочих задач сбора данных в облаке или ЦОД. Эти процессоры обеспечивают в 1,92 раза более высокую производительность аналитики по сравнению с четырехпроцессорными платформами пятилетней давности 1 и при поддержке технологии Intel® DL Boost с BF16, в 1,93 раза более высокую производительность классификации изображений с помощью ИИ по сравнению с предыдущим поколением при выполнении задачи ResNet50 для классификации изображений 2 .
  • Сеть: Сетевыеадаптеры Intel® Ethernet серии 800 поддерживают скорость до 100GbE в разных форм-факторах, разнообразные операционные системы и гибкую конфигурацию портов. Встраиваемые технологии, такие как Dynamic Device Personalization (DDP), помогают снизить время задержки с программируемым поведением для обработки пакетов.
  • Хранениеданных: SSD-накопители Intel® Optane™ для ЦОД обеспечивают исключительно высокую скорость чтения-записи, большой объем для повышения плотности хранения и опции интерфейсов PCIe, позволяющие размещать данные ближе к процессору.

Ваша комплексная стратегия сбора данных

Обширный портфель Intel от периферии до облака обеспечивает производительность, пропускную способность и доступность данных, необходимые для быстрого, согласованного и надежного сбора и обработки данных. Корпорация Intel предлагает комплексный фундамент для вашего конвейера данных, позволяя использовать интеллектуальные периферийные устройства, сетевые решения с высокой пропускной способностью и высокую производительность вычислений с несколькими точками входа и форм-факторами. Решения Intel® позволяют организациям быстро перемещать данные, получать полезные аналитические данные и использовать их с пользой.

Сбор данных [data collec­tion] — процесс получения данных от источников их регистрации, т.е. их фиксирование на носителях данных (документах, машинных носителях и т.п.). В экономике регистрации подвергаются данные: а) постоянного первичного учета; б) уже подвергнутые обработке, производные (данные разного рода отчетов о производственной деятельности отдельных хозяйственных звеньев за определенные периоды, о движении обобщающих показателей развития народного хозяйства и др.); в) периодического наблюдения экономических явлений (в том числе статистических обследований, переписей, опросов); г) о ходе и результатах экономических экспериментов.

Собранные данные образуют первичную информацию и подвергаются процессам дальнейшей переработки (см. Обработка данных), для получения промежуточной и конечной информации и ее использования.

Экономико-математический словарь: Словарь современной экономической науки. — М.: Дело . Л. И. Лопатников . 2003 .

Смотреть что такое "Сбор данных" в других словарях:

сбор данных — 3.135 сбор данных (data collection): Сбор информации об изделиях, расчете времени, персонале, партиях изделий и других критических объектах для своевременного управления производством. Источник: ГОСТ Р … Словарь-справочник терминов нормативно-технической документации

сбор данных — duomenų rinkimas statusas T sritis automatika atitikmenys: angl. data acquisition vok. Datenerfassung, f; Datensammlung, f rus. сбор данных, m pranc. saisie des données, f … Automatikos terminų žodynas

сбор данных в интерактивном режиме — — [Е.С.Алексеев, А.А.Мячев. Англо русский толковый словарь по системотехнике ЭВМ. Москва 1993] Тематики информационные технологии в целом EN on line acquisitionOLA … Справочник технического переводчика

сбор данных и управление данными — — [А.С.Гольдберг. Англо русский энергетический словарь. 2006 г.] Тематики энергетика в целом EN data acquisition and controlDAC … Справочник технического переводчика

сбор данных с разделением времени — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN time sharing data acquisition … Справочник технического переводчика

Сбор данных об обстановке — процесс добывания (получения), накопления и обработки информации, необходимой для принятия управленческих решений на защиту и охрану ГГ, а также для управления войсками и органами ПС РФ при ведении ими служебно боевых действий. Осуществляется… … Пограничный словарь

Процесс сбора информации представляет собой деятельность субъекта, целью которой является получение сведений об интересующем его объекте.

Сбор информации может производиться или человеком, или с помощью технических средств и систем - аппаратно. Например, пользователь может получить информацию о движении поездов или самолетов сам, изучив расписание, или же от другого человека непосредственно, либо через какие-то документы, составленные этим человеком, или с помощью технических средств (автоматической справки, телефона и т. д.).

Из изложенного выше следует вывод, что система сбора информации может представлять собой сложный программно-аппаратный комплекс. Как правило, современные системы сбора информации не только обеспечивают кодирование информации и ее ввод в ЭВМ, но и выполняют предварительную (первичную) обработку этой информации.

Сбор информации - это процесс получения информации из внешнего мира и приведение ее к виду, стандартному для прикладной информационной системы. Обмен информацией между воспринимающей информацию системой и окружающей средой осуществляется посредством сигналов.

Сбор и регистрация информации происходят по-разному в различных экономических объектах. Наиболее сложна эта процедура в автоматизированных управленческих процессах промышленных предприятий, фирм и т.п., где производятся сбор и регистрация первичной учетной информации, отражающей производственно-хозяйственную деятельность объекта.

Особое значение при этом придается достоверности, полноте и своевременности первичной информации. На предприятии сбор и регистрация информации происходят при выполнении различных хозяйственных операций (прием готовой продукции, получение и отпуск материалов и т.п.). Сначала информацию собирают, затем ее фиксируют. Учетные данные могут возникать на рабочих местах в результате подсчета количества обработанных деталей, прошедших сборку узлов, изделий, выявление брака и т.д.

Для сбора фактической информации производятся измерение, подсчет, взвешивание материальных объектов, получение временных и количественных характеристик работы отдельных исполнителей. Сбор информации, как правило, сопровождается ее регистрацией, т.е. фиксацией информации на материальном носителе (документе или машинном носителе).

Запись в первичные документы в основном осуществляется вручную, поэтому процедуры сбора и регистрации остаются пока наиболее трудоемкими.

В условиях автоматизации управления предприятием особое внимание придается использованию технических средств сбора и регистрации информации, совмещающих операции количественного измерения, регистрации, накоплению и передаче информации по каналам связи в ЭВМ с целью формирования первичного документа.

Процесс сбора информации связан с переходом от реального представления предметной области к его описанию в формальном виде и в виде данных, которые отражают это представление.

Источниками данных в любой предметной области являются объекты и их свойства, процессы и функции, выполняемые этими объектами или для них.

Любая предметная область рассматривается в виде трех представлений:

- реальное представление предметной области;

- формальное представление предметной области;

- информационное представление предметной области.

При сборе (извлечении) информации важное место занимают различные формы и методы исследования данных:

- поиск ассоциаций, связанных с привязкой к какому-либо событию;

- обнаружение последовательностей событий во времени;

- выявление скрытых закономерностей по наборам данных путем определения причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса);

- оценка важности (влияния) параметров на развитие ситуации;

- классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объект (события, ситуации, процессы) к той или иной категории;

- кластеризация, основанная на группировании объектов по каким-либо признакам;

- прогнозирование событий и ситуаций.

Задача сбора информации не может быть решена в отрыве от других задач, в частности, задачи обмена информацией (передачи).




Процесс сбора информации представляет собой деятельность субъекта, целью которой является получение сведений об интересующем его объекте.

Сбор информации может производиться или человеком, или с помощью технических средств и систем - аппаратно. Например, пользователь может получить информацию о движении поездов или самолетов сам, изучив расписание, или же от другого человека непосредственно, либо через какие-то документы, составленные этим человеком, или с помощью технических средств (автоматической справки, телефона и т. д.).

Из изложенного выше следует вывод, что система сбора информации может представлять собой сложный программно-аппаратный комплекс. Как правило, современные системы сбора информации не только обеспечивают кодирование информации и ее ввод в ЭВМ, но и выполняют предварительную (первичную) обработку этой информации.

Сбор информации - это процесс получения информации из внешнего мира и приведение ее к виду, стандартному для прикладной информационной системы. Обмен информацией между воспринимающей информацию системой и окружающей средой осуществляется посредством сигналов.

Сбор и регистрация информации происходят по-разному в различных экономических объектах. Наиболее сложна эта процедура в автоматизированных управленческих процессах промышленных предприятий, фирм и т.п., где производятся сбор и регистрация первичной учетной информации, отражающей производственно-хозяйственную деятельность объекта.

Особое значение при этом придается достоверности, полноте и своевременности первичной информации. На предприятии сбор и регистрация информации происходят при выполнении различных хозяйственных операций (прием готовой продукции, получение и отпуск материалов и т.п.). Сначала информацию собирают, затем ее фиксируют. Учетные данные могут возникать на рабочих местах в результате подсчета количества обработанных деталей, прошедших сборку узлов, изделий, выявление брака и т.д.

Для сбора фактической информации производятся измерение, подсчет, взвешивание материальных объектов, получение временных и количественных характеристик работы отдельных исполнителей. Сбор информации, как правило, сопровождается ее регистрацией, т.е. фиксацией информации на материальном носителе (документе или машинном носителе).

Запись в первичные документы в основном осуществляется вручную, поэтому процедуры сбора и регистрации остаются пока наиболее трудоемкими.

В условиях автоматизации управления предприятием особое внимание придается использованию технических средств сбора и регистрации информации, совмещающих операции количественного измерения, регистрации, накоплению и передаче информации по каналам связи в ЭВМ с целью формирования первичного документа.

Процесс сбора информации связан с переходом от реального представления предметной области к его описанию в формальном виде и в виде данных, которые отражают это представление.

Источниками данных в любой предметной области являются объекты и их свойства, процессы и функции, выполняемые этими объектами или для них.

Любая предметная область рассматривается в виде трех представлений:

- реальное представление предметной области;

- формальное представление предметной области;

- информационное представление предметной области.

При сборе (извлечении) информации важное место занимают различные формы и методы исследования данных:

- поиск ассоциаций, связанных с привязкой к какому-либо событию;

- обнаружение последовательностей событий во времени;

- выявление скрытых закономерностей по наборам данных путем определения причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса);

- оценка важности (влияния) параметров на развитие ситуации;

- классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объект (события, ситуации, процессы) к той или иной категории;

- кластеризация, основанная на группировании объектов по каким-либо признакам;

- прогнозирование событий и ситуаций.

Задача сбора информации не может быть решена в отрыве от других задач, в частности, задачи обмена информацией (передачи).

Фактическая задача интеллектуального анализа данных - это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных шаблонов, таких как группы записей данных (кластерный анализ), необычные записи (обнаружение аномалии) и зависимости (поиск правил ассоциации, последовательный анализ шаблонов). Обычно это связано с использованием таких методов базы данных, как пространственные индексы. Эти шаблоны затем можно рассматривать как своего рода сводку входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и прогнозная аналитика. Например, этап интеллектуального анализа данных может идентифицировать несколько групп в данных, которые затем можно использовать для получения более точных результатов прогнозирования с помощью система поддержки принятия решений. Ни сбор данных, ни подготовка данных, ни интерпретация результатов и отчетность не являются частью этапа интеллектуального анализа данных, но относятся к общему процессу KDD в качестве дополнительных этапов.

Разница между анализ данных а интеллектуальный анализ данных заключается в том, что анализ данных используется для проверки моделей и гипотез по набору данных, например, для анализа эффективности маркетинговой кампании, независимо от объема данных; В отличие от этого, интеллектуальный анализ данных использует машинное обучение и статистические модели для выявления скрытых или скрытых закономерностей в большом объеме данных. [10]

Связанные термины дноуглубительные работы, ловля данных, и отслеживание данных относятся к использованию методов интеллектуального анализа данных для выборки частей более крупного набора данных о населении, которые (или могут быть) слишком малы для того, чтобы можно было сделать надежные статистические выводы о достоверности любых обнаруженных закономерностей. Однако эти методы можно использовать при создании новых гипотез для проверки на более крупных совокупностях данных.

Содержание

Этимология

В академическом сообществе основные форумы для исследований начались в 1995 году, когда Первая международная конференция по интеллектуальному анализу данных и открытию знаний (КДД-95) был начат в Монреале под AAAI спонсорство. Сопредседателем его был Усама Файяд и Рамасами Утурусами. Год спустя, в 1996 году, Усама Файяд запустил журнал Клувера под названием Интеллектуальный анализ данных и обнаружение знаний в качестве главного редактора-учредителя. Позже он начал SIGKDD Информационный бюллетень SIGKDD Explorations. [15] Конференция KDD International стала главной конференцией высочайшего качества в области интеллектуального анализа данных с уровнем приема исследовательских работ менее 18%. Журнал Интеллектуальный анализ данных и обнаружение знаний является основным исследовательским журналом в данной области.

Процесс

В процесс обнаружения знаний в базах данных (KDD) обычно определяется стадиями:

  1. Выбор
  2. Предварительная обработка
  3. Трансформация
  4. Сбор данных
  5. Интерпретация / оценка. [5]

Однако существует множество вариаций на эту тему, таких как Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM), который определяет шесть этапов:

  1. Деловое понимание
  2. Понимание данных
  3. Подготовка данных
  4. Моделирование
  5. Оценка
  6. Развертывание

или упрощенный процесс, такой как (1) предварительная обработка, (2) интеллектуальный анализ данных и (3) проверка результатов.

Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой майнерами данных. [17] Единственным другим стандартом интеллектуального анализа данных, названным в этих опросах, был SEMMA. Однако в 3–4 раза больше людей сообщили об использовании CRISP-DM. Несколько групп исследователей опубликовали обзоры моделей процессов интеллектуального анализа данных. [18] Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году. [19]

Предварительная обработка

Прежде чем можно будет использовать алгоритмы интеллектуального анализа данных, необходимо собрать целевой набор данных. Поскольку интеллектуальный анализ данных может выявить только закономерности, реально присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти шаблоны, но при этом оставаться достаточно кратким, чтобы быть добытым в приемлемый срок. Обычным источником данных является витрина данных или же хранилище данных. Предварительная обработка важна для анализа многомерный наборы данных до интеллектуального анализа данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум и те, у кого отсутствующие данные.

Сбор данных

Интеллектуальный анализ данных включает шесть общих классов задач: [5]

Проверка результатов

Пример данных, созданных дноуглубительные работы с помощью бота, управляемого статистиком Тайлером Вигеном, очевидно демонстрируя тесную связь между победой лучшего слова в конкурсе орфографических пчел и количеством людей в Соединенных Штатах, убитых ядовитыми пауками. Сходство тенденций - очевидное совпадение.

Эта секция отсутствует информация о неклассификационных задачах интеллектуального анализа данных. Это только покрывает машинное обучение. Пожалуйста, разверните раздел, чтобы включить эту информацию. Дополнительные сведения могут быть указаны на страница обсуждения. ( Сентябрь 2011 г. )

Интеллектуальный анализ данных может быть непреднамеренно использован неправильно, и тогда результаты могут оказаться значительными; но которые на самом деле не предсказывают будущее поведение и не могут быть воспроизведенный на новой выборке данных и толку мало. Часто это является результатом исследования слишком большого количества гипотез и неправильного выполнения статистическая проверка гипотез. Простая версия этой проблемы в машинное обучение известен как переоснащение, но одна и та же проблема может возникнуть на разных этапах процесса, и, таким образом, разделения на поезд / тест - если оно вообще возможно - может быть недостаточно, чтобы этого не произошло. [20]

Если изученные шаблоны не соответствуют желаемым стандартам, впоследствии необходимо повторно оценить и изменить этапы предварительной обработки и интеллектуального анализа данных. Если усвоенные шаблоны действительно соответствуют желаемым стандартам, тогда последний шаг - интерпретировать усвоенные шаблоны и превратить их в знания.

Исследование

Конференции по информатике, посвященные интеллектуальному анализу данных, включают:

Стандарты

Были предприняты некоторые попытки определить стандарты для процесса интеллектуального анализа данных, например, Европейское соглашение 1999 г. Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM 1.0) и 2004 г. Java Data Mining стандарт (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) была активна в 2006 году, но с тех пор остановилась. JDM 2.0 был отозван, не дойдя до окончательной версии.

Для обмена извлеченных моделей - в частности, для использования в прогнозная аналитика- ключевым стандартом является Язык разметки прогнозной модели (PMML), который является XML- язык, разработанный группой интеллектуального анализа данных (DMG) и поддерживаемый в качестве формата обмена многими приложениями интеллектуального анализа данных. Как следует из названия, он охватывает только модели прогнозирования - особую задачу интеллектуального анализа данных, имеющую большое значение для бизнес-приложений. Однако расширения для покрытия (например) кластеризация подпространств были предложены независимо от DMG. [25]

Известные применения

Интеллектуальный анализ данных используется везде, где сегодня доступны цифровые данные. Примечательный примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке и надзоре.

Проблемы конфиденциальности и этики

Способы использования интеллектуального анализа данных в некоторых случаях и контекстах могут вызывать вопросы относительно Конфиденциальность, законность и этика. [27] В частности, сбор данных правительственных или коммерческих наборов данных для целей национальной безопасности или правоохранительных органов, например, в Полная информационная осведомленность Программа или в СОВЕТОВАТЬ, поднял вопрос о конфиденциальности. [28] [29]

Интеллектуальный анализ данных требует подготовки данных, которая раскрывает информацию или шаблоны, которые ставят под угрозу конфиденциальность и обязательства по обеспечению конфиденциальности. Обычно это происходит через агрегирование данных. Агрегирование данных включает в себя объединение данных вместе (возможно, из различных источников) таким образом, чтобы облегчить анализ (но это также может сделать идентификацию частных данных на индивидуальном уровне выводимой или иным образом очевидной). [30] Это не интеллектуальный анализ данных как таковой, но результат подготовки данных перед анализом и для его целей. Угроза частной жизни человека вступает в игру, когда данные после компиляции заставляют майнер данных или любое лицо, имеющее доступ к недавно скомпилированному набору данных, иметь возможность идентифицировать конкретных лиц, особенно когда данные изначально были анонимными. [31] [32] [33]

Рекомендуется [ согласно кому? ] знать следующее перед данные собираются: [30]

  • Цель сбора данных и любые (известные) проекты интеллектуального анализа данных;
  • Как будут использоваться данные;
  • Кто сможет добывать данные и использовать данные и их производные;
  • Состояние безопасности доступа к данным;
  • Как можно обновить собранные данные.

Непреднамеренное раскрытие личная информация ведущий к поставщику нарушает добросовестную информационную практику. Эта неосмотрительность может причинить указанному лицу финансовые, эмоциональные или телесные повреждения. В одном случае нарушение конфиденциальности, покровители Walgreens подали иск против компании в 2011 году за продажу информации о рецептах компаниям по добыче данных, которые, в свою очередь, предоставили данные фармацевтическим компаниям. [35]

Ситуация в Европе

Европа имеет довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Тем не менее США–E.U. Принципы безопасной гавани, разработанная в период с 1998 по 2000 год, в настоящее время фактически подвергает европейских пользователей риску использования конфиденциальности компаниями США. Как следствие Эдвард Сноуденс раскрытие информации о глобальном надзоре, было усилено обсуждение вопроса об отзыве этого соглашения, так как, в частности, данные будут полностью доступны для Национальное Агенство Безопасности, а попытки договориться с США не увенчались успехом. [36]

В частности, в Соединенном Королевстве были случаи, когда корпорации использовали интеллектуальный анализ данных как способ нацеливания на определенные группы клиентов, вынуждая их платить несправедливо высокие цены. Эти группы, как правило, представляют собой людей с более низким социально-экономическим статусом, которые не разбираются в том, как их можно использовать на цифровых рынках. [37]

Ситуация в США

Законодательство США о конфиденциальности информации, такое как HIPAA и Закон о семейных правах на образование и неприкосновенность частной жизни (FERPA) применяется только к определенным областям, которые затрагивает каждый такой закон. Использование интеллектуального анализа данных большинством предприятий в США не регулируется никаким законодательством.

авторское право

Ситуация в Европе

Под Европейское авторское право и законы базы данных, добыча произведений, охраняемых авторским правом (например, веб-майнинг) без разрешения правообладателя не является законным. Если база данных представляет собой чистые данные в Европе, может быть, что нет авторских прав, но могут существовать права на базу данных, поэтому интеллектуальный анализ данных становится предметом интеллектуальная собственность права собственников, которые охраняются Директива базы данных. По рекомендации Обзор Харгривза, это привело к тому, что правительство Великобритании в 2014 году внесло поправки в закон об авторском праве, разрешив добычу контента в качестве ограничение и исключение. [39] Великобритания стала второй страной в мире, которая сделала это после Японии, которая в 2009 году ввела исключение для интеллектуального анализа данных. Однако из-за ограничения Директива информационного общества (2001), исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон об авторском праве Великобритании также не позволяет отменять это положение договорными условиями.

Ситуация в США

Закон США об авторском праве, и, в частности, его положение о добросовестное использование, поддерживает законность добычи контента в Америке и других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея. Поскольку интеллектуальный анализ контента является трансформирующим, то есть не заменяет исходную работу, он рассматривается как законный при добросовестном использовании. Например, в составе Расчет Google Book Председательствующий судья постановил, что проект Google по оцифровке книг, охраняемых авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки, одним из которых является интеллектуальный анализ текста и данных. [42]

Программного обеспечения

Бесплатное программное обеспечение и приложения для интеллектуального анализа данных с открытым исходным кодом

Следующие приложения доступны под бесплатными лицензиями / лицензиями с открытым исходным кодом. Также доступен открытый доступ к исходному коду приложения.

    : Структура кластеризации текста и результатов поиска. : Программа для разработки химических структур и поисковая система в Интернете. : Университетский исследовательский проект с продвинутым кластерный анализ и обнаружение выбросов методы, написанные в Ява язык. : а обработка естественного языка и инструмент языковой инженерии. : Konstanz Information Miner, удобный и комплексный фреймворк для анализа данных. : интеллектуальный анализ потоков больших данных в реальном времени с помощью инструмента смещения концепций в Ява язык программирования. - кроссплатформенный инструмент для задач регрессии и классификации на основе варианта генетического программирования.
  • ML-Flex: программный пакет, который позволяет пользователям интегрироваться со сторонними пакетами машинного обучения, написанными на любом языке программирования, выполнять анализ классификации параллельно на нескольких вычислительных узлах и создавать отчеты о результатах классификации в формате HTML. : набор готовых алгоритмов машинного обучения, написанных на C ++ язык. (Инструментарий естественного языка): Набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для Python язык. : Открыть нейронные сети библиотека. : Компонентный анализ данных и машинное обучение программный пакет, написанный на Python язык. : А язык программирования и программная среда для статистический вычисления, интеллектуальный анализ данных и графика. Это часть Проект GNU. это библиотека машинного обучения с открытым исходным кодом для языка программирования Python. : An Открытый исходный кодглубокое обучение библиотека для Lua язык программирования и научные вычисления фреймворк с широкой поддержкой машинное обучение алгоритмы. : UIMA (Архитектура управления неструктурированной информацией) - это компонентная структура для анализа неструктурированного контента, такого как текст, аудио и видео, первоначально разработанная IBM. : Набор программных приложений для машинного обучения, написанных на Ява язык программирования.

Проприетарное программное обеспечение и приложения для интеллектуального анализа данных

Следующие приложения доступны по проприетарным лицензиям.

    KnowledgeSTUDIO: инструмент интеллектуального анализа данных : интегрированное программное приложение для интеллектуального анализа данных, бизнес-аналитики и моделирования, реализующее подход обучения и интеллектуальной оптимизации (LION).
  • Megaputer Intelligence: программное обеспечение для интеллектуального анализа данных и текста называется PolyAnalyst. : программное обеспечение для интеллектуального анализа данных, предоставленное Microsoft. : набор многоязычных продуктов для анализа текста и сущностей, которые позволяют интеллектуальный анализ данных. : программное обеспечение для интеллектуального анализа данных от Корпорация Oracle. : платформа для автоматизации инженерного моделирования и анализа, мультидисциплинарной оптимизации и интеллектуального анализа данных, предоставляемая DATADVANCE. Omics Explorer: программа для интеллектуального анализа данных. : Среда для машинное обучение и эксперименты по интеллектуальному анализу данных. : программное обеспечение для интеллектуального анализа данных, предоставленное Институт САС. : программное обеспечение для интеллектуального анализа данных, предоставленное IBM. Data Miner: программное обеспечение для интеллектуального анализа данных, предоставленное StatSoft. : Программное обеспечение интеллектуального анализа данных, ориентированное на визуализацию, в том числе для обучения. : программное обеспечение для интеллектуального анализа данных, предоставленное Hewlett Packard. : автоматизированные пользовательские модели машинного обучения, управляемые Google. : управляемая услуга, предоставляемая Amazon для создания и производства пользовательских моделей машинного обучения.

Смотрите также

Для получения дополнительной информации об извлечении информации из данных (в отличие от анализируя данные), см .:

Понятие сбора относится к процессу и результату сбора (сбора, сбора или сбора чего-либо). Данные, в свою очередь, информация, которая позволяет генерировать некоторые знания.

Сбор данных

Это означает, что сбор данных - это действие, которое состоит из сбора информации в определенном контексте. После сбора этой информации настанет время для обработки данных, которая состоит из работы с тем, что было собрано, чтобы превратить ее в полезные знания.

В рамках сбора данных могут применяться различные методы : опросы, наблюдения, выборки и интервью, среди прочего, позволяют выполнить задачу. В зависимости от типа данных, человек будет использовать разные инструменты (аудио-рекордер, фотоаппарат и т. Д.).

В дополнение к вышесказанному мы не можем игнорировать, что вы можете приступить к сбору данных с помощью двух разных типов интервью:
-Структурированные Эти преимущества имеют то преимущество, что их легко администрировать, они предлагают большую простоту с точки зрения их оценки, которая занимает ограниченное время и позволяет достичь гораздо более объективных результатов.
-Неструктуры. Эти другие, со своей стороны, выступают за то, чтобы лицо, выполняющее их, имело больше свободы задавать вопросы, а также иметь возможность использовать другие вопросы, возникающие спонтанно во время встречи.

Таким же образом, другим ресурсом, который можно использовать для сбора данных, является вопросник, который можно закрыть или открыть. Разница между ними заключается в том, что первое позволяет человеку, который собирается ответить на него, давать только очень конкретные ответы, тогда как в другом результаты могут быть гораздо более разнообразными и обширными.

Предположим, журналист проводит расследование в отношении государственного чиновника, который участвовал в коррупционном акте. Для выполнения своей журналистской работы он начинает сбор данных, проводя собеседования с другими должностными лицами, оппозиционными политиками, полицией и судебными органами. Также доступ к документам, которые позволяют вам доказать факт. Как только он собирает все данные, он обрабатывает их и представляет их в виде статьи в дневнике.

Ученые также развивают сбор данных. Антрополог может посетить деревню коренных жителей, чтобы соблюсти их обычаи, поговорить с жителями деревни и сделать фотографии . Собранные данные затем могут быть превращены в академическое расследование.

Сбор данных очень важен, потому что он позволяет поддерживать знания, которые будут получены позже. В любом случае, одна коллекция не гарантирует качество полученных знаний.

Читайте также: