Методы интеллектуального анализа данных в здравоохранении реферат

Обновлено: 05.07.2024

Методы интеллектуального анализа данных и некоторые их приложения д.ф.-м.н. И.В.Машечкин (mash@cs.msu.su),mash@cs.msu.su к.ф.-м.н. М.И. Петровский (michael@cs.msu.su)michael@cs.msu.su.

Похожие презентации

Презентация на тему: " Методы интеллектуального анализа данных и некоторые их приложения д.ф.-м.н. И.В.Машечкин (mash@cs.msu.su),mash@cs.msu.su к.ф.-м.н. М.И. Петровский (michael@cs.msu.su)michael@cs.msu.su." — Транскрипт:

4 Интеллектуальный анализ данных (Data Mining) Системы интеллектуального анализа данных (ИАД) – класс программных систем поддержки принятия решений, задачей которых является поиск скрытых, ранее неизвестных, содержательных и потенциально полезных закономерностей в больших объемах разнородных, сложно структурированных данных. Han J., Kamber M. Data Mining: Concepts and Techniques // Morgan Kaufmann, 2000

7 Программные системы ИАД Типовая архитектура: Классификация систем ИАД: По типу анализируемых данных По типу решаемых задач По методам анализа и классам алгоритмов По области применения

9 Типы исходных данных (2) Географические и пространственные данные Привязка к пространственным координатам, учет географии объектов при анализе (например при определении меры сходства или расстояния), учет перемещения в пространстве (moving objects) Символьные последовательности ДНК цепочки, машинные коды, трассы выполнения процессов, тексты программ на ЯП Электронные тексты на естественном языке анализ содержимого документов, проблема представления, морфология Гипертекстовые данные и WWW структурированный текст на естественном языке, учет гиперссылок и нетекстового содержания Мультимедия Звук, видео, изображения

11 Методы анализа Data Mining Технологии БД Статистика и теор. вер. Другие дисциплины Теория информации Машинное обучение Визуализация

14 Отличия ИАД систем (2) Наличие большого объема данных сложной структуры зачастую скорость работы алгоритмов в ИАД важнее небольших отклонений по точности (quick and dirty solution) большинство алгоритмов работают с исходными данными в виде числовой матрицы признаков, сложная структура реальных объектов в ИАД, приводит к необходимости решать задачу построения пространства характеристик и отображения в него свойств исходных объектов перечисленные особенности отличают ИАД системы от традиционных систем машинного обучения, в которых как правило решается обратная задача – построение достоверной модели в условиях малой обучающей выборки

15 Отличия ИАД систем (3) Наличие человека - аналитика как оконечного потребителя результатов работы ИАД системы в сценарии работы любой системы ИАД всегда присутствует аналитик, даже если полученная в результате модель далее используется для автоматической классификации аналитик формирует тренировочные наборы, производит настройку алгоритмов, обучение и дообучение, анализирует полученные модели и принимает решения об их дальнейшем использовании таким образом, системы автоматические классификации, кластеризации и распознавания образов, даже использующие возможность дообучения, не являются системами ИАД

17 ИАД в компьютерной безопасности Цели компьютерной безопасности: обеспечение конфиденциальности, целостности и доступности данных Вторжение – действия программы или пользователя, направленные на нарушение целей компьютерной безопасности Традиционные методы предотвращения вторжений (авторизация, разграничение прав доступа, криптозащита и т.д.) не справляются Необходимо выявление вторжений

19 Методы ИАД в задачах выявления вторжений Основное предположение: активность пользователей и программ можно полностью отследить и построить ее адекватную модель Особенности: накопление исторической информации модели нормального поведение или вторжения эффективные методы анализа, которые проверяют текущую активность в системе на соответствие построенным моделям

24 Архитектура системы мониторинга

26 Электронный документооборот Интеллектуальная система анализа и фильтрации электронной почты масштаба предприятия Система анализа и много-темной классификации Web трафика Интеллектуальная систему теневого копирования, рубрикации и аннотирования электронных документов организации

27 Алгоритм классификации (на SVM): векторная форма представления письма высокая точность эффективность по скорости персональная модель классификации почты Предобработка данных: Снижение размерности исходного пространства (хи-квадрат и PCA) Уменьшение размера тренировочного набора - кластеризация ИАД для системы анализа и фильтрации электронной почты

28 Архитектура системы фильтрации Особенности реализации: Учет ресурсоемкости алгоритмов на этапе обучения Распределение и баланс нагрузки Классификация в режиме реального времени Возможность масштабирования Возможность интеграции с различными почтовыми системами

30 Цели создания систем анализа и фильтрации Интернет-трафика Блокирование доступа к нелегальной (экстремистской, антисоциальной, террористической и т.п.) информации Предотвращение использования Интернет-ресурсов в личных целях в рабочее и учебное время Предотвращение утечки конфиденциальной информации (анализ исходящего трафика)

32 Анализ и фильтрация Интернет- трафика на основе методов ИАД Основная идея: Классификация потока гипертекстовой информации в режиме реального времени с учетом содержания и структуры ссылок документов с использованием методов извлечения и применения знаний (алгоритмы машинного обучения и интеллектуального анализа данных). Функционирование: Администратор формирует тренировочный набор с известными тематиками (примеры гипертексовых документов, либо список Интернет-ресурсов, содержимое которых затем откачивает робот); На тренировочном наборе методами машинного обучения строится классификатор, который затем используется Интернет-фильтром в режиме реального времени для анализа содержимого трафика. На настоящий момент времени нет таких промышленных решений!

36 Интеллектуальная система анализа и мониторинга электронного документооборота организации Драйвер ФС: определяет с какими файлами работал пользователь; Служба теневого копирования: определяет как сильно изменился файл, при необходимости делает резервную копию, передает файл на обработку; База знаний: хранение резервных копий файлов их аннотаций, служебной информации о кластерах и моделей аннотирования; Управление очередью заданий: хранит очередь заданий на обработку, при освобождении ресурсов ВС выполняет задания из очереди; Монитор ресурсов: анализирует загруженность ВС, разрешает выполнять задания из очереди; Служба теневого копирования файлов Планировщик (монитор ресурсов) Управление очередью заданий Драйвер База знаний

38 Алгоритмы поиска ключевых характеристик Латентно-семантический анализ (LSA - Latent Semantic Analysis): основан на использовании разложения исходной матрицы по сингулярным значениям (SVD - разложение) Анализ независимых компонент (ICA - Independent component analysis): поиск линейных комбинаций наблюдаемых переменных ведется чтобы получить независимые случайные величины, распределение которых максимально далеко от нормального Выделение частых эпизодов термов (Apriori): Для выделенных фрагментов документов, строится список характерных частых эпизодов термов.

40 Архитектура ИАД системы анализа поведения технологических процессов Особенности реализации : выявление аномалий в характеристик ТП функционирование в промышленной среде работа в режиме мягкого реального времени расширяемость по набору методов анализа

42 Анализ и прогнозирование качества ТП Какие параметры производственного процесса влияют на качество продукции? Параметры Производство Продукция Качество Quality = F(X 1, … X n ), где X i i-ая характеристика производственного процесса

44 Ситуационный центр Основная задача СЦ строить наглядные образы ситуаций, возникающих в предметной области, на основе которых оперативный состав принимает управляющие решения. в СЦ обязательно входит оперативный состав (коллектив потребителей наглядной информации), решающий некоторую совокупность задач, требующих принятия решений; в СЦ создаются информационные модели и картины весьма сложных, комплексных, динамических ситуаций реального мира для представления оперативному состав. Определение СЦ: это совокупность программно-технических средств, научно-математических методов и инженерных решений для автоматизации процессов отображения, моделирования, анализа ситуаций и управления.

45 Место ИАД в процессе поддержки принятия решений в СЦ ЛПР Аналитик Оператор Принятие решениий Представление результатов анализа Data mining: выявление зависимостей, обнаружение аномалий, прогноз развития ситуации Стат. анализ, отчеты, запросы к хранилищу Хранилища и витрины данных, OLAP расчет интегральных показателей Источники данных Документы, файлы, отчеты, базы данных событий Задачи: Расчет индикаторов на основе данных предметной области Определение тенденций и прогнозирование значений индикаторов Выявление аномалий в значениях индикаторов

46 Расчет и хранение индикаторов Проведение статистического анализа и вычисление индикаторов, описывающих ситуацию

47 Выявление аномалий в значениях индикаторов

48 Определение тенденций и прогнозирование значений индикаторов

49 Текущие результаты Проектирование и создание рабочего места аналитика ситуационного центра мониторинга и анализа ситуаций: Просмотр ситуации по срезам OLAP-куба в виде сводной таблицы, диаграммы или отображения на карте Просмотр результатов выявления аномалий Просмотр результатов прогнозирования Разработка и реализация специальных ИАД алгоритмов поиска аномалий и прогнозирования с учетом специфики данных – срезы OLAP куба.


На сегодняшний день проблема высокой смертности населения ввиду сердечно-сосудистых заболеваний остается одной из самых критичных проблем здравоохранения. Люди, страдающие заболеваниями сердца или подвергающиеся высокому риску их возникновения, нуждаются в раннем выявлении и оказании помощи путем консультирования и, при необходимости, приема лекарственных средств и госпитализации.

Благодаря стремительному развитию информационно-коммуникационных технологий, способствующих быстрому накоплению, обработке и передаче на расстояние больших объемов цифровой информации, появилась возможность производить анализ огромных массивов данных и, используя их в качестве обучающей выборки, строить сложные математические модели для принятия врачебных решений. Для реализации подобных задач создаются специализированные информационные системы поддержки принятия решений, основное предназначение которых состоит в формализации слабоструктурированных и неструктурированных задач планирования, прогнозирования и управления [1].

Интеллектуальный анализ данных в медицине, применяемый для построения медицинских диагностических систем, предназначен для того, чтобы помочь врачу, в частности, малоопытному специалисту, свести к минимуму диагностические ошибки и ускорить процесс принятия решения для повышения качества медицинского обслуживания. Различные алгоритмы, связанные с интеллектуальным анализом данных, значительно помогают понять медицинские данные более четко путем выделения патологических данных из нормальных данных, поддержки принятия решений, а также визуализации и идентификации скрытых сложных взаимосвязей между диагностическими особенностями разных групп пациентов. [2]

Индуктивные методы обучения, такие как наивный байесовский классификатор, имеют большой успех в построении классификационных моделей с целью минимизации ошибок классификации. В качестве модификации алгоритма многие предыдущие исследования индуктивного обучения также рассматривали способы сведения к минимуму затрат на ошибки классификации, такие как стоимость ложных срабатываний и стоимость ложного отрицания в задачах бинарной классификации. [3]

В качестве примера рассмотрим задачу медицинской практики, которая исследует приходящих пациентов c определенными заболеваниями. Предположим, что предыдущий опыт врачей был скомпилирован в классификационную модель, такую как наивный байесовский классификатор. При диагностировании нового пациента часто бывает, что определенная информация для этого патента может еще не быть известна; Например, анализ крови или рентгеновский анализ, возможно, еще не были проведены. Выполнение этих тестов повлечет за собой определенные дополнительные расходы, но различные тесты могут обеспечить различные информационные ценности для минимизации затрат на неправильную классификацию. Именно балансирование двух видов расходов — а именно, затрат на неправильную классификацию и затрат на испытания — определяет, какие тесты будут выполняться.

Задачи, которые влекут за собой как неправильную классификацию, так и затраты на исследования, изобилуют в практике: от постановки медицинского диагноза до научного исследования и разработки новых лекарственных средств. Одним из возможных подходов решения проблемы является использование стратегии наивной классификации Байеса при рассмотрении недостающих значений. То есть, когда тестовый случай классифицируется наивным классификатором Байеса, и обнаруживается, что у атрибута есть пропущенное значение, тест не будет выполнен для получения его значения; Вместо этого атрибут просто игнорируется в данном вычислении. Задача с этим подходом заключается в том, что она игнорирует возможность получения отсутствующего значения со стоимостью и, таким образом, уменьшает стоимость ошибки классификации и общую стоимость исследования.

Байесовский классификатор представляет собой широкий класс алгоритмов классификации, основанный на принципе максимума апостериорной вероятности. Для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по ним вычисляются апостериорные вероятности классов. Объект относится к тому классу, для которого апостериорная вероятность максимальна. Алгоритм предполагает, что наличие какого-либо одного признака в классе не связано с наличием какого-либо другого признака.

Упрощенно формулу для данного алгоритма можно представить следующим образом


, (1)

где P(Hk) — априорная вероятность события Hk

P(Hk|A) — вероятность события Hk при наступлении А

P(A| Hk) — вероятность события A при наступлении Hk

P(A) — полная вероятность события А

В качестве примера можно рассмотреть работы таких ученых как Роберт С. Ледли и Ли Б. Ластид, в которой излагается использование формулы Байеса для оценки вероятности постановки диагноза на основе предположения о том, что данные/симптомы для конкретного заболевания не являются взаимозависимыми. Например, вероятность того, что у пациента с симптомами кашля и лихорадки есть диагноз пневмония, вычисляется как:


,(2)

где P (cough | pnuemonia) указывает на вероятность кашля с учетом диагноза пневмонии. Предположение, сделанное для упрощения, состоит в том, что зависимость между лихорадкой и кашлем отсутствует. [4]

Одним из самых ранних исследований подхода Наивного Байеса занимался Гомер Уорнер из Университета штата Юта. Уорнер создал вероятностную модель для диагностики пациентов с одним из 35 врожденных пороков сердца. [5] Модель исследовала частоту вхождения каждого из 50 различных признаков при выявлении каждого заболевания и распространённость заболевания в популяции пациентов, направляемых в его лабораторию. Исследование Уорнера привело к разработке информационной системы HELP [6], которая стала первой информационной системой в больницах с модулями поддержки принятия решений. На протяжении многих лет функции поддержки принятия решений расширялись, чтобы предоставлять предупреждения, напоминания, интерпретацию данных, диагностику пациентов, рекомендации по управлению пациентами и клинические протоколы.

Другие ранние применения байесовского подхода включают диагностику гематологических нарушений и аппендицита. Более поздние разработки применялись для лечения боли в животе, одонтогенных повреждений, онкологии, заболеваний печени, панкреатита, болезни легких, стоматологии, гинекологии, неврологии, ревматологии, дерматопатологии, офтальмологии, гематопатологии, гипертонии, сердечных заболеваний, побочных реакций и патологии кишечника. Многие приложения, основанные на наивном байесовском классификаторе, достигли производительности, которая была сопоставима с человеческими врачами, и некоторые из них были успешно развернуты в медицинских учреждениях.

Преимущество модели Байеса заключается в том, что она позволяет осуществить классификации в случаях отсутствия части входных признаков, в отличие от других широко применяемых на сегодняшний день математических моделей. Такое свойство позволяет ускорить процесс принятия решений в кардиологии, основываясь только на имеющихся в момент проведения исследования данных.

Для исследования модели принятия решений при диагностике диастолической дисфункции левого желудочка (ДДЛЖ) на основе корреляционного анализа данных были выявлены 26 входных признаков, наиболее ярко влияющих на выявление данной патологии. Для каждого выявленного нарушения параметра на основе обучающей выборки рассчитан вектор частоты вхождения признака в случае обнаружения и отсутствия ДДЛЖ (Таблица 1). Предварительно обучающая выборка была подвергнута процессу нормализации путем замены числовых признаков на показатель выявления/не выявления нарушения.

Частота вхождения параметра при выявленной иотсутствующей патологии

Медицинская диагностика в ее компьютерной реализации основана на решение задачи классификации, где каждому объекту (наблюдению, пациенту, событию) представленного значениями его признаков (симптомов, показателей, свойств) из некоторой предметной области ставится в соответствие предметное заключение(класс, диагноз) по определённому алгоритму принятия решений в соответствии с поставленной целью (рисунок 1).

Рисунок 1 - Принципиальная схема задачи классификации

Далее будем считать, что имеется некоторое конечное множество объектов произвольной природы, представленных совокупностью соответствующих векторов. Данное множество объектов(явлений, ситуаций, наблюдений) разбивается на ряд подмножеств где - число классов. Под классом понимается подмножество объектов, обладающих, с точки зрения исследователя, некоторыми общими свойствами. Так в медицинской диагностики класс - люди, имеющие одно и то же заболевание, и т.д. Каждый объект задается в виде векторов значений n признаков(переменных, характеристик) где - множество допустимых значений -го признака. В зависимости от множества признаки делятся на следующие типы:

- если или , назовем бинарной переменой. Эта характеристика обычно отражает отсутствие или наличие некоторого свойства у рассматриваемого объекта;

- если - набор некоторых неупорядоченных элементов(имен, символов), назовем номинальной переменной. Различные имена можно обозначить цифрами, т.е.

- если - упорядоченное множество значений, порядковой переменной;

- если - множество дискретных числовых значений, назовем дискретной количественной переменной;

- если - некоторый интервал на вещественной прямой, назовем непрерывной количественной переменной.

Для переменных четвертого и пятого типов определены арифметические операции на множестве их значений. Переменные от первого до четвертого типа назовем дискретными, я пятого - непрерывными; переменные первого, второго и третьего типов - качественными, а четвертого и пятого - количественными. Декартово произведение задает многомерное пространство переменных. Произвольному объекту соответствует признаковое описание, где - значение переменной для объекта. Обозначим через, - через,

Здесь -я строка представляет собой -е наблюдение, а -й столбец образован значениями, которые принимает -й признак в различных наблюдениях.

Пусть решается задача классификации в случае классов. Вводится целевая переменная с множеством значений Переменная является номинальной переменной. Целевая переменная известная только на объектах обучающей выборки Требуется построить алгоритм классификации - решающую функцию, которая по признаковому описанию произвольного объекта предсказывала бы его класс, то есть приближала бы неизвестную функцию на всем множестве. Решающую функцию можно определить как некоторым образом организованную совокупность числовых данных, получаемую обычно в процессе обучения и сравнительно несложную последовательность операций, приводящих к классификации предъявленного вектора на основе использования этой совокупности данных.

По мере возрастания сложности систем наблюдений и заключений, снижения уровня формализации эмпирических медицинских знаний усложняются методы синтеза решающих функций. Вид и степень сложности решающего правила зависит от:

- размерности пространства заключений;

- уровня формализации эмпирических медицинских знаний;

- размерности пространства исходных показателей, соотношения в нем количественных и качественных показателей.

Известно несколько различных подходов к решению задачи построения решающих функций. Эти подходы(методы обработки) основаны на различных представлениях о задаче, использования специфической для каждой прикладной области дополнительной информации и т.п.

Существует большое количество методов(подходов) обработки данных в прикладных медико-биологических исследованиях. Все эти методы можно разделить на два основных направления в разработке правил принятия решений в прикладных медико-биологических исследованиях :

1) экспертные системы;

2) методы интеллектуального анализа данных.

Опишем основные направления решению задачи классификации, методы, разработанные в рамках этих направлений, и их наиболее существенные достоинства и недостатки.

1.3.1 Экспертные системы

Экспертная система — это система, которая оперирует со знаниями в определенной предметной области с целью выработки рекомендаций или решения проблем. Поэтому ее необходимо наделить функциями, позволяющими решать задачи, которые в отсутствие эксперта(специалиста в конкретной предметной области) невозможно правильно решить. Следовательно, необходимым этапом в ее разработке является приобретение соответствующих знаний от эксперта. Если перечислить требование к экспертным системам, то получится следующие:

- использование знаний, связанных с конкретной предметной областью;

- приобретение знаний от эксперта;

- определение реальной и достаточно сложной задачи;

- наделение системы способностями эксперта.

На рисунке 2 показана базовая структура экспертной системы, ниже перечислены функции, которые должны выполняться ее структурные элементы.

Рисунок 2 - Базовая структура экспертной системы

Во-первых, необходим механизм представления знаний в конкретной предметной области и управления ими. Для реализации этих функций используется механизм, называемой базой знаний. Во-вторых, необходим механизм, который на основании знаний, имеющихся в базе знаний, способен делать логические выводы. Этот механизм называется механизмом логических выводов. В-третьих, необходим механизм получения знаний от эксперта, поддержка базы знаний и дополнения ее при необходимости. Механизмом, реализующим эти функции, является модуль приобретения знаний. В-четвертых, необходим механизм, который не только способен давать заключения, но и представлять различные комментарии, прилагаемые к этому заключению, и объяснять его мотивы. Механизм, реализующий эти функции, называется модулем советов и объяснений.

Перечисленные структурные элементы являются наиболее характерными, хотя в реальных экспертных системах их функции могут быть усилены соответствующим образом, или расширены.

Вторая часть любой экспертной системы - механизм логического вывода, или решатель. В нем реализуются процедура достоверного вывода, алгоритмы правдоподобных рассуждений другие процедуры для выработки экспертных заключений.

Третий блок - модуль приобретения знаний, или интеллектуальный интерфейс, - организует взаимодействие пользователя с экспертной системой в удобной форме. В блоке общения используются достижения искусственного интеллекта, касающиеся понимания текстов на естественном языке, а также представления результатов работы экспертной системы в наглядном и выразительном виде.

Четвертый блок экспертной системы - модуль советов и объяснений. Его функция состоит в выдаче информации, объясняющей и иллюстрирующей путь получения того или иного вывода, если он интересует пользователя.

- использование экспертами узкоспециализированных терминов с неочевидным для неспециалиста смыслом;

- невозможность формализации в терминах математической теории большого числа знаний и фактов, используемых экспертом при решении задач;

- обширный контекст экспертного анализа: очень многие знания, используемые экспертом, кажутся ему само собой разумеющимися, но для постороннего отнюдь таковыми не являются;

- эксперты не хотят делиться своим опытом;

- эксперты не хотят вводить данные в экспертную систему, мотивируя это недружественностью интерфейса, боязнью что-то испортить, собственной занятостью и т.д. ;

- ни один эксперт не обладает полными знаниями в своей предметной области.

Помимо перечисленных трудностей можно отметить также недостаток квалифицированных инженеров по знаниям, способных эффективно осуществить перенос компетентности специалиста в ЭС, отсутствие удобных и эффективных средств приобретения знаний.

Точность определения правильного диагноза экспертными системами имеет большой разброс, а процент правильно определенных диагнозов – невысок. Все это привело к тому, что ЭС не смогли получить повсеместное распространение и внедрение.

1.3.2 Методы интеллектуального анализа данных

Методы интеллектуального анализа данных представляют собой совокупность методов обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений.

В основу современных методов интеллектуального анализа данных положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Важное положение методов интеллектуального анализа данных - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые значения.

Преимущества подхода основанного на методах интеллектуального анализа является четкая структуризация задачи классификации, а недостатком - построение классифицирующих функций, базирующихся на формальных моделях.

Известно несколько различных подходов интеллектуального анализа данных, пригодных для отнесения объекта к одному из нескольких классов по заданным признакам с учетом изменчивости. Эти подходы основаны на различных представлениях о задаче, использования специфической для каждой прикладной области дополнительной информации и т.п. В одних задачах классификации распознавание осуществляется автоматически(обучение без учителя), в других - заданы классы принадлежности рядов объектов в обучающей выборке(обучение с учителем).

Рисунок 3 - Принцип классификации на основе методов интеллектуального анализа данных

Кратко опишем основные существующие подходы к решению данной задачи, методы, разработанные в рамках этих подходов, и их наиболее существенные достоинства и недостатки.

При применение подхода, связанного с использование ограничений на класс распределений, предполагается, что существует некоторое распределение переменных, описывающих объекты генеральной совокупности для каждого класса. Имеется два направления данного подхода: параметрической и непараметрическое.

При использование параметрического подхода предполагается модель распределения, неизвестные параметры которой оценивают по выборке. В основе процедуры оценивания может лежать принцип правдоподобия или байесовский принцип. Обычно предлагаемая многомерная нормальная модель распределения с различными ограничениями на вид ковариационной матрицы, позволяющими снизить число оцениваемых параметров.

При использовании непараметрического подхода вид модели распределения заранее не известен, предполагается лишь некоторое ограничение на степень вариабельности плотности распределения. В рамка данного подхода существует несколько различных направлений. При первом направлении решающая функция формируется на основе предварительно восстановленной по выборке функции распределения. Так методы ядерных(потенциальных) функций основаны на представлении о том, что каждой точке многомерного пространства, в которой имеется наблюдение, соответствует некоторая функция плотности(потенциал). Для любой точки можно определить суммарный потенциал, который и служит оценкой неизвестной общей плотности. Часто в качестве потенциальных функций выступают гауссовы колбообразные функции.

Второе направление непараметрического подхода не требует предварительного восстановления плотности распределения и основано на аппроксимации решающей функции функциями некоторого заданного вида. К этой группе может быть отнесен метод -ближайших соседей. К недостатком непараметрического подхода можно отнести трудности восстановления распределения в случае ограниченного числа объектов(наблюдений). Существующие методы дают возможность обрабатывать лишь информацию, описываемую количественными переменными(признаками).

Следующий подход связан с ограничениями на класс решающих функций. К этой группе относятся методы поиска оптимальных дискриминантных функций заданного вида (линейных, квадратичных кусочно-линейных и т.д.) осуществляют поиск разделяющих гиперповерхностей, для которых критерий качества принимает оптимальное значение. Критерием качества обычно служит оценка вероятности ошибки классификации, вычисляемая непосредственно по обучающей либо по тестовой выборке. В качестве алгоритмов поиска оптимальных параметров дискриминантной функции используют алгоритмы градиентного спуска, стохастической аппроксимации, генетический алгоритм и т.д. К недостаткам этих методов можно отнести проблемы, возникающие при наличие большого числа переменных(признаков).

Геометрический подход основан на гипотезе компактности. Предполагается, что в пространстве исходных переменных или в пространстве переменных, полученном из исходного с помощью некоторого преобразования определена метрика. Тогда полагают, что точки, соответствующие одному классу, расположены в этом пространств кучно(компактно) или образуют визуально хорошо различимые геометрические конфигурации, или разделяются с помощью гиперповерхностей простого вида. Данный подход используется при классификации с помощью вычисления расстояния Махаланобиса, а также в методе канонических дискриминантных функций, представляющих собой набор линейных комбинаций некоррелированных переменных, для которых критерий отношения межгруппового разброса к внутригрупповому принимает оптимальное значение. Так же к этой группе относятся методы: предельных упрощений, метод опорных векторов, метод структурной минимизации риска и т.д. К недостаткам методов, основанных на гипотезе компактности можно отнести их ориентацию в основном на количественные переменные, а также проблемы, возникающие при наличии сложных многосвязных областей, соответствующих каким-либо классам.

Алгебраический подход основан на использовании аппарата и методов дискретной математики, алгебры и математической логики. Началу развития данного направления положили работы М. М. Бондара и М. Вайнцвайга, в которых был предложен алгоритм КОРА поиска информативных сочетаний значений признаков, а также работы Ю. И. Журавлева, в которых были предложены алгоритмы поиска тупиковых тестов(элементарных классификаторов, информативных фрагментов признаковых описаний) и алгоритмы вычисления на их основе оценок степени принадлежности объекта к классам (АВО-алгоритмы). Данные алгоритмы теоретически позволяют реализовать любые другие алгоритмы классификации и решать задачи, характеризующиеся сложными зависимостями между признаками. Тупиковые тесты применяются для определения информационных весов признаков. Необходимо найти все тупиковые тесты таблицы, что возможно только для небольших таблиц данных. Для преодоления этих трудностей были разработаны алгоритмы вычисления оценок, основанные на определении близости распознаваемого объекта к определенному классу на заданных опорных множествах. Решение о принадлежности объекта к одному из классов принимается на основе суммирования оценок близости по всем опорным множествам. Наиболее эффективно методы вычисления оценок принимаются для обработки дискретных и бинарных характеристик.

При логико-вероятностном подходе классификация осуществляется путем нахождения логических закономерностей в наблюдаемых данных. При этом часто используется принцип минимальной длины описания. Данные методы основаны на формировании разбиения пространства разнотипных переменных. Требуемое число элементов разбиения задается как эвристический параметр.

Все выше перечисленное делает методы интеллектуального анализа данных самыми распространенными методами обработки данных во многих задачах медицинской диагностики. Методы обработки данных диагностических систем, полученные с использованием методов интеллектуального анализа данных, имеют несомненное преимущество по сравнению с методами обработки данных, построенными с помощью экспертов: качество знание экспертов искажено по сравнению со знаниями, полученными с помощью методов интеллектуального анализа данных. Кроме того, они устойчивы к неверным данным в выборке.

Рассматривая задачу интеллектуализации обработки данных при донозологическом скрининге функционального состояния человека можно сделать вывод, что ее решение может быть адекватно проведено с использованием методов интеллектуального анализа данных. Это связано с тремя обстоятельствами:

- во-первых, объектом исследования является практически здоровый человек, что на многие порядки снижает размерность пространства альтернатив(классов) выбора, которое составляет в донозологической диагностике обычно не белее трех или пяти;

- во-вторых, пространство наблюдений имеет, как правило, большую размерность;

- в-третьих, донозологическое обследование в силу их массовости позволяют формировать наборы данных достаточно больших объемов, что позволяет исследователям хорошо структурировать медицинские данные путем использования методов интеллектуального анализа данных.

1.4 Цель и задачи исследования

На основании проведенного анализа дынных литературы можно сделать вывод, что известные подходы к донозологической диагностики функциональных состояний человека хотя и носят комплексный характер, но не обеспечивают потенциально достижимого в современных условиях качество классификации при ограничениях на технико-экономические затраты и время принятия решений. Отсутствие надежных аналитических критериев классификации снижает эффективность управления функциональными состояниями, имеющими целью улучшения качества медицинского обслуживания за счет решения задачи прогнозирования и ранней диагностики заболеваний. В то же время, современные математические методы и информационные технологии позволяют решать исследуемые классы задач с достаточным для практики качеством в условиях нечеткого и неполного описания исходных данных и при плохо формализуемой структуре классов.

С учетом сказанного, целью диссертации является разработка общего методологического подхода обработки данных донозологической диагностики функционального состояния человека, определяющего порядок действий и математические методы, обеспечивающие повышения качества решения задачи прогнозирования и диагностики соответствующих классов заболеваний за счет применения интеллектуальных методов анализа данных.

Для достижения поставленной цели необходимо решить следующие задачи:

- на основание анализа структуры данных выбрать способ выделения и в последующем различия типологических состояний организма человека, формирующихся под воздействием факторов жизнедеятельности;

- построить метод отбора информативных признаков изучаемых функций организма человека, адекватно характеризующих функциональное состояние человека;

- оценить эффективность предложенных методов в ходе испытаний на репрезентативных контрольных выборках.

Современный этап развития информатизации здравоохранения характеризуется полномасштабным внедрением в деятельность медицинских организаций медицинских информационных систем, охватывающих практически все стороны их деятельности, включая управление ресурсами, управление лечебным процессом и оказание медицинской помощи. Также важной особенностью современного этапа является неуклонное развитие Интернета в Российской Федерации, который оказывает все большее влияние на все сферы деятельности государства, жизни общества и каждого отдельного гражданина, и находится под постоянным наблюдением руководства страны, а здравоохранение является важнейшим направлением, где Интернет имеет серьезное значение. Эти два фактора позволяют определить важнейшие направления развития информационных технологий с применением возможностей Интернета в здравоохранении, одним из которых является внедрение систем искусственного интеллекта. В статье определяются основные направления внедрения систем искусственного интеллекта в здравоохранении, приводится анализ особенностей внедрения интеллектуальных систем в здравоохранении, декларируется, что основу интеллектуальных систем поддержки принятия врачебных решений составляет система управления базой знаний.


1. Бураковский В.И., Бокерия Л.А., Газизова Д.Ш., Лищук В.А. и др. Компьютерная технология интенсивного лечения: контроль, анализ, диагностика, лечение, обучение. – М.: НЦ ССХ РАМН, 1995.

2. Вольфенгаген В.Э., Яцук В.Я. Аппликативные вычислительные системы и концептуальный метод проектирования систем знаний. – МО, 1987.

4. Искусственный интеллект. В 3 кн. Кн. 2. Модели и методы: Справочник. / Под ред. Д.А. Поспелова. – М.: Радио и связь, 1990.

5. Клещев А.С., Самсонов В.В., Черняховская М.Ю. Медицинская экспертная система КОНСУЛЬТАНТ-2. Представление знаний. – Владивосток: ИАПУ ДВО АН СССР, 1987.

6. Клименко Г.С., Лебедев Г.С. Развитие российского Интернета в здравоохранении // Информационно-измерительные и управляющие системы. – 2015. – Т. 13, № 10. – С. 14–19.

7. Кобринский Б.А. Автоматизированные диагностические и информационно-аналитические системы в педиатрии // Русский медицинский журнал. – 1999. – Т. 7, № 4. – С. 35–42.

8. Кобринский Б.А. Особенности медицинских интеллектуальных систем // Информационно-измерительные и управляющие системы. – 2013. – Т. 11, № 5. – С. 58–64.

9. Кобринский Б.А. Системы поддержки принятия решений в здравоохранении и обучении // Врач и информационные технологии. – 2010. – № 2. – С. 39–45.

10. Лебедев Г.С., Коробов Н.В., Ефремова Т.А., Лошаков Л.А., Котов Н.М. Построение информационного ресурса прогнозирования совместимости лекарственных препаратов и оптимизации выбора препарата замены // Современные наукоемкие технологии. – 2015. – № 12-4. – С. 615–619.

12. Лебедев Г.С., Лидов П.И., Котов Н.М. Построение информационной системы динамического наблюдения за состоянием здоровья спортсменов // Фундаментальные исследования. – 2015. – № 11-4. – С. 697–702.

14. Лескин А.А., Мальцев В.Н. Системы поддержки управленческих и проектных решений. – Л.: Машиностроение, 1990.

15. Назаренко Г.И., Осипов Г.С., Назаренко А.Г., Молодченков А.И. Интеллектуальные системы в клинической медицине. Синтез плана лечения на основе прецедентов / Информационные технологии и вычислительные системы 1/2010.

16. Назаренко Г.И., Осипов Г.С. Основы теории медицинских технологических процессов. – М.: Наука, Физматлит, 2005.

17. Назаренко Г.И., Осипов Г.С. Основы теории медицинских технологических процессов. Ч. 2. Иследование медицинских технологических процессов на основе интеллектуального анализа даных. – М.: Наука, Физматлит, 2006.

20. Попов Э.В. Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ. – М.: Наука, 1987.

21. Поспелов Г.С. Искусственный интеллект – основа новой информационной технологии. – М.: Наука, 1988.

22. Поспелов Г.С., Поспелов Д.А. Искусственный интеллект – прикладные системы. // Новое в жизни, науке и технике, сер. Математика, кибернетика, N 9. – М.: Знание, 1987.

25. Финн В.К., Блинова В.Г., Панкратова Е.С., Фабрикантова Е.Ф. Интеллектуальные системы для анализа медицинских данных. Часть 1 // Врач и информационные технологии. – 2006, № 5. – С. 62–70. Часть 2. Врач и информационные технологии. – 2006. – № 6. – С. 50–60, Часть 3 // Врач и информационные технологии. – 2007. – № 1. – С. 51–57.

28. Экспертные системы: принципы работы и примеры. / Брукинг А., Джонс П., Кокс Ф. и др.; под ред. Форсайта Р. – М.: Радио и связь, 1987.

31. Barnett G.O., Cimino J.J., Hupp J.A., Hoffer E.P. DXplain – an evolving diagnostic decision-support system. JAMA. 1987; 258: 67-74.

34. Shortliffe E.H. Computer-Based Medical Consultations: MYCIN. Elsevier/North Holland, New York NY, 1976.

Современный этап развития информатизации здравоохранения характеризуется полномасштабным внедрением в деятельность медицинских организаций медицинских информационных систем, охватывающих практически все стороны их деятельности, включая управление ресурсами, управление лечебным процессом и оказание медицинской помощи. Также важной особенностью современного этапа является неуклонное развитие Интернета в Российской Федерации, который оказывает все большее влияние на все сферы деятельности государства, жизни общества и каждого отдельного гражданина, и находится под постоянным наблюдением руководства страны, а здравоохранение является важнейшим направлением, где Интернет имеет серьезное значение. Эти два фактора позволяют определить важнейшие направления развития информационных технологий с применением возможностей Интернета в здравоохранении [6], одним из которых является внедрение систем искусственного интеллекта.

Отличительные особенности интеллектуальных систем

  • база знаний (БЗ);
  • подсистема вывода и объяснения решений;
  • подсистема накопления и модификации знаний (система управления БЗ – СУБЗ).

Назначение основных элементов ИСППР следующее.

СУБД – предназначена для ведения БД ИСППР. Она обеспечивает создание и изменение логической структуры БД, введение, корректировку и удаление конкретных значений хранимых элементов, а также поиск и выдачу необходимой информации по запросу ЛПР.

СУБМ – предназначена для ведения БМ ИСППР. Она обеспечивает ведение каталога прикладных моделей и осуществляет доступ к моделям при необходимости их использования.

СУБЗ – предназначена для ведения БЗ ИСППР. Она обеспечивает накопление (описание) новых знаний, просмотр, корректировку и удаление знаний, их синтаксический и первичный семантический контроль, а также доступ к необходимым знаниям при выработке решения.

Подсистема вывода и объяснения решения – предназначена для выработки решения по запросу ЛПР путем манипулирования со знаниями, хранящимися в БЗ, а после завершения вывода – объясняет полученное решение.

Поэтому под ИСППР можно понимать такую СППР, которая включает интеллектуальный интерфейс пользователя с системой, обеспечивающий общение на профессиональном языке предметной области.

Особенности ИСППР, связанные с необходимостью использования различных источников информации, моделей и методов при решении слабоструктурированных проблем, требуют от разработчиков СППР основное внимание сосредотачивать на проблемах представления и обработки знаний в системе. Эти исследования традиционно относят к области ИИ и, в частности, к экспертным системам (ЭС).

Направления применения интеллектуальных систем в здравоохранении

СИИ могут применяться в следующих основных направлениях в здравоохранении [1, 5, 7–9, 14–17, 25, 31–34]:

  • СИИ в навигации пациента в системе здравоохранения;
  • СИИ в поддержке принятия решений в области управления здравоохранением;
  • СИИ в области поддержки принятия врачебных решений.

Наиболее оправдано внедрении СИИ, в первую очередь, для поддержки действий врачей в чрезвычайных ситуациях, т.е. ситуациях, требующих принятия незамедлительного решения по оказанию пациенту неотложной помощи. Характерными чертами таких ситуаций являются:

  • жесткий лимит времени, предоставляемый медицинскому работнику на принятие решения в сфере его компетенции;
  • катастрофические последствия здоровью пациента из-за неверных или несвоевременных решений, вырабатываемых лицом, принимающим решение (ЛПР);
  • стрессовым состоянием различной степени медицинских работников.

Отнесем также к чрезвычайным ситуациям посещение врача, уровень знаний которого оставляет желать лучшего. Также чрезвычайной можно считать ситуацию при наличии у пациента большого количества сопутствующих хронических заболеваний.

Нужно отметить, что применение ИССПВР оправдано при принятии решений о применении дорогостоящих методов оказания медицинской помощи (например, вспомогательные репродуктивные технологии) и принятие решения о медицинском вмешательстве, имеющем критическое влияние на здоровье пациента.

Перечисленные факторы неизбежно в значительной степени затрудняют процесс выработки рационального варианта действий медицинских работников. В этих условиях обращение к СОЗ, включенной в состав медицинской информационной системы (МИС), позволяет своевременно получить рекомендации по целесообразному варианту плана оказания медицинской помощи в сложившейся чрезвычайной ситуации, заблаговременно апробированного в ходе деловых игр, и хранимые в базе знаний (БЗ) СОЗ.

Процесс принятия врачебных решений в условиях чрезвычайной ситуации можно условно разбить на следующие этапы:

  • распознавание ситуации и отнесение ее к одному из классов ситуаций;
  • получение альтернативных решений;
  • прогнозирование возможных исходов принятых врачебных решений;
  • установление отношений предпочтения на множестве альтернативных решений на основе проведенного анализа;
  • выдача рекомендаций врачу.

Такая ИСППВР для принятия врачебных или управленческих решений в чрезвычайных ситуациях должна представлять собой информационную систему, обеспечивающую заблаговременную формализацию задач оценки состояния пациента и выработки рекомендаций по лечению, а также выработку в масштабе времени, близком к реальному решению указанных задач.

Такая ИСППВР предназначена для:

  • заблаговременного формирования баз знаний путем накопления и автоматической обработки экспертной информации (знаний) о зависимости результатов решения в интересах решения задач оценки состояния организма;
  • автоматической корректировки базы знаний, обусловленной уточнением экспертной информации в процессе эксплуатации ИСППВР;
  • автоматического выявления противоречий и некорректности экспертной информации и выдачи их эксперту в виде, удобном для анализа, проводимого с целью их устранения;
  • автоматической настройки на работу с предметной областью, соответствующей решаемой в текущий момент времени задаче;
  • выработки обоснованных решений расчетных задач на основе как полной, так и неполной исходной информации о текущей ситуации;
  • формирования объяснения результатов логического вывода решений задач.

Кроме того, такая ИСППВР должна обеспечивать:

  • рациональное сочетание деятельности медицинских специалистов и работы средств автоматизации;
  • автоматизацию процессов, предусматривающих обработку информации в сжатые сроки;
  • адаптацию к имеющемуся в наличии ресурсу времени;
  • обработку информации, поступающей от различных источников.

На ИСППВР в чрезвычайных условиях должны быть возложены следующие функции:

  • слежение за состоянием организма;
  • анализ и обобщение данных о пациенте;
  • выявление признаков возникновения чрезвычайных ситуаций;
  • определение признаков ухудшения ситуации;
  • выработка вариантов решений по воздействию на организм;
  • обеспечение взаимодействия медицинских работников (консилиумов) в процессе подготовки принимаемого решения;
  • контроль выполнения назначений.

Кроме того, отметим следующие области деятельности медицинских работников, где применение ИСППВР является насущной необходимостью:

  • анализ состояния и определение тенденций развития состояния пациента.
  • обоснование предложений по рациональному составу и организации лечебного процесса.
  • обоснование предложений по рациональному управлению медицинской помощью в различных условиях.
  • обоснование характеристик перспективных методов лечения и диагностики.
  • отработка применения перспективных МИС и отдельных средств управления здравоохранением.

Таким образом, внедрение систем, основанных на знаниях, в процесс принятия врачебных решений в чрезвычайных ситуациях ухудшения здоровья, получивших название ИСППВР, является необходимой, важной и, несомненно, актуальной задачей.

Особенности внедрения интеллектуальных систем в медицине

Разработке и успешному внедрению ИСППВР в лечебном процессе препятствуют некоторые факторы, которые при определенных условиях могут иметь доминирующее значение.

Первая группа факторов носит субъективный характер. Она связана с негативным отношением многих разработчиков МИС к проблеме его интеллектуализации. К таким факторам можно отнести следующие:

Следующая группа факторов связана с современным состоянием развития теории ИИ и практики создания Единой государственной информационной системы в сфере здравоохранения в РФ. К этим факторам относятся:

  • низкий уровень автоматизации органов управления различной иерархии, выдвигающий на первый план задачи разработки в первую очередь систем, обеспечивающих их внутреннее функционирование;
  • наличие большого количества литературы по ИИ и укоренившееся мнение, что все вопросы ИИ уже решены;
  • оторванность теоретиков в области ИИ от проблем практики здравоохранения.

Кроме того, к факторам, определяющим сложности внедрения ИСППВР в лечебный процесс, следует также отнести следующие факторы:

  • необоснованные попытки внедрения ИСППВР в тех областях, для которых применение интеллектуальных систем преждевременно или вообще не оправдано;
  • отождествление поисковых и информационно-справочных систем с системами искусственного интеллекта и т.д.

Следующая группа факторов определяется сложностью процесса построения ИСППВР, обусловленной необходимостью:

Эти и другие факторы существенно затормозили процесс внедрения ИСППВР в лечебный процесс и в современных условиях научной проработкой указанных проблем и разработкой прототипов таких систем заняты, в основном, одиночные исполнители.

Особенности систем формализации медицинских знаний (СУБЗ)

Основу ИСППВР, как было уже показано, составляет база экспертных медицинских знаний. Адекватность, непротиворечивость и ее полнота обеспечит своевременное и доказательное принятие врачебных решений. В этой связи представляется важным определить основные требования к СУБЗ, которая должна обеспечить:

Кроме того, СУБЗ должна обладать следующими полезными свойствами:

  • адекватностью методов представления внешних (ориентированных на пользователя) знаний информационным элементам, используемым в медицине;
  • единой внутренней моделью знаний для различных внешних представлений;
  • агрегированным интеллектуальным интерфейсом, обеспечивающим возможность представления различных информационных структур знаний и быстрых переходов между этими представлениями.

Исходя из отмеченной специфики задач принятия врачебных решений, можно сформулировать следующие требования к СУБЗ:

– описание новых элементов знаний в БЗ;

– изменение хранящихся в БЗ элементов знаний;

– удаление хранящихся в БЗ элементов знаний;

– просмотр содержимого БЗ;

– синтаксический контроль вводимой информации;

– семантический контроль состояния БЗ;

– оптимизацию размещения БЗ в памяти ЭВМ;

– документирование содержимого БЗ;

Таким образом, основным направлением применения ИСППВР является принятие врачебного решения в чрезвычайных ситуациях развития состояния пациента, когда ответственность за принятое решение является критической.

Основу ИСППВР составляет СУБЗ, для эффективного сознания которой необходимо решить следующие задачи:

  • разработать модель представления медицинских знаний, наиболее соответствующую выводу врачебных решений;
  • разработать дружественный интерфейс для медицинского эксперта, позволяющий ему успешно формализовать свои знания;
  • разработать математический аппарат, позволяющий накапливать знания во взаимодействии с интегрированной электронной медицинской картой и другими источниками медицинских данных.

В рамках решения научных задач по созданию прототипов интеллектуальных систем поддержки принятия врачебных решений можно отметить работы построения интеллектуальной системы выбора методов фармакотерапии, прогнозирования совместимости лекарственных препаратов и оптимизации выбора препарата замены [10, 11], интеллектуальной системы динамического наблюдения за состоянием здоровья спортсменов [12], интеллектуальной системы прогнозирования вероятности наступления беременности при применении вспомогательных репродуктивных технологий [13]. Авторы прогнозируют также серьезный всплеск исследований в области применения СИИ в здравоохранении, особенно в свете последних решений в области развития Интернет-технологий в Российской Федерации [3, 23].

Читайте также: