Искусственные нейронные сети (ИНС) в последнее время стали широко популярны как метод обработки данных. Они представляют собой математические модели биологических нейронов, способные изменять свою структуру под воздействием внешних факторов. В ходе обучения внутренние параметры искусственной нейронной сети подстраиваются под входные данные, что позволяет выделять в них закономерности или решать задачи прогнозирования, классификации и кластеризации [1].
В практическом здравоохранении, где не всегда имеется возможность располагать полным набором входных данных, особый интерес представляют экспертные системы для диагностики заболеваний на основе нейронных сетей [2]. Искусственные нейронные сети сегодня широко применяются в выявлении атеросклеротических бляшек с помощью анализа флюоресцентных спектров, диагностике инфаркта миокарда, заболеваний периферических сосудов, клапанных шумов сердца с помощью анализа акустических сигналов, распознавании психических симптомов и многих других направлениях медицины.
Применение нейронных сетей в процессе принятия решений сводится к следующему ряду особенностей:
- относительная простота и однородность отдельных элементов сети (нейронов);
- все основные свойства сети определяются структурой связей;
- избыточность системы гарантирует ее надежность как целого;
- связи формируются по неявным правилам в процессе обучения.
Кроме того, нейронные сети позволяют принимать решения в условиях неопределенности путем решения задач с неизвестными закономерностями и зависимостями между входными и выходными данными, что позволяет работать с неполными данными [3]. Это означает, что нейронные сети способны создавать механизмы воспоминаний, которые могут обрабатывать неполные либо нечеткие входные данные и возвращать результат. Результатом могут быть сами входные данные или совершенно отличающиеся от входных данных ответы.
При решении задач машинного обучения принципиально важное значение имеют размер и качество обучающей выборки. В связи с этим формирование такой обучающей выборки является одной из первостепенных задач машинного обучения. Недостаточно точный тренировочный набор в большинстве случаев приводит к неверному формированию модели принятия решений и, как следствие, снижает эффективность самих алгоритмов обучения. Большинство специалистов по машинному обучению отмечают, что наличие хороших обучающих данных намного важнее качества алгоритма обучения.
В связи с активным развитием глубоких нейронных сетей в последнее десятилетие, вопросы формирования множества обучающих данных принимают особенно важное значение, поскольку во многих задачах глубокие нейронные сети демонстрируют качество, существенно превосходящее остальные алгоритмы машинного обучения. Однако, чтобы получить подобный выигрыш в качестве, необходимо использовать обучающее множество очень большого размера, а также специальные методы расширения и имитации расширения обучающего множества [4, 5].
Нейронные сети, в отличие от статистических методов многомерного классификационного анализа, базируются на параллельной обработке информации и обладают способностью к самообучению, то есть получать обоснованный результат на основании данных, которые не встречались в процессе обучения. Эти свойства позволяют нейронным сетям решать сложные (масштабные) задачи, которые на сегодняшний день считаются трудноразрешимыми [2, с. 6–8].
Цель исследования
Изучение особенностей формирования обучающей выборки и обучения нейронной сети с неполными входными данными при решении частных медицинских задач
Материалы и методы исследования
В данной работе в качестве обучающей выборки применялись данные о состоянии здоровья 457 пациентов по 56 критериям на основе результатов эхокардиографического исследования. Так как в некоторых случаях наблюдалась неполнота входных данных для обучающей выборки, имеющийся набор тренировочных данных был поделен на категории по значимости:
- общие параметры (рост, вес, пол, ИМТ и т.д.);
- параметры эхокардиографии (КДО ЛЖ, КДР ЛЖ, диаметр аорты и др.);
- сопутствующие факторы (курение, наличие остеохондроза, подагры и т.д.).
Результатом работы нейронной сети являлось наличие одного или нескольких синдромов сердечно-сосудистых заболеваний:
- гипертрофия левого желудочка (y1);
- эксцентрическое ремоделирование левого желудочка (y2);
- дегенеративные изменения клапанов (y3);
- систолическая дисфункция левого желудочка (y4)
- ишемическая кардиомиопатия (y5);
- диастолическая дисфункция левого желудочка (y6).
Этапы нейросетевого анализа включали:
1. Исследование взаимосвязи переменных и понижение размерности.
2. Построение и обучение сетей разных типов.
3. Сравнение качества сетей и их статистических характеристик.
Понижение размерности предполагало отсев ряда входных, выбивающихся из общей закономерности параметров за счет осуществления корреляционного анализа и определения степени взаимозависимости входных параметров от выходных следующим образом:
- синдром «Гипертрофия левого желудочка» (y1) – 39 значимых параметров;
- синдром «Эксцентрическое ремоделирование левого желудочка» (y2) – 19 параметров;
- синдром «Дегенеративные изменения клапанов» (y3) – 35 параметров;
- синдром «Систолическая дисфункция левого желудочка» (y4) – 35 параметров;
- синдром «Ишемическая кардиомиопатия» (y5) – 34 параметра;
- синдром «Диастолическая дисфункция левого желудочка» (y6) – 40 параметров.
Далее для каждого синдрома и соответствующего ему набора параметров построены различные модели нейронной сети со следующей структурой:
- N-1;
- N-5-1;
- N-10-1;
- N-15-1;
- N-20-1;
- N-15-5-1,
где N – количество входных нейронов для различных синдромов.
В качестве функций активации нейронов выбиралась либо гиперболическая тангенциальная функция активации, либо логистическая сигмоидальная функция активации, либо сочетание данных двух функций. Выбор данных функций обусловлен тем, что они могут быть настроены на получение на выходе результата между 0 и 1, где 0 – отсутствие синдрома заболевания, 1 – наличие синдрома. Промежуточные значения говорят о неоднозначности выявления данного синдрома в связи с неполнотой либо неоднозначностью исследования.
Всё обучение нейронной сети сводится к корректировке значений весов (синапсов) и отклонений (корректирующих сдвигов) значений нейронов сети путем применения алгоритма обратного распространения ошибки (рис. 1).
Обучаемость сети характеризуется числом допустимых циклов (эпох обучения) и допустимой среднеквадратичной ошибкой в расчете результата, достижение предельных значений которых завершает процесс обучения модели.
Проверка работоспособности построенной сети осуществлялась на тестовом наборе из 10 исследований, включавших помимо стандартных входных значений также и исследования, выбивающиеся из типичных показателей (таблица).
Как видно из результата, только одна нейронная модель смогла практически безошибочно выявить все синдромы заболеваний, выдавая ответы, подобные ответам эксперта (рис. 2). Также эксперимент показал, что нейронные сети, имеющие на выходном слое логистическую сигмоидальную функцию активации, ни разу не смогли опровергнуть наличие синдрома заболевания в отличие от гиперболической тангенциальной функции активации. Следовательно, данная функция активации для выходного слоя в данном круге задач неприменима.
Рис. 1. Обучение нейронной сети
Сравнительный анализ работы нейронных сетей различной структуры и ответов эксперта
Ответы эксперта |
1,000 |
0,000 |
1,000 |
1,000 |
1,000 |
1,000 |
0,000 |
1,000 |
1,000 |
1,000 |
Logsig: 39-1 |
0,999 |
0,506 |
0,999 |
0,999 |
0,999 |
0,987 |
0,500 |
0,999 |
0,999 |
0,999 |
Tansig: 39-1 |
0,993 |
0,998 |
0,999 |
1,000 |
0,955 |
0,842 |
0,000 |
0,999 |
0,999 |
0,999 |
Tansig-tansig: 39-5-1 |
0,978 |
0,128 |
0,999 |
0,999 |
0,958 |
0,999 |
0,000 |
0,999 |
0,987 |
0,999 |
Tansig-tansig: 39-10-1 |
0,971 |
0,999 |
0,954 |
0,999 |
0,959 |
0,993 |
0,000 |
0,998 |
0,997 |
0,975 |
Tansig-tansig: 39-15-1 |
0,971 |
0,999 |
0,999 |
0,999 |
0,979 |
1,000 |
0,000 |
0,999 |
0,999 |
0,962 |
Tansig-tansig: 39-20-1 |
0,971 |
0,999 |
0,896 |
0,939 |
0,980 |
1,000 |
0,000 |
0,999 |
0,999 |
0,980 |
logsig-logsig: 39-10-1 |
0,993 |
0,999 |
0,999 |
0,999 |
0,952 |
0,999 |
0,500 |
0,999 |
0,999 |
0,993 |
Logsig-tansig: 39-5-1 |
0,990 |
0,959 |
0,999 |
0,994 |
0,960 |
0,999 |
0,000 |
0,999 |
0,999 |
0,958 |
Logsig-tansig: 39-10-1 |
0,978 |
0,976 |
0,999 |
0,999 |
0,986 |
0,996 |
0,000 |
0,999 |
0,999 |
0,988 |
Logsig-tansig: 39-15-1 |
0,953 |
0,849 |
0,999 |
0,992 |
0,975 |
0,934 |
0,049 |
0,968 |
0,928 |
0,970 |
Logsig-tansig: 39-20-1 |
0,972 |
0,999 |
0,999 |
0,999 |
0,991 |
0,999 |
0,000 |
0,999 |
0,981 |
0,970 |
Logsig-tansig-tansig: 39-15-5-1 |
0,899 |
0,989 |
0,999 |
0,999 |
0,999 |
0,999 |
0,000 |
0,999 |
0,999 |
0,984 |
Tansig-tansig-tansig: 39-15-5-1 |
0,999 |
0,999 |
0,999 |
0,999 |
0,999 |
1,000 |
0,000 |
0,999 |
0,999 |
0,975 |
Рис. 2. Сравнение ответов нейронной модели и эксперта по синдрому ГЛЖ (Гипертрофия левого желудочка)
Аналогичные эксперименты для всех остальных синдромов показали, что наиболее рациональным является применение следующих нейросетевых моделей для исследуемого набора синдромов:
- «Гипертрофия левого желудочка» (y1) – 39-5-1 (tansig-tansig);
- «Эксцентрическое ремоделирование левого желудочка» (y2) – 19-10-1 (tansig-tansig);
- «Дегенеративные изменения клапанов» (y3) – 35-1 (tansig);
- «Систолическая дисфункция левого желудочка» (y4) – 31-1 (tansig);
- «Ишемическая кардиомиопатия» (y5) – 34-5-1 (tansig);
- «Диастолическая дисфункция левого желудочка» (y6) – 40-15-1 (tansig).
Поскольку модели выводят в качестве ответа значения от 0 до 1, результат вывода (y) преобразуется в коэффициент уверенности (CV) следующим образом:
- если y < 0,55, то CV = (1 – y) * 100 %,
- если y > = 0,55, то CV = y * 100 %.
Коэффициент уверенности (CF) – это числовое значение, которое выражает степень субъективного убеждения в том, что конкретный элемент является истинным. Когда используются вероятности, внимание должно быть уделено основным предположениям и распределениям вероятности, чтобы показать достоверность. Эксперт может использовать CF для решения проблемы определения степени доверия модели. Промежуточные CF между 40 % и 60 % должны требовать дополнительного исследования в связи с неоднозначностью ответа.
В ходе дальнейшего эксперимента по определению адекватности выбранных моделей было проведено 10 дополнительных экспериментов, в рамках которых было получено 60 выходных значений нейронной сети. В ходе эксперимента модель сделала только одну грубую ошибку в случае сильного отклонения входных критериев исследования. Ошибка системы моделей в проводимой группе экспериментов определена в 1,7 %. В целом точность системы моделей составляет более 90 %, что является довольно высокой оценкой.
Результаты обучения и проверка эффективности разработанных нейронных сетей доказывают возможность их успешного применения в частных медицинских задачах и подтверждают их способность находить шаблоны и сложные отношения между различными объектами, принадлежащими к одному и тому же классу данных. Также можно предположить, что при использовании более емкой и разнообразной обучающей выборки ошибка работы нейронной сети будет уменьшаться.
Результаты наглядно демонстрируют высокую эффективность экспертной системы нейронной сети в диагностических целях. Дальнейшее развитие программной системы на основе нейронной сети поможет улучшить диагностику сердечно-сосудистой патологии с помощью неинвазивных методов исследования сердца.