Scientific journal
Scientific Review. Biological science
ISSN 2500-3399
ПИ №ФС77-57454

HOW MISSING VALUES IN MEDICAL DATA CAN IMPACT RESEARCH RESULTS?

Mantrova A.I. 1
1 Omsk State Medical University
In statistics and in mathematics, methods for analyzing of missing data are being intensively developed. But in experimental and clinical medicine this problem is underestimated. The most dangerous case of missing not at random is the death of a part of individuals (patients or experimental animals) in the experimental group of the pathology under study. Usually, then, the surviving individuals of the experimental group are compared for the indicator of interest to the indicator with a control group in which there was no death. The difference between these two groups is traditionally interpreted in medicine as a consequence of the pathology under study. This interpretation is incorrect, since the difference between the groups can be caused not only by the pathology being studied, but also by missing values caused by this pathology. The problem of missing not at random and the resulting bias of the results and conclusions of research is most relevant in those branches of medicine where mortality is higher: in resuscitation, traumatology, emergency cardiology, etc. The review adopted the division of all biomedical measurements into destructive and non-destructive. Modern statistical-mathematical, as well as methodological and organizational methods of dealing with biases caused by missing not at random are considered. It emphasizes the need to introduce these methods in medical research.
missing values
missing data
missing not at random
bias
medical research

При статистической обработке результатов медицинских исследований основную массу данных составляют обычные полные наблюдения, когда от подопытных животных или обследуемых пациентов получают результаты, представляющие собой определенные цифровые значения. Но иногда в цифровых данных возникают пропуски, то есть такие наблюдения, о которых известен лишь факт их существования, но ничего не известно об их цифровых значениях. Например, пропуск в данных возникает в том случае, когда взятый от животного или человека биоматериал оказывается случайно утраченным до его исследования. Нечто среднее между полными наблюдениями и пропусками представляют собой цензурированные наблюдения – об их цифровых значениях известна лишь часть информации. Например, если онкологический больной, у которого изучалось влияние нового вида лечения на выживаемость, через 2 года после начала лечения погиб в автокатастрофе, то его результат выживаемости можно записать как «не менее 2 лет» или «2 года*», где звездочка (согласно ГОСТ 27.504-84 и последующим стандартам) представляет собой пометку о том, что данное наблюдение является цензурированным [1].

Статистические методы анализа данных с пропусками и анализа цензурированных данных идеологически и терминологически близки. Но для статобработки цензурированных данных к настоящему времени создано уже немало эффективных методов, чего, к сожалению, нельзя сказать о данных с пропусками. Актуальность проблемы влияния пропусков в данных на результаты и выводы медицинских исследований отмечается в ряде публикаций [2–4]. Особую остроту эта проблема имеет в тех случаях, когда пропуски в данных вызваны гибелью животных или людей от изучаемой патологии и носят неслучайный характер.

Цель исследования: провести обзор литературных данных по проблеме влияния неслучайных пропусков на результаты медицинских исследований, а также gроанализировать способы решения этой проблемы.

Материалы и методы исследования: поиск, обработка и анализ отечественной и зарубежной литературы по тематике настоящего обзора.

Поиск публикаций осуществлялся в информационно-телекоммуникационной сети Интернет: в зарубежных электронных базах данных «EMBASE» и «PUBMED» (в базу «PUBMED» как ее главная составная часть входит «MEDLINE»), а также в российской научной электронной библиотеке «e-LIBRARY.RU». Поскольку в данной области медицинской статистики еще не сложилась общепринятая русскоязычная и англоязычная терминологии, ниже приведены термины, использованные для поиска публикаций:

– данные с пропусками – англ. missing data,

– пропуски или пропущенные значения (наблюдения) – англ. missing values,

– цензурированные значения (наблюдения) – англ. censoring values,

– цензурирование (процесс формирования цензурированных данных и данных с пропусками) – англ. censoring,

– случайные пропуски – англ. missing at random, missing-at-random,

– неслучайные пропуски – англ. missing not at random,

– неслучайное цензурирование (то есть неслучайный механизм формирования пропусков и цензурированных наблюденй) – англ. informative censoring,

– смещение (в результатах и выводах исследования) – англ. bias,

– потеря части данных – англ. loss of data, dropout,

– импутация (замещение пропущенного значения его оценкой) – англ. imputation.

Результаты исследования и их обсуждение

Проблему неслучайных пропусков в данных, вызванных изучаемой патологией, можно проиллюстрировать следующим примером [5]. Предположим, в опыте на крысах исследуется влияние какой-либо тяжелой патологии на содержание в мозге некоторого вещества Х. Животные были в случайном порядке разделены на две группы: 1) опытную, у которой моделировали изучаемую патологию, приведшую к гибели (а говоря языком статистики – к цензурированию, ведущему к образованию пропусков в данных) 40 % крыс; 2) контрольную, у которой моделировали не изучаемую патологию, а только сопутствующие экспериментальные воздействия (наркоз, фиксация и т.п.). В контрольной группе гибели животных, естественно, не было.

Пусть среднее содержание вещества Х в мозге крыс опытной группы оказалось на 55 % ниже, чем в контрольной (значимость различий между группами P < 0,05). Обычно эти результаты интерпретируются так: «изучаемая патология привела к статистически значимому снижению содержания вещества Х на 55 % по сравнению с контрольной группой». В экспериментах с пропусками в данных подобные формулировки являются некорректными. Можно ведь предположить, что снижение показателя произошло не вследствие патогенетических и компенсаторных процессов, запущенных изучаемой патологией, а просто из-за того, что животные с высокими содержаниями вещества Х оказались менее устойчивыми и погибли (представим, что у 40 % погибших крыс как раз и были самые высокие уровни вещества Х в группе), а животные со средними и низкими содержаниями выжили. В этом гипотетическом случае, если у выживших особей содержание вещества Х в мозге осталось таким же, каким оно было до моделирования патологии, то за счет отсева (пропусков) высоких значений возникает иллюзия снижения показателя, и это кажущееся снижение может быть ошибочно истолковано как «открытие нового звена в патогенезе изучаемой патологии».

Если же в рассмотренном примере погибли крысы с самыми низкими уровнями показателя, тогда истинное снижение вещества Х под влиянием патологии составляет по сравнению с контрольной группой не 55 %, а намного большую величину. То есть в этом случае тоже происходит искажение результатов, но уже в другую сторону. Причина искажений в обоих случаях состоит в том, что группу выживших особей сравнивают с контрольной группой, в которой перемешаны «потенциально выжившие» и «потенциально погибшие» особи.

Есть еще вариант, что гибель части особей происходит таким образом, что среднее значение (медиана, средняя арифметическая) исследуемого показателя или другие его статистические параметры в группе не меняются. В принципе такое возможно, и тогда мы действительно получим изменения, обусловленные только патологическим процессом. Но в этом случае получается, что исследуемый показатель, хотя и изменяется при данной патологии (в силу каких-то второстепенных, побочных процессов), но никак не влияет на вероятность для организма выжить или умереть. Поэтому, исследуя такой показатель, вряд ли можно обнаружить важное звено патогенеза изучаемого заболевания или добиться снижения смертности от него. Получается, что при пропусках, вызванных гибелью особей от изучаемой патологии, ценность того или иного показателя как объекта для исследования тем выше, чем сильнее влияют на него пропуски, вызванные изучаемой патологией (неважно, отсеивают они наибольшие значения показателя или наименьшие). Ситуации, когда различия между группами вызваны только влиянием пропусков или только изучаемым патологическим процессом, представляют собой логически возможные крайности. В реальности эти два фактора чаще всего действуют совместно, а итоговые изменения представляют собой сумму их влияний [4, 5]. Проблема в том, как статистически оценить долю каждого из этих факторов в итоговой сумме.

Неслучайный характер пропусков, вызванных изучаемой патологией, был обоснован в предыдущем абзаце логически, исходя из того, что ни один исследователь не станет изучать заведомо никчемные показатели, никак не влияющие на вероятность выжить или умереть. Но неслучайность пропусков можно установить и статистически: например, в работе [2] это было сделано по результатам многомерного анализа (англ. «multivariate analysis»).

Очевидно, влияние неслучайных пропусков, вызванных изучаемой патологией, на результаты исследования будет тем больше, чем выше летальность от данной патологии. Поэтому проблема пропусков и вызванных ими смещений в результатах исследований наиболее актуальна в отраслях медицины, имеющих дело с экстремальными и терминальными состояниями, то есть в травматологии [6, 7], реаниматологии [8–10], неотложной кардиологии [11, 12] и т.п.

Также весьма актуальна проблема потери части данных в исследованиях по экспериментальной фармакологии [13–15] и клинической фармакологии [16, 17]. В США в 2010 г. был выпущен специальный нормативный акт [17], в котором определены 3 градации пропусков в данных по клинической фармакологии в зависимости от степени их случайности (полностью случайные пропуски, случайные пропуски и неслучайные пропуски) и даны указания по их статистической обработке [16, 17]. Однако специалисты в этой области продолжают выражать озабоченность тем, что пропуски в данных по клиническим испытаниям лекарств до сих пор часто или не признаются серьезной проблемой, или считаются неприятностью, которую лучше игнорировать [12].

В клинической наркологии признано, что пропуски в данных являются важной методологической проблемой и что необходимо проводить исследования с использованием различных методов статистической обработки данных с пропусками [18].

Еще одним примером может служить исследование в области клинической гинекологии [19], в котором статистически анализировались дневники симптомов эндометриоза, предоставляемые больными женщинами. Часть данных отсутствовала, а те, которые были получены, можно расценивать как цензурированные данные или как данные с пропусками. Для их статистической обработки были применены специальные методы [19]. Известно, что пропуски в данных можно рассматривать как крайний (предельный) случай цензурированных наблюдений [1].

Как отечественными, так и зарубежными авторами признано, что не существует универсального алгоритма для статистико-математической обработки данных с пропусками [16, 20]. Несмотря на многолетнюю разработку методов анализа данных с пропусками, пока не найдено удовлетворительных решений для многих медицинских задач. Как следствие, например, в работе [18] параллельно использовалось сразу 6 методов обработки данных с пропусками.

Одним из распространенных методических подходов является импутация (замещение) пропущенного значения его статистической оценкой, то есть значением, полученным по сохранившимся (непропущенным) значениям, которые наиболее близки к пропущенному. Среди таких методов весьма перспективной представляется множественная импутация (англ. «multiple imputation»), примененная, в частности, в работах [7, 21, 22]. Идеологически близок к ней минимаксный метод, основанный на анализе логически возможных крайних вариантов влияния пропусков на результаты исследования [5, 23, 24]. В работе [6] основной принцип анализа пропущенных значений заключался в том, чтобы не заменять их вычисленными оценочными значениями или наиболее близкими из сохранившихся (непропущенных) значений, а также не исключать пропуски из статобработки, а включить пропуски в математическую модель в качестве отдельной категории. Существуют и другие статистико-математические способы обработки пропущенных данных [16]. Но, кроме сложных методов, есть полезные простые рекомендации. Например, в экспериментах с неслучайными пропусками, вызванными изучаемой патологией, корреляционный анализ внутри каждой группы статистически более корректен, чем сравнение опытных групп с контрольной [25, 26].

Проблему данных с пропусками можно рассматривать и в контексте нарушения рандомизации [5]. В медико-биологическом исследовании, если измерение показателя не требует забоя животного (такие измерения называются неразрушающими), то его измеряют у каждой особи до моделирования заболевания и после, получая таким образом связанные (парные) наблюдения, которые обрабатывают статистическими методами, предназначенными для таких наблюдений. Если же для измерения изучаемого показателя необходима эвтаназия животного (такие измерения называются разрушающими), тогда с соблюдением правил рандомизации формируются опытная и контрольная группы, отличающиеся лишь наличием у опытных животных изучаемой патологии. Это есть вынужденный прием, пойти на который заставляет невозможность измерить показатель дважды у одной и той же особи. Корректность и высокая эффективность такого приема в экспериментах с полными выборками привели к его механическому переносу и на те эксперименты, в которых часть особей не доживает до забоя из-за тяжести исследуемой патологии. При этом рандомизированность эксперимента грубо нарушается. Принадлежность показателя к разрушающим или неразрушающим не является его неотъемлемым свойством, а может меняться в зависимости от характера исследования и принципа измерения [5].

Проблему искажающего влияния неслучайных пропусков на результаты исследования можно решать не только статистическими, но и в ряде случаев методическими и организационными способами. Под методическими способами понимается прежде всего применение биопсийных и неинвазивных методик (в частности, методов так называемой дистантной химии), что позволяет перевести изучаемый показатель из категории разрушающих в категорию неразрушающих. В качестве примера можно привести неинвазивное определение фосфоросодержащих метаболитов in vivo при помощи ядерного магнитного резонанса.

Рассмотрим примеры организационного решения проблемы неслучайных пропусков [5]. Предположим, нужно изучить, как изменяется содержание вещества Х в крови у мужчин в процессе старения. Для этого из одной и той же популяции с соблюдением правил рандомизации формируются группы мужчин в возрасте 50–55, 55–60 и 60–65 лет и в крови у них определяется содержание вещества Х. Ясно, что различие среднего уровня вещества Х в этих выборках может быть обусловлено не только его возрастными изменениями, но и пропусками: естественной смертью части мужчин, которая увеличивается в каждой следующей возрастной группе, а также гибелью их от несчастных случаев или выбыванием из-под наблюдения. Существует альтернативная организация работы – измерение вещества Х у каждого взятого в исследование 50-летнего мужчины вплоть до достижения им 65 лет (или до смерти). Однако при этом необходимо, чтобы все пробы крови анализировались в одинаковых условиях.

В тех случаях, когда в опытах на животных возможно количественное варьирование тяжести изучаемой патологии, можно сформировать несколько опытных групп, различающихся по степени тяжести патологии, а следовательно и по проценту летальности (проценту пропусков, вызванных изучаемой патологией). Зависимость изменений величины измеряемого показателя (измерение которого является разрушающим) от величины процента пропусков можно затем установить при помощи статистических методов, в частности регрессионного и дисперсионного анализа. Например, можно использовать двухфакторный регрессионный анализ, где один фактор – степень тяжести патологии, второй фактор – процент пропусков, а отклик – уровень показателя, требующего эвтаназии животных (разрушающее измерение).

Как отмечалось в начале настоящего обзора, в медико-биологических исследованиях кроме неслучайных пропусков могут возникать также случайные пропуски в данных, например нечаянная утрата части биоматериала еще до проведения измерений. Для того, чтобы подобные пропуски были действительно случайными (не влияли на результаты исследования), нужно проводить обработку материала в рандомизированном порядке, как и все остальные этапы работы.

Заключение

Таким образом, из проведенного обзора литературы можно сделать вывод, что в последние годы интенсивно ведется разработка методов статистико-математического анализа данных с пропусками. Но наибольшую опасность, которая в медицине недооценивается, представляют неслучайные пропуски, вызванные гибелью части особей от изучаемой патологии. Отличие такой группы от контрольной группы традиционно трактуется только как следствие изучаемой патологии, но это отличие может быть вызвано также и пропусками. Эта проблема тем острее, чем выше летальность от изучаемой патологии. Необходимо внедрение в медицинские исследования современных статистико-математических, а также методических и организационных способов борьбы со смещениями, вызываемыми неслучайными пропусками.