Scientific journal
Scientific Review. Biological science
ISSN 2500-3399
ПИ №ФС77-57454

ESTIMATION OF THE FACTOR VALIDITY OF THE EORTC QLQ-PR25 QUALITY OF LIFE QUESTIONNAIRE FOR ONCOUROLOGICAL PATIENTS

Muslov S.A. 1 Nokhrin D.Yu. 2 Lapshikhina E.A. 3
1 Moscow State Medical and Dental University named after A.I. Evdokimov
2 Chelyabinsk State University
3 City Clinical Oncological Hospital No. 1 DZ
The paper presents the results of cluster analysis of data from the EORTC QLQ-PR25 quality of life questionnaire and nonlinear principal component analysis by CATPCA. The objects were 100 oncourological patients who were under observation in the State Clinical Hospital No. 40 DZ of Moscow from October 2020 to December 2021. In the course of statistical analysis, the construction of a cluster heat map (CHM), nonlinear analysis of principal components and separation of a mixture of distributions were used. Calculations and construction of the CHM are performed in the pheatmap package of the R software and statistical environment. Nonlinear analysis of the main components was carried out in the IBM ® SPSS ® Statistics (version 20) package using the CATPCA method. When choosing the number of latent variables such criteria as Cattell, Kaiser and the “broken stick” were used. The Cronbach’s alpha coefficient was used as an indicator of reliability. The results of a double clustering with the heat map construction and a nonlinear PCA to be similar and revealed 3 groups of correlating items of the EORTC QLQ-PR25 questionnaire and 2 groups of patients with different quality of life. 30% of the letter – have fewer symptoms of the urinary system, intestinal and hormonal symptoms and higher indicators of sexual function and activity, by contrast 70% – had more symptoms. In the factor structure of the questionnaire, 3 latent variables are allocated, mainly corresponding to: 1) symptoms of the urinary system, intestinal and hormonal symptoms (21.1% variance); 2) individual hormonal symptoms and with a leading contribution of indicators of sexual activity (11.3%); 3) individual hormonal and intestinal symptoms with a leading contribution and indicators of sexual function. The internal consistency of the questionnaire items, estimated by the factor structure, is good with Cronbach’s alpha 0.845 and it can be increased by excluding 20-25 questions from the calculation.
quality of life
prostate cancer
cluster analysis
categorical analysis of the main components

В предыдущих работах [1–3] мы использовали опросники OHIP-20 DG и EORTC QLQ-PR25 для изучения качества жизни (КЖ) стоматологических и онкоурологических больных с помощью классической (КТТ) и современной теории тестирования (англ. Item Response Theory, IRT). Как известно, IRT основана на концепции латентных переменных и метрической модели Раша. В этих работах были проведены и исследования психометрических свойств опросника, его дискриминативности, надежности и валидности, определены характеристики латентных переменных и качество жизни больных до и после лечения. Тем не менее поиски новых подходов и инструментов для измерения качества жизни, связанного со здоровьем, должны продолжаться и стать одной из самых распространённых задач в современной доказательной медицине. В настоящем сообщении представлены результаты исследования, цель которого заключалась в анализе данных опросника EORTC QLQ-PR25 методами кластерного анализа и нелинейного анализа главных компонент по алгоритму CATPCA (Categorical Principal Components Analysis).

Материалы и методы исследования

Объектами исследования выступили 100 пациентов онкоурологического профиля, находившихся под наблюдением в ДКО ГКБ № 40 ДЗ г. Москвы с октября 2020 г. по декабрь 2021 г. В соответствии с пунктами опросника оценивали симптомы в нарушении мочеиспускания, кишечные симптомы, симптомы, связанные с гормональным лечением, сексуальные активность и функционирование. В ходе статистического анализа использовали построение кластерной тепловой карты (КТК), нелинейный анализ главных компонент и разделение смеси распределений. Для группировки столбцов и строк матрицы данных в КТК применяли иерархический кластерный анализ с коэффициентом корреляции Спирмена в качестве меры сходства, и методом Уорда [4] в качестве агломеративного алгоритма. Расчёты и построение КТК выполнены в пакете pheatmap [5] программно-статистической среды R [6]. Нелинейный анализ главных компонент проводили в пакете IBM® SPSS® Statistics (version 20) методом CATPCA [7]. При этом все 25 показателей опросника анализировались как предварительно ранжированные и сглаженные квадратичным сплайном с максимально возможным количеством узлов порядковые переменные. При выборе числа латентных переменных руководствовались критериями Кэттелла, Кайзера и «сломанной трости» [8]. В качестве показателя надёжности использовали альфу Кронбаха, которая рассчитывалась в ходе нелинейного анализа главных компонент. Разделение смеси распределений индивидуальных факторных меток проведено по ЕМ-алгоритму в пакете PAST (version 4.06b) [9].

Результаты исследования и их обсуждение

Кластерный анализ опросника КЖ EORTC QLQ-PR25. Для выявления коррелирующих вопросов, ответам на которые соответствуют регистрируемые опросником симптомокомплексы, а также групп пациентов со сходным сочетанием последних была построена кластерная тепловая карта (КТК) (рис. 1). Тепловая карта – графическое представление данных, где индивидуальные значения в таблице отображаются при помощи цвета. Она сочетает двойную кластеризацию объектов (пациенты) и их атрибутов (пункты опросника) с цветовой раскраской ячеек, выраженных в нормализованных единицах z [10]. В нашем случае использовалась нормализация объектов и цветовая палитра программы Pheatmap по умолчанию. В таком сочетании, чем в более красный цвет окрашена ячейка, тем в больший балл оценил соответствующий пункт пациент относительно среднего балла по выборке, тогда как синий цвет ячейки указывает на отклонение оценки данного пациента в меньшую от среднего сторону.

Видно, что выделились три кластера коррелирующих пунктов (1–3) и два кластера пациентов (Р1 и Р2) со сходными сочетаниями оценок. В первый кластер вопросов вошли три показателя сексуальной активности (Q20, Q21) и функции (Q22): «Насколько Вы заинтересованы в сексе?», «Насколько Вы были сексуально активны (с половым контактом или без него)?», «В какой степени секс был приятен Вам?», а также оценка недосыпания из-за необходимости посещать туалет в ночное время (Q4). Второй кластер вопросов сформирован преимущественно оценками симптомов мочевой системы, а третий – остальными симптомами.

Следует отметить большое число пропущенных значений для вопроса Q8 в кластере 2, что является видно на КТК как большое число серых ячеек, но является закономерным, так как ответ на этот вопрос предполагался только для пациентов, имеющих проблему недержания мочи.

Кластер пациентов Р1 представлен 30 больными (30,0 %), имеющими относительно высокие показатели сексуальной активности (кластер 1), низкую выраженность симптомов мочевой системы (кластер 2) и среднюю выраженность прочих симптомов, за исключением трёх вопросов о сексуальной функции (Q23–Q25), ответы на которые часто не были даны (12 серых блоков пропусков).

missing image file

Рис. 1. Кластерная тепловая карта группировок вопросов опросника EORTC QLQ-PR25 и пациентов с раком предстательной железы. Мера сходства – корреляция Спирмена, алгоритм – метод Уорда. Красные ячейки – оценка пациента выше среднего, синие – ниже среднего, серые – нет данных

Второй кластер пациентов Р2 содержал остальных 70 больных, имеющих проблемы преимущественно средней степени выраженности по всем трём симптомокомплексам. Из рис. 1 видно, что внутри этого большого кластера имелись подгруппы более похожих пациентов, но их обособленность была выражена слабо.

Таким образом сдвоенный кластерный анализ с визуализацией в виде тепловой карты позволил выявить три симптомокомплекса, а также два кластера пациентов: 1) преимущественно не имеющих проблем с мочевой системой и проявляющих высокую сексуальную активность и 2) имеющих относительно низкую сексуальную активность и проявления различной регистрируемой опросником симптоматики.

Нелинейный анализ главных компонент по алгоритму CATPCA. Несмотря на информативность кластерного анализа, особенно в сочетании с построением КТК, он не позволяет говорить о качестве самого опросника. Вместе с тем самым главным и комплексным показателем такого качества является конструктная валидность – способностью теста к измерению именно запланированной и теоретически обоснованной характеристики [11]. Для её объективизации обычно используются многомерные статистические методы: анализ главных компонент и факторный анализ [12, 13]. Однако, поскольку ответы на вопросы опросника EORTC QLQ-PR25 выражаются в порядковой шкале – баллах (для большинства пунктов от 1 до 4), в анализе правильнее задействовать непараметрические подходы. Поэтому нами был использован нелинейный анализ главных компонент, называемый также оптимальным шкалированием, который был проведён по алгоритму CATPCA – Categorical Principal Component Analysis. Данный метод является непараметрическим аналогом PCA и позволяет включить в анализ одновременно качественные номинальные, порядковые и количественные данные. При этом, в зависимости от настроек метода в программе, в качестве частных его случаев могут быть получены решения, аналогичные результатам как классического PCA, так и множественного анализа соответствий [7, 14].

Как видно из рис. 2, решение с 10 главными компонентами (ГК) по критерию Кайзера было явно избыточным, а согласно критерию «сломанной трости» нетривиальную долю дисперсии объясняли только первые 3 ГК. Также на три группы симптомокомплексов указал описанный выше кластерный анализ. Поэтому окончательный вариант анализа был проведён с выделением трёх ГК (в отличие от обычного PCA и аналогично факторному анализу, выбор числа латентных переменных в CATPCA влияет на результат). Результаты этого анализа представлены в таблице. Пациенты и пункты опросника в пространстве двух первых нелинейных главных компонент отображены на рис. 3.

missing image file

Рис. 2. Иерархия нелинейных главных компонент, выделенных по алгоритму CATPCA

Выделенные 3 ГК объясняли в сумме 43,1 % общей дисперсии, причём половина её (21,1 %) приходилась на первую ГК. Видно, что за редким исключением высокие положительные нагрузки на неё дали симптомы мочеполовой системы, кишечные и гормональные симптомы, но не показатели сексуальной функции и активности. Последние вместе с отдельными гормональными симптомами сформировали самостоятельные вторую и третью ГК, приблизительно равные по силе (около 11 % дисперсии). Таким образом, следует заключить, что первая ГК является интегральным показателем имеющихся у больных раком предстательной железы проблем, что указывает на факторную валидность методики. Судя по величине альфы Кронбаха (0,845), внутренняя согласованность пунктов опросника, сформировавших ГК 1, характеризуется как «хорошая» и коррелирует с данными [15], полученными с помощью КТТ (0,861). Вместе с тем низкая доля объясняемой дисперсии, а также наличие структурных компонентов, не вошедших в ГК 1, снижают её качество.

В последней колонке таблицы приведены значения общностей, которые изменяются от 0 до 1 и позволяют оценить, насколько полно данный пункт опросника нашёл отражение в выделенной модели из трёх компонент. Видно, что наименее полно в данном решении участвовали гормональные и кишечные симптомы (до 0,456), более полно – симптомы мочевой системы (до 0,601) и наиболее полно – показатели сексуальной функции (до 0,695) и сексуальной активности (до 0,805).

Сферу сексуальной активности и сексуальной функции следует обсудить дополнительно. Клинически понятно, почему специалисты Европейской организации по исследованию и лечению рака EORTC (European Organization for Research and Treatment of Cancer Quality of Life Questionnaire) вставили эти индикаторы в опросник. Однако с точки зрения тестологии получается, что они только мешают выделению интегрального симптомокомплекса больного раком простаты: снижают внутреннюю согласованность и формируют собственные ГК. На основании проведённого анализа можно предложить не включать ответы на вопросы 20–25 в расчёт интегрального показателя. Отметим, что авторы [16] не изучали внутреннюю согласованность домена сексуальное функционирование (при обследовании 81 больного раком простаты I–IV стадии при использовании тайваньско-китайской версии EORTC QLQ-PR25) из-за большого числа отсутствующих ответов на условные вопросы этого домена.

Факторная структура опросника EORTC QLQ-PR25 по результатам нелинейного анализа главных компонент

№ вопроса

Главная компонента

Общность /

Всего

1

2

3

Симптомы мочевой системы

1

0,469

-0,273

-0,171

0,324

2

0,427

-0,420

0,118

0,373

3

0,756

0,041

-0,002

0,574

4

-0,351

0,020

-0,024

0,124

5

0,730

-0,021

-0,121

0,548

6

0,639

0,086

-0,179

0,448

7

0,647

-0,061

-0,126

0,438

8

0,732

0,238

-0,095

0,601

9

0,690

-0,052

-0,170

0,507

Кишечные симптомы

10

0,601

-0,090

-0,143

0,390

11

0,442

0,217

-0,045

0,245

12

0,366

0,225

-0,174

0,215

13

0,157

0,127

0,605

0,407

Гормональные симптомы

14

0,388

0,374

-0,164

0,317

15

0,299

0,375

-0,053

0,233

16

0,456

0,118

0,359

0,350

17

0,395

0,073

-0,011

0,162

18

0,145

0,401

-0,232

0,236

19

0,499

0,104

0,442

0,456

Сексуальная активность

20

-0,107

0,889

0,056

0,805

21

-0,163

0,796

0,076

0,667

Сексуальная функция

22

-0,315

0,678

0,047

0,561

23

0,181

0,089

0,809

0,695

24

0,104

-0,064

0,643

0,428

25

0,155

-0,134

0,790

0,667

Доля объяснённой дисперсии, %

21,1

11,3

10,7

Всего: 43,1

Альфа Кронбаха, ед.

0,845

0,682

0,660

Всего: 0,946

Примечание: жирным шрифтом выделены нагрузки > 0,3.

Если же по каким-то причинам важно оценивать наряду с симтомокомплексом больного ещё и сексуальные показатели, то лучше, во-первых, считать их по отдельным шкалам, а во-вторых – может быть больше нагрузить дополнительными вопросами, поскольку пока их внутренняя согласованность оценивается в 0,6–0,7, т.е. как «сомнительная».

Сомнительна и польза пункта 4 «Не высыпаетесь ли Вы ночью из-за необходимости часто вставать в туалет?» (отрицательная нагрузка -0,351 на первую ГК). Заметим, что на основании матрицы корреляции этот индикатор имеет также наименьший показатель связи между вопросами внутри одной шкалы (0,0005) и наименьший критерий согласия хи-квадрат (0,001) [15]. Точки, соответствующие средним значениям 10 групп опытных данных, далеки от характеристической кривой в модели измерения Раша (рис. 4).

missing image file

Рис. 3. Пациенты (точки) и пункты опросника (векторы Q) в пространстве двух первых нелинейных главных компонент. №№ пациентов в кластерах: синие (n = 9): 4, 16, 27, 32, 57, 58, 62, 92, 97; зелёные (n = 8): 3, 17, 21, 36, 37, 54, 74, 87; оранжевые (n = 13): 12, 15, 25, 40, 41, 46, 53, 76, 77, 78, 80, 89, 94; красные (n = 70) – все остальные

missing image file

Рис. 4. Характеристическая кривая индикатора 4 «Не высыпаетесь ли Вы ночью из-за необходимости часто вставать в туалет?» и эмпирические данные, усредненные по группам объектов. Программа ИЛП – Измерение латентных переменных [17]

missing image file

Рис. 5. Разделение смеси распределения факторных меток онкобольных для первой главной компоненты CATPCA. Цвета кластеров использованы в рис. 3

Поскольку ГК 1 наиболее полно отражала цели всего опросника, на последнем этапе нами были рассчитаны индивидуальные оценки пациентов (факторные метки) для данной компоненты. Для этого был проведён ещё один вариант анализа CATPCA, полностью идентичный предыдущему, но с заменой пропущенных данных средним значением пункта опросника. Это позволило с небольшой долей условности включить в анализ распределения факторных меток все 100 пациентов. На рис. 5 представлена гистограмма полученных значений, а также кривые её разделения четырьмя нормальными распределениями.

Видно, что группа пациентов с раком предстательной железы не является однородной по интегральному показателю опросника EORTC QLQ-PR25. В ней выделяются четыре кластера пациентов, три из которых имеют значения в отрицательной зоне графика, что соответствует повышенной сексуальной активности и меньшим проблемам по симптомокомплексу мочевой, кишечной и гормональной сфер. Количество пациентов, вошедших в кластеры 1, 2 и 3, составило соответственно 9, 8 и 13 чел., т.е. всего 30, что совпало с результатами кластерного анализа. Следует отметить, что три подгруппы кластера Р1 на рис. 1 не идентичны, но близки по персональным меткам пациентов к полученному разделением смеси распределений результату. Последний, четвертый, кластер включает 70 пациентов с более выраженными проблемами со здоровьем. Он является однородным и приблизительно соответствует кластеру Р2 тепловой карты.

Выводы

1. Результаты двойного кластерного анализа с построением тепловой карты и нелинейного анализа главных компонент оказались схожими и выявили три группы коррелирующих пунктов опросника EORTC QLQ-PR25 и 2 группы пациентов с различным качеством жизни: 30 % – с меньшими проявлениями симптомов мочевой системы, кишечных и гормональных симптомов и более высокими показателями сексуальной функции и активности, а также 70 % – с обратной ситуацией.

2. В факторной структуре опросника выделяются три латентные переменные, преимущественно соответствующие: 1) симптомам мочевой системы, кишечным и гормональным симптомам (21,1 % дисперсии); 2) отдельным гормональным симптомам и с ведущим вкладом показателей сексуальной активности (11,3 %); 3) отдельным гормональным и кишечным симптомам с ведущим вкладом и показателей сексуальной функции.

3. Внутренняя согласованность пунктов опросника, оцененная по факторной структуре, является хорошей (альфа Кронбаха 0,845) и может быть увеличена исключением из расчёта вопросов 20–25.