Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5 курс / ОЗИЗО Общественное здоровье и здравоохранение / Статистический_анализ_данных_в_медицинских_исследованиях_в_2_ч_Красько

.pdf
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
5.96 Mб
Скачать

 

(Sum Sq)

(Df)

 

 

 

 

 

 

 

Age,Group, BCTX

23,43

2

50,451

<0,0001

Expose

3,25

1

13,997

0,0003

Sex

3,55

1

15,267

0,0002

Age,Group, BCTX: Expose

1,24

2

2,665

0,0747

Residuals

22,76

98

 

 

Таблица 16-12. Оценка параметров модели LM.interaction

Переменная

Estimate

Std.Error

t-value

p

 

 

 

 

 

(Intercept)

1,77652

0,10212

17,396

<0,0001

 

 

 

 

 

Age,Group,BCTX[15-18]

-0,48578

0,17016

-2,855

0,0053

Age,Group,BCTX[18+]

-1,36348

0,15295

-8,915

<0,0001

Expose[expose]

-0,48979

0,13261

-3,693

0,0004

Sex[male]

0,37983

0,09721

3,907

0,0002

Age,Group,BCTX[15-18]:Expose[expose]

0,02229

0,23854

0,093

0,9258

Age,Group,BCTX[18+]:Expose[expose]

0,50652

0,22896

2,212

0,0293

Комментарии к Шагу 4.

1. Алгоритм "backward stepwise" является пошаговым алгоритмом. На каждом шаге он исключает предиктор из модели и одновременно проверяет, не могут ли в модель быть включены ранее исключенные предикторы. На каждом шаге из модели удаляются предикторы, не влияющие значимо на снижение оценки максимального правдоподобия модели данных. Снижение оценки максимального правдоподобия проверяется критерием отношения правдоподобия или AIC-критерием или другими критериями.

Алгоритм не единственный, существует достаточное количество других. Алгоритм "backward stepwise" рекомендуют на небольших наборах данных.

2.Почему мы сразу не строили модель со всеми взаимодействиями, а сначала редуцировали уровни предикторов? Поскольку у нас не так много данных, то полная модель с попранным взаимодействием имела бы 16 оцениваемых параметров (при учете взаимодействий более высокого порядка – 22). При наборе данных в 105 наблюдений мы могли бы или потерять значимое взаимодействие или получить некоторое случайно значимое взаимодействие. Наша модель имеет 7 параметров, мы обнаружили значимое взаимодействие после того, как убедились в том, что основные эффекты существуют.

3.Мы получили условно окончательную модель. Ее так называют, поскольку еще не исследованы предположения, лежащие в основе модели.

Шаг 5.

Перейдем к исследованию остатков модели и возможных выбросов. Необходимо проверить предположение о том, что регрессионные остатки подчиняются закону нормального распределения.

Основные диагностические графики приведены на Рис.16-11. Выполним тест Шапиро-Уилка остатков модели (р=0,02) .

161

Рис. 16-11. Основные диагностические графики модели LM.interaction

Рис. 16-12. Диаграмма влияния наблюдений на оценки параметров модели.

Проанализируем возможные выбросы в модели графически и с помощью тестов. Построим диаграмму наиболее влияющих значений (Рис. 16-12).

Тест Бонферрони на выбросы показал, что наиболее влияющим является наблюдение 84. И диаграмма и тест указывают на одно и тоже наблюдение.

Удалим наблюдение 84 из набора данных и повторим построение модели основных эффектов, модели со взаимодействием предикторов. Значимость предикторов в условно окончательной модели LM.fit приведена в Таблице 9 и оценка параметров модели – в Таблице 10.

Основные диагностические графики модели LM.fit приведены на рис. 16-13, тест Шапиро-Уилка показал р=0,24. Мы можем принять данную модель как окончательную.

162

Рис. 16-13. Основные диагностические графики модели LM.fit Таблица 16-13. Таблица ANOVA модели LM. fit

Предиктор

Сумма

Степени

Значение

p

 

квадратов

свободы

F-критерия

(Pr(>F))

 

(Sum Sq)

(Df)

 

 

 

 

 

 

 

Age,Group, BCTX

23,77

2

58,480

<0,0001

Expose

2,53

1

12,442

0,0006

Sex

3,04

1

14,951

0,0002

Age,Group, BCTX: Expose

1,12

2

2,759

0,0684

Residuals

19,71

97

 

 

Таблица 16-14. Оценка параметров модели LM.fit

Переменная

Estimate

Std.Error

tvalue

p

 

 

 

 

 

(Intercept)

1,79101

0,09560

18,733

0,0001

 

 

 

 

 

Age,Group,BCTX[15-18]

-0,64991

0,16472

-3,945

0,0002

Age,Group,BCTX[18+]

-1,35985

0,14307

-9,505

0,0001

Expose[expose]

-0,48616

0,12406

-3,919

0,0002

Sex[male]

0,35266

0,09121

3,867

0,0002

Age,Group,BCTX[15-18]:Expose[expose]

0,18293

0,22696

0,806

0,4222

Age,Group,BCTX[18+]:Expose[expose]

0,50290

0,21418

2,348

0,0209

Комментарий к Шагу 5.

1. График на рис. 16-13 слева должен показать наличие или отсутствие зависимости величины остатков от величины предсказанных значений. Зависимости не наблюдается (практически линия параллельна оси абсцисс), что означает, что предположение о линейности скорее всего не нарушено.

График на рис. 16-13 справа – это график квантилей (q-q график) остатков. Наблюдается некоторое отклонение от закона нормального распределения.

Можно построить больше диагностических графиков, например зависимость предсказанных значений от наблюдаемых и т.п.

163

Также интересна диаграмма влияния, в котором наблюдаются отклонения более ±3 сигм в распределении остатков.

На данных графиках мы наблюдаем несколько выбросов.

Более подробно мы изучили выбросы с помощью тестов, выявили наиболее значимый выброс (наблюдение 84), который относился к наблюдениям контрольной группы. Мы приняли решение повторить подгонку модели без наблюдения 84.

2. После удаления наблюдения 84:

(a) состав значимых переменных модели не изменился; (б) уклоны не поменяли знак;

(в) уменьшились оценки стандартных ошибок параметров модели (сравните Таблицу 16-12 и Таблицу 16-14).

Больше всего изменилась оценка параметра в возрастной подгруппе Age.Group[15-18], поскольку наблюдение 84 (исключенное) принадлежало этой подгруппе.

3. На практике отклонение более 10-15% наблюдений от модели сигнализирует о том, что, возможно, модель не соответствует данным. В нашем случае удаление одного наблюдения из выборки в 105 наблюдений не изменило принципиально модель, и снизило вариацию, мы получили более узкие интервальные оценки параметров модели данных.

Шаг 6.

“Прочтем” полученную окончательную модель (Таблица 16-14). Уравнение модели выглядит следующим образом:

E BCTX β0

β1 Age.Group. BCTX[15 -18]

β2 Age.Group. BCTX[18 ]β3 Expose[exp ose]

β4 Sex[male]

β5 Age.Group. BCTX[15 -18] Expose[exp ose]β6 Age.Group. BCTX[18 ] Expose[exp ose]

ε

Оценку случайной ошибки ε мы рассмотрели на предыдущем шаге, сейчас мы рассматриваем систематическую часть модели.

За базовую подгруппу приняты девочки контрольной группы в возрасте до 15 лет. Среднее значение β-CTX (E BCTX ) в этой подгруппе равно β0 1,79 . Эффект

воздействия снижает среднее значение β-CTX на β3 0,49, эффект значим (р=0.0002).

Поскольку есть взаимодействие воздействия и возрастных подгрупп, то этот эффект относится к подгруппе в возрасте до 15, т.е это означает, что в подгруппе до 15 лет у исследуемых из группы с воздействием с значение β-CTX в среднем на 0,49 ниже, чем в контрольной группе без воздействия.

Эффект пола (мальчики) повышает значение β-CTX в среднем на β4 0,35,

эффект значим (р=0,0002). Переменная Sex не взаимодействует с другими переменными, фактически это означает, что у мальчиков (независимо от воздействия, а также от возраста) значение β-CTX в среднем на 0.35 выше, чем у девочек.

164

Таким образом у девочек контрольной группы в возрасте до 15 лет среднее

значение β-CTX

равно

β0 1,79 ; у мальчиков контрольной

группы

β0

β4

1,79 0,35 2,14 .

У

девочек

из

исследуемой

группы

β0

β3

1,79 0,49 1,30 ;

у

мальчиков

 

этой

же

группы

β0 β3 β4 1,79 0,49 0,35 1,65.

 

 

 

 

 

 

Для возрастной подгруппы 15-18 лет:

 

 

 

 

 

эффект данной возрастной подгруппы составляет

β1 0,65, эффект значим

(р=0.0002). Фактически это означает, что в возрастной подгруппе 15-18 лет у контрольной группы (независимо от пола) идет снижение показателя β-CTX в среднем на 0.65 по сравнению с контрольной группой возраста до 15 лет. Таким образом в данной возрастной группе для девочек контрольной группы среднее значение β-CTX равно β0 β1 1,79 0,65 1,14 ; для мальчиков контрольной группы

β0 β1 β4 1,79 0,65 0,35 1,49.

Для исследуемой группы наблюдается взаимодействие возраста и

воздействия

в

возрастной

подгруппе

15-18

лет.

Эффект

равен

β1 β5 0.65 0.18 0.47 . Для девочек исследуемой группы в

возрасте 15-18 лет

среднее значение

β-CTX составит β0 β1 β3

β5 1,79 0,65 0,49 0,18 0,83 ; у

мальчиков исследуемой группы в возрастной подгруппе 15-18 лет среднее значение

β-CTX составит β0 β1 β3 β4 β5 1,79 0,65 0,49 0,35 0,18 1,18.

Для возрастной подгруппы после 18 лет:

эффект возрастной подгруппы 18+ составляет β2 1,36, эффект значим

(р<0,0001), т.е. наблюдается снижение уровня β-CTX у здоровых пациентов на 1,36 по сравнению с подгруппой до 15 лет у здоровых (независимо от пола).

для девочек контрольной

группы среднее значение β-CTX равно

β0 β2 1,79 1,36 0,43 ;

для

мальчиков

контрольной

группы

β0 β2 β3 1,79 1,36 0,35 0,78.

Для исследуемой группы в возрастной подгруппе 18+ в модели присутствует

эффект взаимодействия ( β2 β6

1,36 0,50 0,86 ) и

среднее значение β-CTX

составит

соответственно

для

девочек

исследуемой

группы

β0 β2 β3

β6 1,79 1,36 0,49 0,50 0,44 ;

для мальчиков исследуемой

группы

β0 β2 β3 β4 β6 1,79 1,36 0,49 0,35 0,50 0,79.

По модели рассчитаем средние и доверительные интервалы для различных групп (см. Таблица 16-14). На рис. 16-14 представлены графики эффектов, полученных в модели LM.fit.

165

Рис. 16-14. График эффектов модели LM.fit для BCTX

Значимость изменения уровня β-CTX для каждой возрастной подгруппы, ассоциированную с наличием химиотерапевтического воздействия, можно выяснить с помощью линейных гипотез для модели LM.fit. Значимость изменений составила соответственно для подгруппы до 15 лет p<0,0001; для подгруппы 15-18 лет p=0,11; для подгруппы 18+ p=0,92.

Комментарии к Шагу 6.

1.Мы получили ответ на вопрос о том, снижает ли химиотерапевтическое воздействие активность костного метаболизма. При разработке модели мы учли такие конфаудеры (вмешивающиеся переменные), как возраст и пол. Их влияние в модели было значимым. Причем изначально наблюдалась нелинейная зависимость от возраста, и мы сформировали возрастные группы.

2.Наличие взаимодействия с одной стороны уточняет модель, с другой – увеличивает ее размерность, из-за чего при внутригрупповых сравнениях (проверке линейных гипотез) мы получили незначимые оценки различия в эффекте лечения в контрольной и излеченной группах для подгруппы 15-18 лет. Фактически нам не хватило мощности исследования для установления эффекта от химиотерапевтического воздействия в возрастной подгруппе 15-18 лет.

Нужно очень осторожно относиться к увеличению размерности модели при малом размере выборки.

В данном исследовании одна из задач состояла в том, чтобы доказать значимые различия именно в возрасте активного костеобразования – до 15 лет. Другая задача – рассчитать ориентировочные нормы для здоровых детей в возрасте до 18 лет.

3. Если бы мы сформулировали иные цели исследования, мы бы по-другому использовали наши данные.

Например, если бы целью было рассчитать уровень снижения маркера костного метаболизма у детей вследствие лечения химиотерапией по сравнению с контрольной группой, мы бы (1) ограничили бы выборку исследуемыми до 18 лет (поскольку речь идет только о детях); убедились бы, что среднее возраста в контрольной и исследуемой группе не различаются, равно как и нет уклона по полу (т.е. мальчики девочки представлены в исследовании сбалансированными группами), (2) рассчитали эффекты от применения химиотерапии и в зависимости

166

от пола исследуемых; (3) проверили предположения, лежащие в основе модели; (4) сделали соответствующие выводы. Это можно сделать самостоятельно.

Клиническая ценность

1.У нас есть убедительные доказательства, что высокодозное и низкодозное лечение одинаково влияют на поведение β-CTX .

2.Определен эффект, связанный с лечением. Лечение ассоциировано со

снижением β-CTX в возрасте до 15 лет, т.е. в период активного костеобразования. После от 15 до 18 лет имеется тенденция в различиях, в более старшем возрасте этот эффект исчезает.

3.Также определен эффект связанный с полом. Он имеет место во всех возрастных группах.

4.По модели можно рассчитать средние и доверительные интервалы для здоровых и излеченных пациентов в различных возрастных группах (Таблица 1615). Для контрольной группы данные значения могут рассматриваться как норма и интервал нормы. Для пациентов, которые подверглись некоторому воздействию (или заболеванию) говорят не о нормах, а определяют отклонения от нормы (в процентах, в абсолютном выражении, в стандартизированном выражении).

Таблица

16-15. Значение

β-CTX с учетом пола,

возрастной подгруппы и наличия

химиотерапии

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Средний

 

 

 

 

β-CTX

 

 

 

 

 

возраст

 

 

 

 

95% Доверительные

 

 

Возраст

 

в группе

Пол

 

Группа

Среднее

интервалы

 

 

 

до 15

 

10,0

male

 

ХТ

1,66

1,47

 

1,85

 

 

до 15

 

male

 

контроль

2,14

1,96

 

2,33

 

 

 

 

 

 

 

 

до 15

 

9,8

female

 

ХТ

1,30

1,09

 

1,52

 

 

до 15

 

female

 

контроль

1,79

1,60

 

1,98

 

 

 

 

 

 

 

 

15-18

 

16,4

male

 

ХТ

1,19

0,93

 

1,45

 

 

15-18

 

male

 

контроль

1,49

1,20

 

1,79

 

 

 

 

 

 

 

 

15-18

 

16,3

female

 

ХТ

0,84

0,57

 

1,10

 

 

15-18

 

female

 

контроль

1,14

0,84

 

1,44

 

 

 

 

 

 

 

 

18+

 

22,4

male

 

ХТ

0,80

0,54

 

1,07

 

 

18+

 

male

 

контроль

0,78

0,55

 

1,02

 

 

 

 

 

 

 

 

18+

 

20,1

female

 

ХТ

0,45

0,16

 

0,73

 

 

18+

 

female

 

контроль

0,43

0,17

 

0,69

 

 

 

 

 

 

 

Перейдем к рассмотрению второго показателя – остеокальцина.

Модель для оценки уровня остеокальцина

У нас есть три фактора, которые, как мы полагаем, ассоциированы с уровнем остеокальцина: возраст исследуемых, пол и объем воздействия.

Мы не будем подробно рассматривать каждый шаг исследования, поскольку во многом оно аналогично исследованию β-CTX, опишем опорные моменты, нюансы и отличия.

Шаг 1.

Как и для β-CTX, рассмотрим, как распределен остеокальцин (Osteocalcin) у контрольной группы. Тест Шапиро-Уилка показал p=0,03, тест Шапиро-Франсиа р=0,058. Данные контрольной группы по остеокальцину скорее всего не подчиняются закону нормального распределения.

167

Выполним следующие преобразование данных Ost.sqrt=(Osteocalcin)0.5 – преобразование квадратного корня из значения, введем новый столбец в исследовании: Ost.sqrt.

Проверим преобразованные данные контрольной группы на соответствие закону нормального распределения. Теперь тест Шапиро-Уилка показал p=0,09, тест Шапиро-Франсиа р=0,18.

В исследовании остеокальцина будем пользоваться новой зависимой переменной Ost.sqrt. После окончания исследования проведем обратное преобразование для средних и доверительных интервалов.

Рассмотрим поведение зависимой переменной Ost.sqrt от возраста (предиктор age.at.measure) и пола (предиктор Sex, значения male/female); возраста и наличия воздействия (предиктор Expose, значения control/expose); возраста и его объема (предиктор Group, значения control/LowDose/HighDose). Графические зависимости представлены на рис. 16-15 и рис. 16-16.

Рис. 16-15. Зависимость Ost.sqrt от пола и возраста, в котором проведены измерения

Рис. 16-16. Зависимость Ost.sqrt от объема воздействия и возраста, в котором проведены измерения

Комментарии к Шагу 1.

168

1. После проверки распределения остеокальцина в контрольной группе пришлось использовать монотонное преобразование исследуемой переменной. Найти подходящее преобразование – неформальная задача, но для некоторых показателей, которые могут принимать только положительные значения – можно попытаться использовать преобразование Бокса-Кокса. Мы нашли значение λ преобразования Бокса-Кокса, равное 0,44. Это приблизительно соответствует преобразованию квадратного корня из значений исследуемой переменной. Мы искали преобразование для контрольной группы, в первую очередь, поскольку нас в исследовании также интересовали нормы для здоровых детей1.

2. В отличие от BCTX мы наблюдаем в младшей возрастной подгруппе нарастание Ost.sqrt с возрастом, значимо оно или нет – покажет исследование. Мы будем использовать то же разбиение на четыре возрастные подгруппы.

Шаг 2-3.

Проверяем гипотезу о равенстве эффектов высокодозного и низкодозного воздействия (р= 0,82).

Линейная гипотеза о неразличимости возрастных подгрупп до 10 и 10-14 имеет уровень значимости р=0,20.

Комментарий к шагу 2-3.

Вотличие от BCTX различия между двумя возрастными подгруппами до 10 и 10-14 более заметны.

Вцелом, пока не построена окончательная модель, обычно значимость параметра модели на уровне p<0,25 считают тенденцией. Внесение в модель дополнительных предикторов и их взаимодействий может изменить значимость отдельного предиктора как в меньшую, так и в большую сторону.

Шаг 4.

Строим модель LM.interaction со взаимодействием предикторов и удаляем незначимые взаимодействия, используя алгоритм "backward stepwise". Результаты представлены в Таблице 16-16 и Таблице 16-17.

Таблица 16-16. Таблица ANOVA модели LM.interaction

Предиктор

Сумма

Степени

Значение

p

 

квадратов

свободы

F-критерия

(Pr(>F))

 

(Sum Sq)

(Df)

 

 

 

 

 

 

 

Age,Group

293,07

3

55,909

<0,0001

Expose

20,00

1

11,443

0,0010

Sex

12,14

1

6,950

0,0100

Age,Group: Expose

18,45

3

3,519

0,0180

Residuals

167,74

96

 

 

1 Если бы модель, построенная на преобразованных данных, не удовлетворяла предположениям, лежащим в основе такой модели, мы бы попытались найти другое преобразование. В данном случае оно не понадобилось.

169

Таблица 16-17. Оценка параметров модели LM.interaction

Переменная

Estimate

Std.Error

tvalue

P

 

 

 

 

 

(Intercept)

8,9641

0,3632

24,684

<0,0001

 

 

 

 

 

Age,Group[10-14]

0,9969

0,4840

2,060

0,0422

Age,Group[15-18]

-1,7240

0,5181

-3,327

0,0012

Age,Group[18+]

-4,3151

0,4759

-9,067

<0,0001

Expose[expose]

-1,0082

0,5048

-1,997

0,0486

Sex[male]

0,7058

0,2677

2,636

0,0098

Age,Group[10-14]:Expose[expose]

-1,1288

0,7273

-1,552

0,1240

Age,Group,BCTX[15-18]:Expose[expose]

0,4135

0,7410

0,558

0,5782

Age,Group,BCTX[18+]:Expose[expose]

1,2122

0,7190

1,686

0,0950

Комментарии к Шагу 4.

1.При учете взаимодействия отличия между базовой подгруппой до 10 и 10-14 стали значимы.

2.Снижение вариации модели при взаимодействии переменных Age.Group и Expose значимо (Таблица 16-16, р=0,0180). Однако на каждом уровне взаимодействия (Таблица 16-17) значимость p>0,05. Мы должны оставить переменную взаимодействия в модели и учитывать оценки параметров при расчете средних, поскольку общий вклад в снижение вариации при взаимодействии существует.

Шаг 5.

Исследование остатков модели LM.interaction показало (Рис. 16-17), что предположение модели о нормальном распределении остатков не нарушено (тест Шапиро-Уилка p = 0,66).

Эту модель можно принять за окончательную.

Рис. 16-17. Основные диагностические графики модели LM.interaction

170

Соседние файлы в папке ОЗИЗО Общественное здоровье и здравоохранение