Comparison of nonparametric estimates of the survival functions
- Authors: Abdushukurov A.A.1, Bozorov S.B.2
-
Affiliations:
- Lomonosov Moscow State University, Tashkent branch
- Gulistan State University
- Issue: Vol 29, No 3 (2023)
- Pages: 72-78
- Section: Mathematical Modelling
- URL: https://journals.ssau.ru/est/article/view/27064
- DOI: https://doi.org/10.18287/2541-7525-2023-29-3-72-78
- ID: 27064
Cite item
Full Text
Abstract
The article compares three types of estimates: exponential, multiplying and power structures for the survival function of three random censoring observations on the right. It was previously established that all these three estimates are equivalent with a growing sample size, i.e. three with the same centering and normalization converge to the same Gaussian process. For specific samples, it is shown that power estimates are defined on the entire line, in contrast to exponential and multiply estimates. Therefore, power estimates are better than the other two. Censored data is used in survival analyses, biomedical trials, and industrial experiments. There are several censoring schemes (right, left, both sides, combined with competing risks, and others). However, right-sided random censoring is common in the statistical literature because it is easy to describe from a methodological point of view. Here we also consider this type of censoring, to compare our results with others.
Full Text
1. Предварительные сведения
Исследования непараметрических оценок, экспоненциальной, множительной и степенной структур по-
казывают их асимптотическую эквивалентность (при n → ∞). Некоторые отличительные свойства этих
оценок проявляются при фиксированном объеме выборки, и они проведены в монографии [1].
Вестник Самарского университета. Естественнонаучная серия 2023. Том 29, № 3. С. 72–78
Vestnik of Samara University. Natural Science Series 2023, vol. 29, no. 3, pp. 72–78 73
Пусть {Zj ; j > 1} и {Yj ; j > 1} — взаимонезависимые последовательности, независимые и одинаково
распределенные случайная величина с непрерывными функциями распределения H и G соответственно.
Наблюдается выборка объема n:
C(n) = {(j ;Δj); 1 6 j 6 n};
где
j = min (Zj ; Yj) ;
Δj = I(Zj 6 Yj)
(I (A) — это индикатор события A.
1: Если Zj 6 Yj , то j = min (Zj;Yj) = Zj, Δj = 1, и в этом случае мы можем наблюдать Z;
2: Если Yj 6 Zj , то j = min (Zj;Yj) = Yj, Δj = 0, это будет случай цензурирования.
Задача состоит в оценивании функции выживания 1−H(x) по выборке C(n) при мешающей функции
распределения G. Для 1 − H справедливо представление [2]:
1 − H(x) = exp(−Λ(x; 1));
где
Λ(x; 1) =
∫
(????1;x]
(1 − H (u−))
????1dH (u) =
∫
(????1;x]
(1 − N (u−))
????1dM (u; 1);
N (x) = P (j 6 x) = 1 − (1 − H (x)) (1 − G(x)) = M (x; 1) +M (x; 0) ;
M (x; 1) = P (j 6 x; Δj = i) ; i = 0; 1:
H1n (x) = 1 − Π
u6x
exp
{
−Mn(u;1)????Mn(u????;1)
1????Nn(u????)
}
= 1 − exp (−Λn (x; 1)) ;
H2n (x) = 1 − Π
u6x
exp
{
1 − Mn(u;1)????Mn(u????;1)
1????Nn(u????)
}
;
H3n (x) = 1 − (1 − Nn (x))Rn(x);
(1)
где
Rn(x) = Λn(x; 1)(Λn(x))
????1;
Λn (x; 1) =
∫
(????1;x]
(1 − Nn (u−))
????1
dMn (u; 1) ;
Λn (x) =
∫
(????1;x]
(1 − Nn (u−))
????1
dNn (u) ;
Nn (x) = Mn (x; 1) +Mn (x; 0) =
1
n
Σn
j=1
I (j 6 x) ;
Mn (x; i) =
1
n
Σn
j=1
I (j 6 x;Δj = i) ; i = 0; 1:
Таким образом, рассматриваемая модель является моделью случайного цензурирования справа Zj
при помощи Yj , где Zj наблюдаемы лишь при Δj = 1.
Пусть G1n(x), G2n(x) и G3n(x) соответствующие оценки мешающей функции распределения G(x),
определяемые формулами (1) с заменой Mn(x; 1) на Mn(x; 0): В рассматриваемой модели 1 − N(x) =
= (1 − H(x))(1 − G(x)) для всех x ∈ R. Однако для этих трех типов оценок имеем:
I.
(1 − H1n(x))(1 − G1n(x)) = exp(−Λn(x)) ̸= 1 − Nn(x)
и при
x > (n) = max
16i6n
{i} ;
max (H1n(x);G1n(x)) < 1:
II.
(1 − H2n(x))(1 − G2n(x)) ̸= 1 − Nn(x)
и при
x > (n)
оценки H2n(x) и G2n(x) неопределенны.
74
Абдушукуров А.А., Бозоров C.Б. Cравнение непараметрических оценок функции выживания
Abdushukurov A.A., Bozorov S.B. Comparison of nonparametric estimates of the survival functions
III. Для степенных оценок
(1 − H3n(x))(1 − G3n(x)) = 1 − Nn(x)
и, следовательно, при x > (n), H2n(x) = G2n(x) = 1:
Таким образом, для случая непрерывных распределений H и G, только оценки степенной струк-
туры H3n и G3n являются идентифицируемыми с моделью. Для демонстрации свойств оценок (1)
рассмотрим выборку объема n = 97 из работ [3; 5]. Это данные из центра уединения Ченнинг Хаус
(Channing House) в г. Пало Альто (Palo Alto) в Калифорнии (США). Вариационный ряд, построенный
по этим данным, есть:
(777;1), (781;0), (843;0), (866;0), (869;1), (872;1), (876;1), (893;1), (894;1), (895;0), (898;1), (906;0), (907;1),
(909;1), (911;1), (911;0), (914;0), (927;1), (932;1), (936;0), (940;0), (942,5;0), (943;0), (945;1), (945;0), (948;1),
(951;0), (953;0), (956;0), (957;1), (957;0), (959;0), (960;0), (966;1), (966;0), (969;1), (970;0), (971;1), (972;0),
(973;0), (977;0), (983;1), (984;0), (985;1), (989;1), (992,5;1), (993;1), (996;1), (998;1), (1001;0), (1002;0),
(1005;0), (1006;0), (1009;1), (1011,5;1), (1012;1), (1012;0), (1013;0), (1015;0), (1016;0), (1018;0), (1022;1),
(1023;0), (1025;1), (1027;0), (1029;1), (1031;1), (1031;0), (1031,5;0), (1033;1), (1036;1), (1043;1), (1043;0),
(1044;1), (1044;0), (1045;0), (1047;0), (1053;1), (1055;1), (1058;0), (1059;1), (1060;1), (1060;0), (1064;0),
(1070;0), (1073;0), (1080;1), (1085;1), (1093;0), (1093,5;1), (1094;1), (1106;0), (1107;0), (1118;0), (1128;1),
(1139;1), (1153;0).
Здесь данные представлены в месяцах, причем находящееся с рядом число 1 в парах означает нецен-
зурирование (т. е. смерть), а 0 — цензурирование. При этом 46 человек умерли с начала открытия
центра в 1964 году по 1 июля 1975 года ко дню сбора данных. Это нецензурированные данные. Из
остальных данных о 51 человеке 5 были выписаны из центра, а 46 еще были живы к 1 июля 1975 го-
да. Это цензурированные данные. По этим 97 данным приведены графики оценок Hm;97(x); m = 1; 2; 3
на рис. 1–3 по отдельности и на рис. 4 вместе:
Рис. 1. Оценка 1 − H1;97(x)
Fig. 1. Estimator 1 ???? H1;97(x)
Из рисунков видно, что в отличие от экспоненциальных и множительных оценок только степенные
оценки определены на всей прямой. Теперь при помощи оценок (1) построим доверительные полосы для
неизвестной функции 1−H(x). Для этого будем следовать работам [3; 4] и используем доверительные
полосы вида
M
mn (x; 1; 2) =
[
ˆM
(1)
mn (x; 1; 2) ;M(2)
mn (x; 1; 2)
]
;
где m = 1; 2; 3;
ˆM
(1)
mn (x; 1; 2) = Hmn (x) − n
????1
2 (1 − Hmn (x))
(
1d
1
2n
(T) + 2 · dn (x)
d
1
2n
(T)
)
;
M(2)
mn (x; 1; 2) =
Hmn (x) + n????1
2
(
1d
1
2n
(T) + 2
dn(x)
d
12
n (T)
)
1 + n????1
2
(
1d
1
2n
(T) + 2
dn(x)
d
1
2
n (T)
) ;
Вестник Самарского университета. Естественнонаучная серия 2023. Том 29, № 3. С. 72–78
Vestnik of Samara University. Natural Science Series 2023, vol. 29, no. 3, pp. 72–78 75
Рис. 2. Оценка 1 − H2;97(x)
Fig. 2. Estimator 1 ???? H2;97(x)
Рис. 3. Оценка 1 − H3;97(x)
Fig. 3. Estimator 1 ???? H3;97(x)
Рис. 4. Оценка 1 − Hm;97(x); m = 1; 2; 3
Fig. 4. Estimator 1 ???? Hm;97(x); m = 1; 2; 3
T = 1128; 1 = 1; 2 = 1; 37 и dn (x) =
∫
(????1;x]
(1 − Nn (u−))
????2dMn (u; 1) : Эти полосы для данных объема
n=97 с использованием оценок (1) приведены на рис. 5–7.
76
Абдушукуров А.А., Бозоров C.Б. Cравнение непараметрических оценок функции выживания
Abdushukurov A.A., Bozorov S.B. Comparison of nonparametric estimates of the survival functions
Рис. 5. Доверительные полосы M1
;97(x; 1; 1; 37)
Fig. 5. Confidence bands M1
;97(x; 1; 1; 37)
Рис. 6. Доверительные полосы M2
;97(x; 1; 1; 37)
Fig. 6. Confidence bands M2
;97(x; 1; 1; 37)
Рис. 7. Доверительные полосы M3
;97(x; 1; 1; 37)
Fig. 7. Confidence bands M3
;97(x; 1; 1; 37)
Заключение
Сравнивают три вида оценок: экспоненциальной, множительной и степенной для функции выживания при случайном цензурировании справа. Ранее была установлена асимптотическая эквивалентность этих трех видов оценок при растущем объеме выборки в смысле сходимости к одному и тому же гауссовскому процессу. Для конкретной конечной выборки объема n = 97 показаны некоторые преимущества степенной оценки по сравнению с остальными двумя. Следовательно, эта оценка лучше, чем остальные. Имеются численные примеры демонстрации результатов.
About the authors
A. A. Abdushukurov
Lomonosov Moscow State University, Tashkent branch
Author for correspondence.
Email: a_abdushukurov@rambler.ru
ORCID iD: 0000-0002-0994-8127
professor of the Department of Applied Mathematics and Informatics
22, Amir Temur Street, Tashkent, 100060, UzbekistanS. B. Bozorov
Gulistan State University
Email: suxrobbek_8912@mail.ru
ORCID iD: 0009-0001-8133-4963
Doctoral student of the Department of Mathematics, Faculty of Information
Technology
References
- Abdushukurov A.A. Statistics of incomplete observations. Tashkent: Universitet, 2009, 269 p. (In Russ.)
- Abdushukurov A.A., Bozorov S.B., Nurmukhamedova N.S. Nonparametric Estimation of Distribution Function Under Right Random Censoring Based on Presmoothed Relative - Risk Function. Lobachevskii Journal of Mathematics, 2021, vol. 42, no. 2, pp. 257–268. DOI: https://doi.org/10.1134/S1995080221020049.
- Cs¨org˝o S. Estimating in the proportional hazards model of random censorship. Statistics, 1988, vol. 19, issue 3, pp. 437–463. DOI: https://doi.org/10.1080/02331888808802115.
- Cs¨org˝o S., Horvath L. Confidence bands from censored samples. Canadian Journal of Statistics-revue Canadienne De Statistique, 1986, vol. 14, № 2, pp. 131–144. DOI: https://doi.org/10.2307/3314659.
- Efron B. Censored Data and the Bootstrap. Journal of the American Statistical Association, 1981, vol. 76, no. 374, pp. 312–319. DOI: https://doi.org/10.2307/2287832.