跟着小胖学统计038：ICH E9临床试验的统计学指导原则解析（五十二）-（五十七）

电梯直达

楼主

xiaoxiao 发表于 2014-11-25 19:21:14 | 只看该作者回帖奖励

|倒序浏览 |阅读模式

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由 xiaoxiao 于 2014-12-1 02:21 PM 编辑

静远学堂—跟着小胖学统计038：ICH E9临床试验的统计学指导原则解析（五十二）、（五十三）、（五十四）2014-11-25 [url=]驭时临床试验信息[/url]

登录/注册后可看大图

信息来源：微信公众号--静远医学统计在线(微信号：jeeyor) 授权转载，点击阅读原文可进入该公众号，查看静远学堂系列栏目。
小胖说统计之七十五：ICH E9临床试验的统计学指导原则解析（五十二）

从临床试验实例来看样本含量的计算（七）

从上边两个实例例5和例6，我们可以看出，基于假设检验的样本量的估计往往会涉及到以下六个重要因素：

（1）Primary endpoint：Summary measure of interest (proportions or means)

样本量大小通常以临床试验的主要指标来确定，而我们在看这个主要指标时，需要确定它是什么类型的变量，连续性变量还是分类性变量，通俗点讲，就是这个变量的总结描述是用均数，还是用率，这两种不同的情况有不同的样本量计算公式。静注：另外还有一种情况TTE（Time To Event，时间事件指标），如我们常见的生存分析的指标就是这种类型，这会在后面的例子中介绍如何计算。

（2）Effect Size: Smallest difference worth detecting (clinically)

Minimum expected difference是指研究者希望研究能检测出的治疗组间的主要指标的最少差异值。这个最少差异值越小，自然需要更多的样本量来检测出来。这个值的确定带有主观性，一般根据临床判断和经验。比如说要进行一项比较新药物和标准治疗药物的试验，主要疗效指标是客观反应率，已知标准治疗药物的客观反应率是80％，对于新药物，我们只知道它可能更有效，但具体不知道新药的疗效是多少。这时假设新药的反应率只有81％，研究者肯定觉得在临床上没有什么意义，他们可能认为如果新药的反应率能达到90％才具有临床意义。因此，我们就会选择10％作为Minimum expected difference。当然，在选择这个Minimum expected difference时，我们最好可以参考一些以前的试验或预试验的结果，还有一些文献综述之类的东西，以便更有科学依据。

（3）Variability expected in the population：

这个值对于连续性变量（均数）来说是标准差。标准差越大，需要的样本量就越多。当然标准差需要根据先前的研究数据来确定。对于分类性变量（率）来说，这个值就相当于治疗组的率值，P1和P2。P1和P2越接近0.5，样本量越大。

（4）statistical power：

这就是我们通常所说的检验把握度1-β，通俗点讲，就是我们把自己的药作出来优于别的药物的概率。当然把握度越高，你需要付出的样本量也越大。通常情况下，这个值一般都大于等于80％，现在越来越多的人开始提倡使用90％。

（5）Significance Level：

这就是我们通常所说的显著性水平α。显著性水平越低，样本量越大。通常情况下，这个值一般都取0.05。静注：说得细一点，单侧一般取0.025，双侧取0.05。

（6）One- or Two-tailed Statistical Analysis：

单侧还是双侧，在业界也存在争议，有不同的做法。对于一般的随机化临床试验，我们一般采取双侧，因为试验药物也有可能差于对照药物。当然我们这里所说采取双侧，是基于优效性检验的，并不包括非劣效试验。

小胖说统计之七十六：ICH E9临床试验的统计学指导原则解析（五十三）

从临床试验实例来看样本含量的计算（八）

众所周知，样本量的大小直接决定着临床试验budget的大小，现在很多情况下，大家的budget都是有限的，那么当统计师给你算出一个样本量来，结果你的budget不够，那该怎么办呢？小胖有以下建议：

（1）降低你的statistical power

（2）增大minimum detectable effect size，就是我们最通俗说的difference

（3）我们不推荐改变你的方差、显著性水平等

（4）如果这些改变还没有达到你的budget的要求，那么你只有两种选择了：

A. 等到你的钱够了再做

B. 按现有的钱做，可试验结果可能是inconclusive,那你这个试验就只能当作pilot study或exploratory study来用了

其实上边所说的，都是不是办法的办法，样本量的计算在很大程度上确实是一门艺术，而不是简单的加减乘除，需要更多的权衡和智慧…

小胖说统计之七十七：ICH E9临床试验的统计学指导原则解析（五十四）

从临床试验实例来看样本含量的计算（九）

以上所提到的样本量的计算的临床试验的研究设计都是优效性试验，那么对于非劣效试验，样本量的计算又有什么不同呢？

在介绍这个问题前，小胖需要让大家明确一点，在FDA的一般原则中，α=0.025（单侧）与α=0.05（双侧）是等同的，因此在非劣效试验的统计分析中一般有两种构建可信区间的方法：97.5%单侧可信区间和95％双侧可信区间，两者也是等同的。

明确了这一点，我们再看下边的例子：

例7：Lancet. 2008 Mar 29;371(9618):1073-84.

Once-daily basal insulin glargine versus thrice-daily prandial insulin lispro in people with type 2 diabetes on oral hypoglycaemic agents (APOLLO): an open randomised controlled trial

With the assumption of an equivalence region of 0.4% and standard deviation of 1.3% for the differences of haemoglobin A1c reduction between the two groups, one-sided therapeutic non-inferiority can be shown with an error of α=0•025 (one-sided) and β=0.2 with 167 participants per group (total of 334 participants).

非劣效试验样本量计算与我们前边提及的优效性样本量的计算公式基本一致，只是用非劣效界值来取代了Δ（希望检测出的差异值），另外最大的区别在于α以及单双侧检验的选择。

以上边的临床试验为例，非劣效试验一般选择单侧，而α值一般选择0.025,即α=0.025（单侧），这时你会发现β为0.2，f（α，β）值其实是与α=0.05（双侧）相同的，都约为7.85。在这个意义上，非劣效试验样本量的计算其实与前边所提及的样本量的计算是一致的，只不过在叙述上有所不同罢了。

另外，特别提出的一点就是现在非劣效试验开始不接受α=0.05（单侧），因此我们以前所经常用到的α=0.05（单侧）其值用α=0.1（双侧）来代替，β为0.2，f（α，β）＝6.2的做法应尽量避免。静注：简单而言，这一做法假阳性概率较高，避免这样操作而取α=0.025（单侧）是提高了对试验设计的要求。

静远学堂—跟着小胖学统计039：ICH E9临床试验的统计学指导原则解析（五十五）、（五十六）、（五十七）2014-11-27 jeeyor [url=]驭时临床试验信息[/url]

登录/注册后可看大图

9 i- @% u1 }7 p: G% M8 V! X5 I1 LICH E9临床试验的统计学指导原则解析（五十五）

从临床试验实例来看样本含量的计算（十）

前边的博文小胖介绍的都是基于连续性变量和分类变量的样本量计算方法，其实在我们的临床试验中特别是在肿瘤临床试验中还有一种十分重要的变量类型，即time to event（时间事件）变量，也就是我们通常所说的生存数据，比较常见的如OS（总体生存）、PFS（未进展生存）等。这类试验的样本量的计算与传统的样本量计算有所不同，从本篇博文开始，小胖将就这种类型试验的样本量的计算作一简单介绍。

例8：N Engl J Med. 2009 Feb 5;360(6):563-72

Chemotherapy, bevacizumab, and cetuximab in metastatic colorectal cancer.

基本的研究设计情况：随机、开放的III期研究，受试者按照1：1的比例被随机分配到capecitabine–bevacizumab (CB)组合和capecitabine–bevacizumab–cetuximab (CBC)组。

主要终点：未进展生存（PFS）

样本量确定的描述：

It was estimated that with 540 events (progression or death), a two-sided log-rank test at a significance level of 5% would have a power of 80% to detect a difference in median progression-free survival of 11 to 14 months (hazard ratio, 0.79). On the assumption of an accrual and follow-up period of 36 months, we planned to include approximately 750 patients in the study.

例9：N Engl J Med. 2003 Nov 6;349(19):1793-802

A randomized trial of letrozole in postmenopausal women after five years of tamoxifen therapy for early-stage breast cancer

基本的研究设计情况：随机、双盲、安慰剂的III期研究，受试者按照1：1的比例被随机分配到letrozole (2.5 mg)组和安慰剂组。

主要终点：无病生存（disease-free survival, DFS）

样本量确定的描述：

The sample size was calculated under the assumptions of a four-year disease-free survival rate of 88 percent in the placebo group and the detection of a difference of 2.5 percent in the four-year disease-free survival rate (hazard ratio for local or metastatic recurrence of the disease or the diagnosis of contralateral breast cancer, 0.78), with 80 percent power at a two-sided alpha level of 0.05. These assumptions necessitated the enrollment of 4800 women over a four-year period with two years of follow-up, accounting for 515 events.

以上所提到的两个例子是生存分析试验中计算样本量最简单也是最常见的方法，这个方法由Freedman LS提出，其发表的文章为Tables of the number of patients required in clinical trials using the logrank test，Stat Med. 1982 Apr-Jun;1(2):121-9.

大家可以从上边的两个例子中发现，与先前提到的基于连续性变量和分类变量额样本量估算方法有所不同，基于time to event变量的样本量计算方法首先估算的是events的数量。这一点其实是与time to event变量的性质相关的，在主要终点是time to event变量的临床试验中，power是由临床试验中观察到的events的数量决定的，而不是直接由受试者的数量决定的。说白了，就是必须由足够数量的病人进入试验，然后随访足够的时间，以便能观察到所需数量的events。因此，这种临床试验样本量的确定一般要分两步：（1）先确定所需的events 的数量；（2）确定所需受试者的数量。

下一篇博文中，小胖将具体介绍一下，上述两个例子中所用到的样本量的计算方法。

小胖说统计之七十九：ICH E9临床试验的统计学指导原则解析（五十六）

, w$ f) G7 Q# p3 ?

从临床试验实例来看样本含量的计算（十一）

上文中列举了一个time to event变量样本量确定的例子，如前面所说这时样本量的确定的第一步就是计算events数量，那下边我们具体看一下events的计算方法吧：

假设两组1：1随机分配：

e＝f(α，β)×[(HR+1)×(HR+1)]/[(HR－1)×(HR－1)]

上述计算出来的e值就是总共需要的events数量。

其中f(α，β)和前边所提的一样，是根据α和β计算出来的，具体数值可以参见前文所提的表格

HR为hazard ratio

从上边的计算公式来看，确定events数量的关键是确定HR，而HR的简单估计有两种方法：

（1）根据median survival time来确定，比较简单的估计方法是：

HR= 第一组的median survival time/第二组的median survival time；

例8中，HR就是根据median progression-free survival time来估计的，两组的中位未进展生存时间分别为11个月和14个月，则HR=11MONTHS/14MONTHS=0.79;

（2）根据Survival proportion at a given time来确定，假设两组分别为P1和P2即：

HR=log(P1)/ log (P2);

例9中，HR就是根据安慰剂组和letrozole (2.5 mg)组4年无病生存率（four-year disease-free survival rate）来估计的，两组4年无病生存率分别为88％和90.5%，则HR=log(0.88)/log(0.905)=0.78;

在这里小胖需要提一点就是，上述提到的只是用来对HR进行估计，并不代表平时我们就可以这样来计算HR。

小胖说统计之八十：ICH E9临床试验的统计学指导原则解析（五十七）

; ?5 O. ?8 u& \, ^

从临床试验实例来看样本含量的计算（十二）

. r" S. b" X: F2 M

上篇博文，我们简单介绍了，events的计算方法，那么events确定后，最终还是要确定入组的受试者数，那具体怎么确定呢？

总的受试者数N＝2e/(2-P1-P2)

其中：

e为events数量

P1和P2为两组Survival proportion at a given time。

具体到例9中就是：

N＝515×2/(2-0.88-0.905)≈4800

在生存分析的试验中，我们常用log－rank检验来比较两组生存情况的不同。它对治疗组生存分布情况不作任何假设。而我们以上提到的样本量计算方法便是基于log－rank检验，而且是建立在以下假设的基础上的：

（1）病人接受固定时间的随访

（2）Hazard ratio保持不变

以上我们所提到的样本量计算方法广泛应用于各种生存数据的临床试验中，当然还有别的样本量计算方法，比如基于exponential survival and accrual的方法，这种方法是假设生存分布是exponential的，计算方法相对比较复杂，小胖在此不再赘述了，如有兴趣的同学，可向小胖索要相关资料。

静注：例9我们采用PASS的Logrank Tests (Freedman)过程进行计算，结果为4823例，其所填参数与计算结果详细如下两图。

登录/注册后可看大图