四、评价指标
评价指标反映器械作用于受试对象而产生的各种效应,根据试验目的和器械的预期效应设定。在临床试验方案中应明确规定各评价指标的观察目的、定义、观察时间点、指标类型、测定方法、计算公式(如适用)、判定标准(适用于定性指标和等级指标)等,并明确规定主要评价指标和次要评价指标。指标类型通常包括定量指标(连续变量,如血糖值)、定性指标(如有效和无效)、等级指标(如优、良、中、差)等。对于诊断器械,临床试验评价指标通常包括定性检测的诊断准确性(灵敏度、特异性、预期值、似然比、ROC曲线下面积等)或检测一致性(阳性/阴性一致性、总一致性、KAPA值等),以及定量检测回归分析的斜率、截距和相关系数等。
(一)主要评价指标和次要评价指标
主要评价指标是与试验目的有本质联系的、能确切反映器械疗效或安全性的指标。主要评价指标应尽量选择客观性强、可量化、重复性高的指标,应是专业领域普遍认可的指标,通常来源于已发布的相关标准或技术指南、公开发表的权WEI论著或专家共识等。临床试验的样本量基于主要评价指标的相应假设进行估算。临床试验的结论亦基于主要评价指标的统计分析结果做出。次要评价指标是与试验目的相关的辅助性指标。在方案中需说明其在解释结果时的作用及相对重要性。
一般情况下,主要评价指标仅为一个,用于评价产品的疗效或安全性。当一个主要评价指标不足以反映试验器械的疗效或安全性时,可采用两个或多个主要评价指标。以一次性使用脑积水分流器的临床试验为例,当参照《一次性使用脑积水分流器注册技术审查指导原则》进行方案设计时,采用两个主要评价指标,包括术后30天内颅内压的达标率、首次植入分流器后1年时分流器存留率。对于第二个主要评价指标(1年存留率),试验组与对照组间需进行组间比较,要求试验组1年存留率不小于90%。该临床试验的样本量估算需考虑三重假设检验:(1)试验组术后30天颅内压达标率非劣效于对照组;(2)试验组1年的存留率非劣效于对照组;(3)试验器械1年的存留率达到目标值要求。上述三重假设检验都有统计学意义时,才可下推断结论。由于此时没有意图或机会选择Zui有利的某次假设检验结果,可设定每次检验的I类错误水平等于预先设定的α,无需进行多重性校正。对于采用多个主要评价指标的临床试验设计,当有可能选择Zui有利的某次假设检验结果进行结论推断时,样本量估算需要考虑假设检验的多重性问题,以及对总Ⅰ类错误率的控制策略。
(二)复合指标
按预先确定的计算方法,将多个评价指标组合构成一个指标称为复合指标。当单一观察指标不足以作为主要评价指标时,可采用复合指标作为主要评价指标。以冠状动脉药物洗脱支架的临床试验为例,主要评价指标之一为靶病变失败率。靶病变失败定义为心脏死亡、靶血管心肌梗死以及靶病变血运重建三种临床事件至少出现一种,即为复合指标。以血液透析浓缩物的临床试验为例,采用透析达标率作为主要评价指标,“达标”的定义为透析前后K+、Na+、Ca2+、Cl-、CO2CP(二氧化碳结合力)或HCO3-、pH值均达到预先设定的临床指标数值。复合指标可将客观测量指标和主观评价指标进行结合,形成综合评价指标。临床上采用的量表(如生活质量量表、功能评分量表等)也为复合指标的一种形式。需在试验方案中详细说明复合指标中各组成指标的定义、测定方法、计算公式、判定标准、权重等。当采用量表作为复合指标时,尽可能采取专业领域普遍认可的量表。极少数需要采用自制量表的情形,申请人需提供自制量表效度、信度和反应度的研究资料,研究结果需证明自制量表的效度、信度和反应度可被接受。需考虑对复合指标中有临床意义的单个指标进行单独分析。
(三)替代指标
在直接评价临床获益不可行时,可采用替代指标进行间接观察。是否可采用替代指标作为临床试验的主要评价指标取决于:①替代指标与临床结果的生物学相关性;②替代指标对临床结果判断价值的流行病学证据;③从临床试验中获得的有关试验器械对替代指标的影响程度与试验器械对临床试验结果的影响程度相一致的证据。
(四)主观指标的第三方评价
部分评价指标由于没有客观评价方法而只能进行主观评价,临床试验若必需选择主观评价指标作为主要评价指标,建议成立独立的评价小组,由不参与临床试验的第三者/第三方进行指标评价,需在试验方案中明确第三者/第三方评价的评价规范。
五、比较类型和检验假设
(一)比较类型
临床试验的比较类型包括优效性检验、等效性检验、非劣效性检验。采用安慰对照的临床试验,需进行优效性检验。采用疗效/安全性公认的已上市器械或标准治疗方法进行对照的临床试验,可根据试验目的选择优效性检验、等效性检验或非劣效性检验。
优效性检验的目的是确证试验器械的疗效/安全性优于对照器械/标准治疗方法/安慰对照,且其差异大于预先设定的优效界值,即差异有临床实际意义。由于试验器械特征、对照和主要评价指标等因素的不同,部分优效性检验没有考虑优效性界值,申请人需论述不考虑优效性界值的理由。等效性检验的目的是确证试验器械的疗效/安全性与对照器械的差异不超过预先设定的等效区间,即差异在临床可接受的范围内。非劣效性检验的目的是确证试验器械的疗效/安全性如果低于对照器械,其差异小于预先设定的非劣效界值,即差异在临床可接受范围内。在优效性检验中,如果试验设计合理且执行良好,试验结果可直接确证试验器械的疗效/安全性。在等效性试验和非劣效性试验中,试验器械的疗效/安全性建立在对照器械预期疗效/安全性的基础上。
(二)界值
无论优效性试验、等效性试验或非劣效性试验,要从临床意义上确认试验器械的疗效/安全性,均需要在试验设计阶段制定界值并在方案中阐明。优效界值是指试验器械与对照器械之间的差异具有临床实际意义的Zui小值。等效或非劣效界值是指试验器械与对照器械之间的差异不具有临床实际意义的Zui大值。优效界值、非劣效界值均为预先制定的一个数值,等效界值需要预先制定优侧、劣侧两个数值。
界值的制定主要考虑临床实际意义,需要被临床认可或接受。理论上,非劣效界值的确定可采用两步法,一是通过Meta分析估计对照器械减去安慰效应后的juedui效应或对照器械的相对效应M1,二是结合临床具体情况,在考虑保留对照器械效应的适当比例1-f后,确定非劣效界值M2(M2=f×M1)。f越小,试验器械的效应越接近对照器械,一般情况下,f的取值在0~0.5之间。制定等效界值时,可用类似的方法确定下限和上限。
(三)检验假设
试验方案需明确检验假设和假设检验方法,检验假设依据试验目的确定,假设检验方法依据试验设计类型和主要评价指标类型确定。附录1提供了部分试验设计和比较类型下的检验假设举例,供参考。