为使神经疾病体液生物标志物研究的报道过程更加统一和易懂,并且与其它领域现有的生物标志物报道规范保持一致,BioMS欧洲联合会的专家经讨论后在近期的Neurology杂志上发表了一项神经疾病体液生物标志物研究的报道规范的指南性综述。现全文翻译如下。
在后基因组时代,人们一直尝试着将大量的体液生物标志物(body fluid biomarker)应用于神经科学,作为临床诊断和预后评价的工具;但到目前为止,情形令人失望。
尽管相关研究的发表要经过严格的同行评议过程,但由于缺乏严密的研究设计、样本容量偏小、方法学上存在差异、分析上不够精确等原因,使得现有的结果和结论存在很多意见分歧之处。此外,一些未充分验证的标志物过早地得到应用,使得大量的已发表文献需要进一步的确证,(不足为信)。后者可能要部分归咎于科学发展过程的局限性。
今后需要建立一套完善设计研究的基本原理,包含清晰明了的方法学、分析和说明,以及使用标准的格式进行展示,确保新出现的神经科学生物标志物能够通过这种原理进行评估,或通过这种原理发现新的可能的标志物。建立原理的目的在于为神经科学领域工作的科学家和临床医师提供设计和报道生物标志物研究的明确标准。
BioMS欧洲联合会(网址http://www.Bioms.eu)是一个致力于改善多发性硬化(MS)生物标志物研究质量的协作网络,在确证生物标志物的关键步骤上有丰富的经验。本联合会已发表了关于脑脊液(CSF)采集标准(2009年)、CSF/血样生物银行标准(2011年)、以及对照组一致性定义(2013年)的指南。现本联合会将发布生物标志物报道的规范化标准。
通过对早期的探索性生物研究,包括对神经系统疾病诊断性生物标志物、疾病活动性生物标志物、疾病进展性生物标志物和治疗效果生物标志物在内相关研究工作的总结,本指南将提供报道生物标志物的内容框架。
方法
本文使用由美国国家卫生研究所生物标志物定义工作组(NIH Biomarkers Definition Working Group)作出的以下定义:
生物学标记(生物标志物)(Biological marker (biomarker)):能作为正常生物学过程、病理学过程、或对治疗干预措施药物反应能力评价指标的可客观测量的指标。
临床终点(Clinical endpoint):能反映患者感觉、功能和存活情况的指标。
替代终点(Surrogate endpoint):一种可替代临床终点的生物标志物。
专家组最初试图根据REMARK、STARD和CONSORT等指南已制定的内容框架来作为建立生物标志物报道方式的“引物”;同时还考虑从关键性的会议、文献和美国FDA管理推荐意见中建立生物标志物报道的基本规范。相关内容列成了目录,并通过电子邮件在BioMS所有专家之间进行循环审阅。
最终定稿之前,在多次BioMS-eu年会(2007、2008和2010年)上,联合会所有成员就特定推荐内容的优劣进行了讨论。每一项相关内容的重要性和实用性均经反复考虑。在那之后,在联合会成员之间通过电子邮件决定了本指南的最终格式和措词。
本指南反映了写作之时本联合会成员的一致意见,并且应当作为一种推荐意见看待。根据新出现的证据,本指南有可能在未来发生变更。
引言 |
1. 一般性介绍 |
2. 生物标志物的特定信息 |
材料和方法 |
3. 关于研究或样本人群的信息(参照对照组一致性指南)(Vandenbroucke JP. 2009) |
a. 纳入研究对象的适用性标准和过程 |
b. 与已有参考标准或金标准的比较 |
4. 伦理委员会的批准意见,在动物研究中应用的伦理学规范 |
5. 包括所使用实验终点事件和临床终点事件测量手段的详细内容, |
a. (如有应用)执行风险分层的细节 |
6. 测定方法 |
a. 包含样本/试剂准备和使用过程的信息 |
i. 分析前参数——血清分离器的使用、特殊预防措施、储存条件(参见采集样本一致规范)(Stroup DF, Berlin JA, Morton SC, et al. 2000) |
ii. 分析参数 |
b. 提供所有分析技术的完整描述,包括试剂盒和实验平台的种类 |
c. 性能特点 |
7. 统计学分析 |
a. 一般性 |
i. 描述使用的统计学方法,参数vs. 非参数分析、单侧vs. 双侧检验。直接引用所使用的统计学软件和版本。 |
ii. 应按照标准使用P值、中位数或均数、标准差或四分位数等。 |
iii. 当适用时应用多重比较法进行校正。 |
b. 特殊性 |
i. 如使用了统计学模型,对其进行描述。 |
结果 |
8. 数据分析和表示 |
a. 研究人口统计资料或样本人群的总结,以及实验数据。 |
b. 生物标志物特性 |
i. 列出生物标志物和已有测量手段之间的关系,并在此提出所有的局限性。 |
ii. 诊断性生物标志物——(选择适用的)敏感性、特异性、阳性预测值和阴性预测值(PPV/NPV)、ROC曲线和优势比值。 |
iii. 预后评估性体液生物标志物——预测能力的评估(PPV/NPV、进展时间、或与疾病阶段的相关性、生存率/死亡率)、或风险分层结果。 |
iv. 疗效评估性体液生物标志物——治疗有效/治疗抵抗的个体、药物动力学分析。 |
讨论 |
9. 对包括所有推论性临床价值在内的初始目的和目标所产生的结果进行讨论。将有比较意义或相似的前期研究作为背景资料,进行结果讨论。 |
10. 阐述局限性和潜在偏移的来源,并对未来工作领域作出建议。 |
附图:对神经疾病生物标志物研究报道的简要指南
结果
专家组首先根据先前已发表的指南和生物标志物研究文献内容,以及BioMS欧洲联合会科学和指导委员会的意见,列出了一份包含61项内容的目录。随后该目录被精简成最终供发表的、包含10个主要内容在内的最优格式(见附图)。
现有版本排除了那些在不同种类生物标志物研究中不具有普遍意义的内容;同样,也排除了虽需要但非必需的内容,以及被认为在本指南所应涉及范围之外的内容。本目录被分为引言、材料和方法、结果和结论等部分,分别代表在科学文献中使用的若干小标题。
本指南还提供了每一部分的详细解读。对于主要研究焦点是临床试验、使用蛋白质组学或基因芯片发现生物标记物、或预后性研究,专家组推荐使用已有的指南(见附表)。
对目录各项内容的解读如下:
1-2. 引言应当能够完整描述科学背景和原理。即提出假说、(如有相关性)介绍生物标志物或其发现过程、它与病理机制的关系、以及明确解释为什么挑选该生物标志物(作为研究对象)。
应对生物标志物预期的应用作出阐述,例如是诊断性、预后评估性或者疗效评估性体液生物标志物。在最初的阶段,体液生物标志物作为替代终点的地位常常尚未得到证实;在这种情况下,应当使用同类研究提供证据来评估或支持该生物标志物成为替代终点的应用。
3. 该段应包含研究方案。列出研究或样本群体的详细信息(人种、性别、年龄、纳入标准、共患病、联合用药等;如有相关还应列出排除样本的原因);还应包含相关患者的分层情况、不同疾病、疾病阶段和患病时间对照组的分层情况、以及健康对照组的分层情况。(可参照对照组一致性定义)
应当清晰描述诊断标准或纳入标准,这样可使不同群体之间保持相对可比性,确保未来的研究的一致性。任何时候只要可能,都应当与参考标准体液生物标志物(或金标准)进行比较;如不可行,则应当使用非临床参考标准(见目录内容5)。如合并了其他体液生物标志物的内容,那么应当预设如何决定分组的特殊流程。
应当提供所使用样本的信息,如CSF、血浆、血清、全血、外周血单核细胞等等。同时也应当提供如何收集和处理样本的信息;例如空腹或非空腹、收集管的种类、是否有控制分析前变量的标准化操作流程等。
应当讨论样本容量的决定过程。根据所选取终点事件的敏感性和可变性,样本容量可能导致分析能力的差异。确证性研究的目的是明确新发现生物标记物(的存在与有效性),因此该类研究中的样本容量计算过程是需要强制列明的;初步研究和发现性研究的目的是寻找候选的体液生物标志物,因此其样本容量计算过程表述是非强制性的。当使用源自特定研究的样本进行分析时(例如随机对照研究),应引用合适的研究方案。
4. 研究应在任何适用的伦理学管理机构管理下进行。可以是本机构内部的伦理学委员会、或区域性/全国性临床和多中心试验伦理学委员会、或非人类研究委员会。
5. 概述主要的结局判定指标,即与金标准相关的体液生物标志物,可能是临床终点,也可能是通过病理生理评估判定的非临床终点。如合适的话也应概述次级判定指标,如影像学资料、神经生理学资料、其它临床评分(残疾量表、病人报告结局评分)等。
如无合适的可参照金标准,我们建议就该体液生物标志物所能提供的信息在临床决策方面的作用进行评估,这种信息不应当是通过临床评分、MRI、实验室检查或其它手段获得的。如果是关于体外试验或动物实验工作的报道,则应使用该领域的相关结局评价手段。
最后,当在临床试验中使用体液生物标志物作为风险分层指标时,应概述支持该用途的相关观点,即应当清晰阐明该体液生物标志物能增加疾病进展风险或提高疗效等,并且概述如何在各个分组中客观评估反应率指标(response rate)。
当在临床试验中使用体液生物标志物对试验内容进行充实时,应当知道初始筛选值可能在疾病自然病程中随机出现“高值”,这种“高值”可能会自然降低到均值水平,因此在初始评估过程中应当将其去除;在实验设计和效能计算过程中也应当考虑到这种因素的影响。
6. 本部分应包含对检测方法的详细描述(尽可能避免使用缩略词)和对检测方法分析性能的描述。尽管现在大部分体液生物标志物研究使用的是“仅用于实验研究”的检测方法,但是已有一套推荐在文献评估和发表过程中使用的验证标准(译者注:Rifai N, et al. 2012;Valentin MA, et al. 2011)。并请参照在样本处理过程中信息搜集的规范(译者注:即前文所述2009年脑脊液采集标准)。
无论检测方法是否与预期使用目的相符,均应当列出关于方法使用过程的特征信息(试验进行环境、与公认标准的一致性等)。这包括了分析前参数和分析参数(prenanalytical and analytical parameters)。
分析前参数包括血清分离器的使用参数、特殊预防措施、存储条件等;分析参数包括样本准备过程、校准物和抗体的来源、分析性能(并行性、添加回收率和敏感性)、定量值的上限和下限、检测内部和检测之间的变异系数、内部和外部质量控制、试验批次之间的变异、以及潜在的干扰因素(溶血、血脂过高、药物等等)。
如果研究者使用的是已制定的方法,应当引用相关文献;如果对此方法有改良,也应说明改动之处及其原因。如有可能,应与其它已有技术或方法进行交叉验证(cross-validation)。应通过说明相关方法证明分析人员并不知晓患者结局事件。
7. 本部分应包含对所使用数据分析方法的描述,包括对漏失值和离群值的处理方法、(如适用)意向性处理方法(intention-to-treat)与完成治疗分析(per-protocol analysis)的比较等。如适用应使用多重比较法(multiple comparision)进行校正。
当使用更为复杂的统计学模型时(如在重复测量研究或净重新分级模型里的混杂效应),应对模型进行清晰的描述,并纳入模型组分产生的任何假设。如有相关,应使用受试者工作特征曲线(receiver operating characteristic curve, ROC curve)表示诊断性标志物的功能特性,使用Bland-Altman法(B-A法)分析与其它技术或方法的交叉验证结果。
8. 结果部分的着重点应当在体液生物标志物作为诊断、预后预测或疗效评估衡量手段方面的价值,(如适用)并与现有的参考标准进行比较。如进行了相关试验,应纳入被药物动力学数据证实的、正在研究中治疗手段导致生物或分子靶点改变的情况。在风险预测方面,可使用敏感性、特异性、阳性和阴性预测值、优势比值等方法。
如果试验具有很高的阴性预测值和很低的阳性预测值(例如MS的寡克隆带),那么它可能是一个好的筛选性试验,而非诊断性试验。
当评估体液生物标志物作为替代终点的可用性时,可应用Austin Bradford Hill标准(针对因果关系)或Prentice标准(针对替代性)。对基于体液生物标志物进行风险分层临床研究的分析应当报道显示有效临床结局所需的样本个数,因为这对其将来用作筛选试验的可行性是很重要的。
我们推荐将研究的概要描述或样本人群收集情况用表格形式列出,这样可使组间的差异更加显而易见。表格内应包括所有可能影响研究结局的变量,如疾病活动度、致残评分、共患病、同时服用的药物等。与之类似,我们还推荐应将关键的实验发现以表格或图像方式加以总结,并添加对结果的描述。在图中应包括其它所有在方法(内容6)中给出的验证组分的完整细节。
9-10. 研究的讨论部分应当包含对生物标志物特征的总结描述、实验目的是否达到、(如相关)与已有生物标志物的关系、是相同还是不同的标志物、以及预期应用范围。还应该对因为病理生理因素、环境因素或人口学因素导致的局限性或变异性作出阐述。最后,对未来工作领域作出阐述,如更大规模的人群研究、扩展为临床试验等等。
附表:生物医学科学已发表的其它指南列表
讨论
虽然体液生物标志物及其在神经科学不同层面上的应用代表着新的挑战,但是已有很多候选体液生物标志物失败了,而且在研究开发终末阶段的高损耗率让很多研究者对体液生物标志物的总体价值产生了怀疑和动摇。迄今为止,很多假设有价值的生物标志物被报道,但只有很少一部分能够真正应用到临床实践当中。
例如MS患者中的抗髓磷脂抗体特异性就很差。APOE ε4等位基因(一种增加阿尔茨海默病风险的等位基因)和其血浆蛋白产物水平缺乏预测阿尔茨海默病发生的敏感性和特异性。同样地,常用于脑肿瘤免疫染色的经典星形胶质瘤标志物S100β并非肿瘤负荷的可靠指标,而且其在不同种类外伤性脑损伤的变异性也意味着它不能用于预测损伤程度。
因此,难以明确何种生物标志物是未来研究投入的最佳目标。对已验证生物标志物研究报道的标准化指南需求日益增长,这种标准化指南应代表良好的实验设计、数据分析和结果表述。
我们先前已就CSF样本收集、样本生物银行和生物标志物研究对照组选择方面的标准化作出报道。在生物医学科学的不同特定方面,也已有一些先例可循。例如REMARK(肿瘤标志物预后评估研究)、STARD(诊断准确性)和CONSORT(随机对照性研究)。如有作者遵循本指南分别进行预后评估性体液生物标志物、诊断性试验和随机对照性试验,建议按照上述三个成例进行研究。
虽然这些指南对研究的特定领域进行报道,但尚无特别针对体液生物标记物本身的报道,目前只有杂志或审稿人自己的指引,需要更进一步的澄清。REMARK报告包含了检测方法的内容,但是其初衷在于研究设计和报道;STARD的焦点则在于检测方法(缺乏其它方面内容)。以上均未纳入体液生物标志物验证或评估其实用性的内容。
在此,本篇指南为对研究目的、方法、结果进行清晰易懂的报道提供了一个框架,并且可进行结果判定,特别反映可能的问题领域。推荐标准通过对强制性数据完整性限定的要求来衡量科学有效性,以便日后对相应科学研究工作的重复。
因为能被跨学科的所有杂志广泛接受,手稿风格的写作方法是本联合会成员最喜爱的。但是,这种喜爱并不会转变成为对提交文稿质量严格评估的工具,是否接纳文章是基于是否遵从标准规范。
此外,在一些初步性或发现阶段研究的报道中,可以不必严格遵循本指南的10点要求。现有的指南不应当成为阻碍研究者发表初步但是非常有意义新发现的阻碍;如无法遵循这10点格式,可根据该初步研究的自身情况选择报道格式。
虽然这些指南为生物标志物研究的报道提供了一个总体性的框架,但是它们并非万用模板,针对微阵列芯片和蛋白质组学研究需要特别的要求,因为本指南未囊括特殊的研究和工业标准。最后,我们希望声明:这些指南仅提供了一个最基本的标准,从未声称是完整的标准。
对实践工作总体指南的制定是一项持续性的工作。其在生物标志物报道上价值最终将取决于在科学界应用的广泛程度。