【协和医学杂志】目标试验模拟在卫生政策评估中的应用与挑战:从个体干预到群体效应的框架扩展
时间:2026-05-09 21:39:57 热度:37.1℃ 作者:网络
深度解析医学证据,lxfs.net为你支撑决策
卫生政策评估作为驱动循证决策与优化医疗资源配置的核心手段,其因果效应估计的准确性直接关系到政策制定的科学性。随机对照试验(RCT)虽被视为因果推断的“金标准”,但在卫生政策环境下,干预措施往往具有群体性与复杂性,其实施常受伦理限制、时间成本及现实可行性约束,导致RCT难以开展。近年来,依托真实世界数据(RWD)的观察性研究虽弥补了数据缺口,但其固有的选择偏倚、永生时间偏倚及难以测量的混杂干扰,常使评估结论面临质疑。
目标试验模拟(TTE)框架的兴起为突破上述困境提供了新路径。该框架通过在观察性数据中明确模拟理想化随机试验的设计要素,能够有效识别并纠正传统研究设计中的时间起点偏差。尽管TTE在个体化临床干预评估中已展现出显著优势,但将其扩展至群体水平的卫生政策评价时,并非简单的概念迁移。政策环境下研究单位的嵌套性、干预定义的模糊性以及政策“交错采纳”等特有属性,对TTE框架的标准化应用提出了更高要求。目前,国内尚缺乏针对TTE在政策评估领域转化路径及方法学重构的系统总结。基于此,本文旨在深度剖析TTE向政策评估扩展的核心逻辑与关键要素转化,探讨其面临的挑战及检验策略,以期为提升我国真实世界政策评估的证据质量提供方法学支撑。
1 政策评估中因果推断的困境与TTE的兴起
卫生政策作为影响群体健康的关键干预手段,其效果评估对于循证决策至关重要。本文所探讨的“卫生政策”,特指由政府、公共卫生机构或权威机构制定并实施的,旨在影响群体或系统层面健康相关行为、服务可及性或健康结果的法律、法规、项目或指南。这与针对患者个体的临床干预(如药物或手术)存在本质区别,其干预单位通常是行政区域、医院、学校等组织或群体,而非个体。由于政策的实施主体和决策过程复杂,无法进行传统意义上的随机化分配,这使得政策评估天然地与RCT这一因果推断的“金标准”绝缘[1]。尤其在外科领域,干预的不可逆性与操作的标准化困难等问题,使得开展RCT面临较大挑战[2],这与某些复杂卫生政策的评估困境具有相似之处。因此,政策效果评估长期依赖于传统的观察性研究。
但这些研究若设计不当,易受混杂偏倚、选择偏倚,特别是“不死时间偏倚”和“现患用户偏倚”等系统性错误的严重干扰,导致错误的因果结论[3]。如在药物流行病学研究中,简单比较“现用药者”与“非用药者”可能忽略那些因早期出现不良反应或疗效不佳而停药的患者,从而人为地夸大了药物疗效[4],这种偏倚正是TTE框架通过“新用户设计”着力避免的。同样,“不死时间偏倚”——即错误地将暴露组患者在实际接受干预前的存活时间归因于干预效果,已在多项传统观察性研究中被证实是导致结论严重偏倚的罪魁祸首[5]。
在此背景下,作为一种根植于20世纪50年代潜在结果框架的思想,近年来TTE经Hernán和Robins等[6]学者的系统化阐述而正式确立。其核心价值并非在于创设新的统计技术,而是确立一种“问题优先”的研究范式:首先,清晰定义一个能够回答特定因果问题的、假设的、理想化的随机试验(即“目标试验”);其次,利用RWD对该试验的每一个环节进行严谨的“模拟”。这一框架强制研究者遵循RCT的设计逻辑,尤其是确保合格性判断、干预分配和随访起点(时间零点,Time Zero)三位一体,从根本上规避了诸多因研究设计随意性而导致的固有偏倚[7]。
最初,TTE在临床药物和手术治疗效果的比较研究中大放异彩。文献计量学分析显示,其应用于心血管疾病、肿瘤学、新型冠状病毒感染(COVID-19)等领域迅速增长[8]。多项研究成功应用该框架复现甚至预测了大型RCT的结果[9]:如在评估他汀类药物与癌症风险的研究中,TTE得出的中性结论与RCT一致,却与众多存在偏倚的传统观察性研究相悖[10];在评估激素替代疗法对于冠心病风险的研究中,TTE也澄清了既往的矛盾证据[11]。
这些成功案例展示了TTE在个体层面干预评估中的价值。基于此方法学进展,研究者们开始尝试将这一强大的、源于临床研究的、基于RCT设计原则的因果推断框架应用于更为宏观和复杂的卫生政策评估领域[12-13]。然而,这种从个体干预到群体效应的转化,并非简单的场景替换,要求对TTE框架的每一核心要素进行重新审视和方法学上的重构。本文旨在深入剖析这一转化过程,阐明TTE在政策评估领域的独特应用逻辑、面临的挑战及相应的解决策略。
2 从临床到政策:TTE框架核心要素的转化与重构
将TTE应用于政策评估,意味着须对其7个核心要素进行系统性的概念转化,以构成该框架领域扩展的理论基石。
2.1 研究单位与合格标准
在临床TTE中,研究单位通常是患者个体。但在政策评估中,研究单位被明确区分为两个层面:
1 政策层面单位,即政策实施的主体,如行政区域或各类组织机构,其是在目标试验中被“随机化”的单位;
2 影响层面单位,即受政策影响的个体,如居民、学生,其是结局数据的来源[1]。
需强调的是,模拟的目标试验是一种整群随机试验。因政策本身无法在个体层面进行分配,因此在模拟的“目标试验”中,随机分配的单位必然是政策实施的主体(政策层面单位),而非受影响的个体。
合格标准的定义也必须在这两个层面同时进行。政策层面单位的合格性取决于其是否在基线时有资格实施该政策(如尚未实施过该政策);影响层面单位的合格性则定义了我们希望评估政策效果的目标人群(如特定年龄或疾病状态的居民)。这种双层结构要求进行数据分析时必须考虑层级性,如使用多层模型或在政策层面进行聚类稳健标准误估计。此外,数据的粒度至关重要。若仅有聚合数据(如某地区的年度发病率),则无法精确筛选目标人群,模拟的效力将减弱;若仅有个体层面数据,则能更好地模拟目标人群,提升内部效度,但可能牺牲一定的外部有效性。
2.2 干预策略
在TTE框架中,“干预策略”是一个核心概念,其并非泛指政策本身,而是一个精确的、可执行的规则,用于定义目标试验中每个单位在何时、以何种方式接受干预。临床TTE干预通常为标准化的药物或手术方案。而政策在真实世界往往表现出高度异质性,定义清晰的干预策略则更具挑战性。如不同地区关于医用大麻的法案,其具体条款(如合格病种、购买渠道)可能千差万别[14]。因此,政策TTE的首要任务是利用政策图谱或“法律流行病学”等方法,对不同版本的政策进行解构,明确定义一个(或多个)具有可比性的干预暴露组[15]。有时研究的干预可能是一个“政策包”,即多个政策几乎同时实施,此时除非其影响的结局完全不同,否则很难剥离单个政策的效应。研究者必须警惕并尽可能控制“同期混杂政策”的影响,即在研究期间,对照组或干预组可能实施了其他影响结局的政策,若不加以考虑,将严重威胁研究结论的有效性[16]。
2.3 分配机制
RCT的关键在于随机分配。如前所述,政策TTE模拟的是一种整群随机试验,即将政策“随机”分配给不同的政策层面单位(如地区或组织)。然而在现实中,政策的采纳过程是高度非随机的,受政治、经济、社会等多种因素影响,其构成了混杂偏倚的主要来源[17]。TTE框架要求研究者明确阐述其对分配机制的假设,并通过后续的统计分析模拟随机化,以平衡这些可测量的混杂因素。选择对照组是关键的一步,如选择地理距离相近的地区作为对照,虽增加可比性,但需警惕政策的“溢出效应”;选择地理距离遥远的地区则可减少溢出,但可比性可能下降[18]。
2.4 时间零点与随访
临床TTE通常可锚定一个明确的时间零点,如首次用药日期。在确定每个队列的时间零点后,研究者将开始对影响层面单位(即受政策影响的个体,如居民等)进行随访,以追踪其结局指标变化。然而,政策评估常面临“交错采纳”的复杂局面,即不同政策层面单位在不同的时间点开始实施政策,这使得确定统一基线变得不可能。
一个关键的解决方案“堆叠法”或“序列试验模拟”[13],为每一个独特的政策实施时间点创建一个独立的队列(包含当时的干预单位和所有尚未干预的对照单位),可将该实施日期作为该队列的“时间零点”,然后将所有队列在相对时间上对齐(如政策实施前/后X个月)进行分析[1]。这种方法巧妙地解决了交错采纳问题,是政策评估TTE区别于部分临床TTE的重要特征。此外,与RCT不同,政策评估TTE通常需多个基线前时间点数据,以便评估和调整“平行趋势”假设,从而减弱对混杂的假设[19]。
2.5 结局指标
政策评估的结局指标具有多样性,不应局限于临床结局。与临床TTE相比,政策评估TTE的结局指标通常涵盖范围更广,可分为以下类型:
1 过程指标:用于评估政策的执行情况和覆盖面。如在评估一项公共卫生服务均等化政策时,关键结局指标可以是目标人群的服务覆盖率、疫苗接种率或筛查参与率。
2 健康结局:这是最常见的结局,可以是聚合水平的数据(如地区级别的发病率或死亡率),也可以是个体层面的数据。如评估一项控烟政策时,结局可以是心血管疾病发病率和全因死亡率。
3 行为或经济指标:许多政策旨在改变行为或产生经济影响。如医保政策的结局可以是患者的自付费用或灾难性卫生支出发生率。
个体层面的数据虽可进行更精细的分析,但最终仍需在模型中考虑政策层面的聚类效应。此外,数据来源限制是政策评估的一大挑战,且更依赖诊断代码的准确性。有研究指出,在COVID-19相关研究中,使用ICD-10代码而非实验室确诊结果定义病例,可能引入错误分类,尽管这种错误分类在各组间可能是非差异性的,但倾向于将结果偏向无效假设[20]。因此,在设计阶段就应优先选择客观性强、定义明确的“硬结局”(如全因死亡率),或对结局的有效性进行验证。
2.6 因果估量
在进行任何统计分析之前,TTE框架要求研究者首先明确定义其因果估量(即研究旨在量化的目标因果效应)。在政策评估中,通常更关注处理组的平均处理效应(ATT),即回答“政策在那些实施单位产生了什么效果?”[1]。这与临床研究中关注的平均处理效应(ATE)有所不同,ATT估计通常更为稳健,因其无需对未实施政策单位的反事实情况作过强的外推假设。
此外,如何处理对照组单位在随访期间也开始实施政策的“交叉”问题(在理想的试验中,处理组永远实施政策,对照组永远不实施政策。 但在政策评估的随访期间,对照组“变卦”也实施了政策),其为定义估量时必须明确的关键点。将其视为删失并加权,或在特定假设下继续随访,将分别导向对“依从方案”或“意向性治疗”效应的模拟[21]。
2.7 分析策略与假设
政策TTE最常用的分析方法之一是双重差分法(DiD)及其扩展形式。DiD的核心思想为,通过比较干预组在政策实施前后结局的变化量与对照组同期结局的变化量之差,以估计政策的净效应。其关键假设是“反事实平行趋势”,即假定在无政策干预的情况下,干预组与对照组的结局变化趋势是相同的[22]。该假设虽然无法进行直接检验,但可通过观察政策实施前两组的变化趋势是否平行进行间接评估,并通过匹配或加权等方法使其更具合理性[23]。对于交错采纳设计,需使用更稳健的DiD估计量,以避免传统两点法可能带来的偏倚[24]。
3 应对政策评估中的核心挑战
3.1 处理时变性混杂与动态干预
在卫生政策评估领域,当政策本身是动态的或存在重要的时变混杂因素(即某个因素既影响后续的政策调整,又影响结局),则因果推断的复杂性显著增加。这种双重影响(影响后续决策且关联研究结局)要求研究者超越传统的分析范式,采用更为精密的因果模拟方法。此时,临床TTE中使用的G-方法(如参数化G-formula、边缘结构模型)提供了解决方案[25]。如在评估一个分阶段、根据中期效果调整的公共卫生项目时,G-formula能够估计这种动态干预策略的长期效果[26]。
3.2 应对数据局限性
从数据质量到残余混杂政策评估的TTE,尤其依赖于高质量、覆盖广泛的纵向数据[6]。然而,RWD往往面临双重挑战。
1 数据质量与可用性:行政数据或登记数据可能缺乏关键的临床混杂因素(如疾病严重度的详细指标),或存在诊断代码的错误分类[27]。这要求研究者在设计目标试验时,在“理想”与“可行”之间作出权衡,并在报告中坦诚地说明数据局限性可能带来的偏倚方向[28]。
2 残余混杂的挑战:这是所有TTE研究的根本局限,在政策评估中尤为突出,因影响政策制定的社会经济等因素往往难以全面测量。为增加结论的可信度,研究者应积极采用多种策略(如基准比较)。若条件允许,可将模拟结果与针对同一问题(即使是不同人群或背景)的RCT结果进行比较,以评估混杂控制的程度[29]。如Westerberg等[30]通过调整更优的共病指数,成功模拟了Protec T试验的结果,验证了其混杂调整策略的有效性。
鉴于残余混杂难以通过单一方法完全消除,研究者应进一步通过多维度稳健性检验,从不同角度交叉验证因果效应估计值的稳定性与可靠性。
1 敏感性分析:进行大量的敏感性分析,如改变对照组的选择、调整不同的协变量集、使用不同的分析模型,以检验结果的稳健性。
2 定量偏倚分析:如计算E值,以评估未测量混杂因素需达到多大强度才能完全解释观测到的效应[31]。
3 工具变量分析:当存在一个与干预选择相关、但与结局仅通过干预发生联系的变量时,可应用工具变量(IV)处理未测量的混杂因素[32]。Bidulka等[33]应用不同医疗区域的处方偏好作为IV,成功评估了二线降糖药的比较治疗效果。
4 阴性对照:可使用阴性对照结局(预期不受干预影响的结局)或阴性对照暴露(预期对结局无影响的暴露)以探测潜在的混杂偏倚[34]。
3.3 统计功效与小样本问题
多数政策是在有限单位开展实施,导致出现样本量过小的问题,限制了统计功效和复杂模型的使用。建立跨国或区域性数据共享平台,可整合更多政策单位的数据信息,未来或可解决这一挑战[35]。
4 TTE的应用与启示
4.1 卫生政策评估领域的探索与应用
尽管TTE在卫生政策评估领域的应用尚处于早期阶段,但已展现出较大潜力。该框架通过模拟理想化的随机试验,在缺乏RCT证据的情况下,为评估法律、法规及大规模公共卫生项目的实施效果提供了严谨的分析路径。
在一个具体应用案例中,研究者利用TTE框架评估了美国各州医用大麻法对慢性非癌性疼痛治疗模式的影响[1]。由于美国各州通过该法律的时间点存在差异(即“交错采纳”),且法律条款的具体细节互不相同,该评估面临多重方法学挑战。
首先,法律条文差异带来的政策异质性;其次,时间跨度不一引发的动态时空特征;最后,来自同期干扰政策(如阿片类药物管理政策)的潜在混杂影响。此研究模拟了一个序贯开展的目标试验,对于每个立法时间点,均构建一个独立的试验队列,将该时间点采纳法律的州作为“干预组”,并将当时尚未立法的所有州作为“对照组”,结局指标为慢性疼痛患者的治疗方案。通过这种“堆叠”设计,研究有效处理了政策实施时间不同的问题。通过严谨模拟目标试验,该研究能够在非试验性数据中,更清晰地界定干预、对照、时间零点和分析人群,从而在控制了诸多偏倚后,得出关于州级医用大麻法对慢性疼痛治疗影响的因果结论。
另一个典型的政策评估场景是评估COVID-19疫情期间“居家隔离令”的效果[13]。疫情初期,美国各州在不同时间点、基于不同的疫情发展阶段(“病例时间”)发布了居家隔离令。评估这项紧急公共卫生政策对控制病例增长的效果,需要一种能够处理交错采纳和复杂时间动态的方法。
Ben-Michael等[13]学者为此提出了“政策试验模拟”,其针对每一政策实施日期(如2020年3月23日)构建一个目标试验,将当天实施政策的州(治疗队列)与从未实施过政策的州进行比较。主要结局指标为COVID-19病例数的对数增长率。该框架强调了在政策评估中仔细定义时间零点(如“日历时间”比“病例时间”)、干预暴露及对照组的重要性。通过为每个实施队列分别模拟试验并进行整合,研究者能够更透明地评估政策效果随时间的变化,并对“平行趋势”等关键假设进行诊断。该研究凸显了TTE框架有助于研究者在面对突发公共卫生事件和快速变化的政策环境时作出更严谨和审慎的因果推断。
4.2 临床研究领域的应用与启示
在缺乏RCT证据时,TTE能够有效且可靠地比较不同药物或生物制剂的疗效。Akenroye等[36]比较了三种生物制剂治疗重度哮喘的效果;Bidulka等[33]应用IV评估了二线口服降糖药的治疗效果;McCormick等[37]通过阳性/阴性对照研究了SGLT-2抑制剂对肾结石复发的保护作用;甚至有研究表明TTE能够成功复现RCT结论,如Hoffman等[38]对COVID-19疗法的评估。上述应用案例提示,TTE是填补临床研究空白、加速新药评估和优化现有疗法选择的有效途径。
此外,TTE超越了传统因果推断的静态限制,能够模拟和评估真实世界中复杂且动态变化的临床决策策略,如药物的“启动-调整-停止”规则。Yang等[26]应用参数化G-formula模拟了长达29年的动态降胆固醇策略;Lambourg等[39]通过“克隆-审查-加权”方法研究了慢性肾病患者停用二甲双胍的长期影响;Usman等[12]探讨了TTE在心力衰竭患者高钾血症后是否停用盐皮质激素受体拮抗剂的评估应用。上述研究表明,TTE在应对临床实践的复杂性方面具有独特优势。
4.3 方法学领域的拓展与交叉应用
TTE展现出较大的创新拓展潜力。在高通量药物重定位方面,TTE与大数据、自动化流程相结合,实现了高通量、大规模的因果推断。Zang等[40]应用TTE对大型电子健康档案数据库进行阿尔茨海默病药物重定位,并评估了机器学习倾向性评分模型,展现了TTE在处理海量数据、高效筛选潜在疗法方面的巨大潜力,也为机器学习倾向性评分模型在因果推断中的应用提供了重要方法学洞见。
在非药物干预评估方面,TTE的普适性使其成功应用于非药物干预研究。Mengist等[41]应用边际结构模型研究了膳食模式与心理健康的关联,扩展了TTE在营养流行病学、公共卫生和行为科学等领域的应用范围,使其能够借鉴临床RCT的严谨逻辑评估复杂的非药物干预措施。国内相关研究展望了TTE在中医药领域(如中药复方、针灸)的应用前景[42],为中医药研究提供了与现代循证医学兼容的评价框架,有助于弥合中医药传统理论与现代科学评估之间的差距,推动中医药的现代化和国际化发展。
总而言之,TTE的核心价值在于成功引入了“因果推断思维”。无论在何种研究领域,TTE均强制研究者在观察性数据中严谨模拟RCT的设计逻辑,从而系统性地规避因研究设计不当而导致的偏倚。这标志着研究范式从单纯的统计学方法应用,向根植于因果推断核心原则的深度转变。同时,TTE研究也警示,RWD的潜力与挑战并存,必须正视数据质量和残余混杂等固有局限。因此,研究者在设计和分析环节需保持高度谨慎,并通过多重敏感性分析和阴性对照等方法,以增强研究结论的可靠性。TTE的生命力还在于其开放性和包容性,能够与其他先进的统计学方法和机器学习方法进行深度融合,以应对更复杂、动态的真实世界问题。
5 小结与展望
本文系统梳理了TTE框架从个体临床研究向群体水平卫生政策评估领域扩展的核心逻辑、转化机制及其面临的独特挑战。TTE通过在观察性数据中明确模拟理想化的“目标试验”,为卫生政策评估这一RCT可行性受限领域提供了进行严谨因果推断的可能。这种跨领域的“转化”并非简单的概念平移,而是伴随研究单位、干预定义、时间零点、因果估量及分析策略等关键要素的重构,同时需应对政策异质性、交错采纳、同期政策干扰及数据局限性等挑战。本文通过阐述工具变量、双重差分法等分析策略在该领域的应用,旨在为应用RWD进行高质量政策评估提供方法学参考。
展望未来,TTE在卫生政策评估领域的应用前景广阔,但仍需在可操作性指导框架的构建和创新性研究方向的探索方面持续发力,以更好地服务循证卫生决策。为有效指导TTE在卫生政策评估中的应用,笔者提出了一个贯穿政策全生命周期的指导性框架:在政策制定阶段,TTE可赋能前瞻性模拟,建议将其作为政策设计的重要工具,通过模拟不同政策方案以辅助优化政策设计;在政策实施阶段,TTE支持动态监测与早期预警,通过滚动TTE或实时数据分析,及时发现政策偏差并提供调整依据;在政策评估与优化阶段,TTE深化异质性效应与机制探索,除评估总体效果外,还应深入分析政策对不同亚群体的影响差异,并结合其他研究方法探索政策作用的内在机制。
为应对卫生政策评估的复杂性和未来挑战,TTE的研究和应用需积极拓展以下创新方向:一是TTE与人工智能/机器学习的深度融合,探索将先进的机器学习模型紧密整合至TTE各环节,以处理大规模、高维和复杂的RWD;二是TTE在跨政策领域协同效应评估中的应用,关注多项政策联合作用的协同效应与潜在冲突,构建能够评估多重、交错或叠加干预的TTE模型;三是TTE在公平性与健康公平影响评估中的突破,深入应用TTE框架评估卫生政策对不同社会人口学特征、社会经济地位、民族或脆弱群体健康公平的影响,确保研究结论能够揭示并指导消除健康不平等;四是将TTE与经济学评估相结合,实现投入与产出全链条评估,探索TTE的因果推断能力与卫生经济学评估的深度结合,评估卫生政策的经济投入与产出之间的因果关系,从而为有限的公共资源配置提供更全面的证据支持。
通过上述可操作性指导框架和创新性研究方向的思考,TTE在卫生政策评估领域的应用,将从现有情况的梳理进一步发展为提供更具实践指导价值的工具,并推动该领域向更深层次、更广阔应用场景迈进,真正发挥其在促进循证卫生决策中的核心价值。
参考文献
[1]Seewald N J, McGinty E E, Stuart E A. Target trial emulation for evaluating health policy[J]. Ann Intern Med, 2024, 177(11): 1530-1538.
[2]McCulloch P, Taylor I, Sasako M, et al. Randomised trials in surgery: problems and possible solutions[J]. BMJ, 2002, 324(7351): 1448-1451.
[3]Fu E L, Van Diepen M, Xu Y, et al. Pharmacoepide-miology for nephrologists (part 2): potential biases and how to overcome them[J]. Clin Kidney J, 2021, 14(5): 1317-1326.
[4]Danaei G, Tavakkoli M, Hernán M A. Bias in observational studies of prevalent users: lessons for comparative effectiveness research from a meta-analysis of statins[J]. Am J Epidemiol, 2012, 175(4): 250-262.
[5]Yadav K, Lewis R J. Immortal time bias in observational studies[J]. JAMA, 2021, 325(7): 686-687.
[6]Hernán M A, Robins J M. Using big data to emulate a target trial when a randomized trial is not available[J]. Am J Epidemiol, 2016, 183(8): 758-764.
[7]Hernán M A, Sauer B C, Hernández-Díaz S, et al. Specifying a target trial prevents immortal time bias and other self-inflicted injuries in observational analyses[J]. J Clin Epidemiol, 2016, 79: 70-75.
[8]卢存存, 陈子佳, 张强, 等. 基于真实世界数据的目标试验模拟研究: 现状与展望[J]. 中国循证医学杂志, 2023, 23(4): 492-496.
[9]Wang S V, Schneeweiss S, RCT-DUPLICATE Initiative, et al. Emulation of randomized clinical trials with nonrandomized database analyses: results of 32 clinical trials[J]. JAMA, 2023, 329(16): 1376-1385.
[10]Dickerman B A, García-Albéniz X, Logan R W, et al. Avoidable flaws in observational analyses: an application to statins and cancer[J]. Nat Med, 2019, 25(10): 1601-1606.
[11]Hernán M A, Alonso A, Logan R, et al. Observational studies analyzed like randomized experiments: an application to postmenopausal hormone therapy and coronary heart disease[J]. Epidemiology (Fairfax), 2008, 19(6): 766-779.
[12]Usman M S, Pitt B, Butler J. Target trial emulations: bridging the gap between clinical trial and real-world data[J]. Eur J Heart Fail, 2021, 23(10): 1708-1711.
[13]Ben-Michael E, Feller A, Stuart E A. A trial emulation approach for policy evaluations with group-level longitudinal data[J]. Epidemiology, 2021, 32(4): 533-540.
[14]Incze M A, Kelley A T, Singer P M. Heterogeneous state cannabis policies: potential implications for patients and health care professionals[J]. JAMA, 2021, 326(23): 2363-2364.
[15]Ramanathan T, Hulkower R, Holbrook J, et al. Legal epidemiology: the science of law[J]. J Law Med Ethics, 2017, 45(S1): 69-72.
[16]Griffin B A, Schuler M S, Pane J, et al. Methodological considerations for estimating policy effects in the context of co-occurring policies[J]. Health Serv Outcomes Res Methodol, 2023, 23(2): 149-165.
[17]Kingdon J. Agendas, alternatives, and public policies[M]. Updated edition. Boston: Pearson International, 2013.
[18]Verbitsky-Savitz N, Raudenbush S W. Causal inference under interference in spatial settings: a case study evaluating community policing program in Chicago[J]. Epidemiol Methods, 2012, 1(1): 107-130.
[19]Rothbard S, Etheridge J C, Murray E J. A tutorial on applying the difference-in-differences method to health data[J]. Curr Epidemiol Rep, 2024, 11(2): 85-95.
[20]Ong S W X, Tong S Y C. Target trial emulation for antibiotic use in acute COVID-19-taking aim at a common intervention[J]. JAMA Netw Open, 2025, 8(5): e2511507.
[21]Adler A I, Latimer N R. Adjusting for nonadherence or stopping treatments in randomized clinical trials[J]. JAMA, 2021, 325(20): 2110-2111.
[22]Roth J, Sant'Anna P H C, Bilinski A, et al. What's trending in difference-in-differences? A synthesis of the recent econometrics literature[J]. J Econom, 2023, 235(2): 2218-2244.
[23]Daw J R, Hatfield L A. Matching and regression to the mean in difference-in-differences analysis[J]. Health Serv Res, 2018, 53(6): 4138-4156.
[24]Baker A C, Larcker D F, Wang C C Y. How much should we trust staggered difference-in-differences estimates?[J]. J Financ Econ, 2022, 144(2): 370-395.
[25]Hernán M A, Robins J M. Causal inference: what if[M]. Boca Raton: CRC Press, 2024.
[26]Yang Z, Deng Q J, Hao Y C, et al. Effectiveness of treat-to-target cholesterol-lowering interventions on cardiovascular disease and all-cause mortality risk in the community-dwelling population: a target trial emulation[J]. Nat Commun, 2024, 15(1): 9922.
[27]Zuo H X, Yu L, Campbell S M, et al. The implementation of target trial emulation for causal inference: a scoping review[J]. J Clin Epidemiol, 2023, 162: 29-37.
[28]Dib B N, Swanson S A. Emulating a target trial using observational data[J]. JAMA Intern Med, 2025, 185(4): 459-460.
[29]Forbes S P, Dahabreh I J. Benchmarking observational analyses against randomized trials: a review of studies assessing propensity score methods[J]. J Gen Intern Med, 2020, 35(5): 1396-1404.
[30]Westerberg M, Garmo H, Robinson D, et al. Target trial emulation using new comorbidity indices provided risk estimates comparable to a randomized trial[J]. J Clin Epidemiol, 2024, 174: 111504.
[31]Vander Weele T J, Ding P. Sensitivity analysis in observational research: introducing the E-value[J]. Ann Intern Med, 2017, 167(4): 268-274.
[32]Hernán M A, Robins J M. Instruments for causal inference: an epidemiologist's dream?[J]. Epidemiology (Fairfax), 2006, 17(4): 360-372.
[33]Bidulka P, Lugo-Palacios D G, Carroll O, et al. Compara-tive effectiveness of second line oral antidiabetic treatments among people with type 2 diabetes mellitus: emulation of a target trial using routinely collected health data[J]. BMJ, 2024, 385: e077097.
[34]Lipsitch M, Tchetgen Tchetgen E, Cohen T. Negative controls: a tool for detecting confounding and bias in observational studies[J]. Epidemiology (Fairfax), 2010, 21(3): 383-388.
[35]Liang X H, Zhang D, Wang H, et al. Importance of cohort and target trial emulation in clinical research[J]. Cell Rep Med, 2025, 6(4): 102081.
[36]Akenroye A T, Segal J B, Zhou G H, et al. Comparative effectiveness of omalizumab, mepolizumab, and dupilumab in asthma: a target trial emulation[J]. J Allergy Clin Immunol, 2023, 151(5): 1269-1276.
[37]McCormick N, Yokose C, Lu N, et al. Comparative effectiveness of sodium-glucose cotransporter-2 inhibitors for recurrent nephrolithiasis among patients with pre-existing nephrolithiasis or gout: target trial emulation studies[J]. BMJ, 2024, 387: e080035.
[38]Hoffman K L, Schenck E J, Satlin M J, et al. Comparison of a target trial emulation framework vs cox regression to estimate the association of corticosteroids with COVID-19 mortality[J]. JAMA Netw Open, 2022, 5(10): e2234425.
[39]Lambourg E J, Fu E L, McGurnaghan S, et al. Stopping versus continuing metformin in patients with advanced CKD: a nationwide Scottish target trial emulation study[J]. Am J Kidney Dis, 2025, 85(2): 196-204.e1.
[40]Zang C, Zhang H, Xu J, et al. High-throughput target trial emulation for alzheimer's disease drug repurposing with real-world data[J]. Nature Communications, 2023, 14(1): 8180.
[41]Mengist B, Lotfaliany M, Pasco J A, et al. The risk associated with ultra-processed food intake on depressive symptoms and mental health in older adults: a target trial emulation[J]. BMC Med, 2025, 23(1): 172.
[42]卢存存, 陈子佳, 王志飞. 基于真实世界数据的观察性因果推断研究新框架(目标试验模拟)及其在中医药领域中的应用展望[J]. 协和医学杂志, 2024, 15(2): 422-428.

