毕业论文
您现在的位置: 石蜡 >> 石蜡介绍 >> 正文 >> 正文

使用深度学习对Barrett食管进行分类

来源:石蜡 时间:2023/1/28

导语:

本期和大家分享的一篇文章来自英国剑桥癌症研究所FlorianMarkowetz小组,于年4月15日发表于NatureMedicine,题目为《Triage-drivendiagnosisofBarrett’sesophagusforearlydetectionofesophagealadenocarcinomausingdeeplearning》,深度学习方法已被证明在诊断任务上取得了优异的表现,但如何将其与专家知识和现有的临床决策路径进行最佳结合仍是挑战。作者在此提出了一个深度学习架构,用于对Barrett食管Cytosponge-TFF3检查进行分类,用自动筛查代替人工筛查,可以在保证准确度的情况下将病理学家的gongzuol减少57%。

1背景介绍

癌症的早期检测和及时治疗将导致更高的生存率,主要原因在于癌前病变和早期肿瘤可以更有效地进行治疗。大多数适合早期检测的癌前病变依赖于靶向采样,并且在病理学评估中仅显示轻微的组织变化。除此之外,病理检查费时费力,对患者的及时治疗不利。人工智能(AI)的最新进展在诊断任务方面取得了出色的性能。然而,了解如何将这些技术最有效地整合到临床工作流程中,并评估它们带来的实际益处仍然是一个挑战。临床决策支持系统的设计需要平衡其性能与工作量减少和潜在的经济效应。人工智能可以大幅减少病理学家的工作量,但只有当表现与人类专家相似时,这种方法才是可行。在全自动方法和全人工筛查中存在一种半自动方法,就是使用计算方法对患者进行分诊,仅向病理学家提供模棱两可的病例。在此,作者介绍了一种使用深度学习检测Barrett食管(BE)(食管腺癌(EAC)的前驱病变)的半自动分诊系统。

食管癌是癌症相关死亡的第六大常见原因。患者在晚期表现为吞咽困难和体重减轻,食管腺癌5年总生存率仅为13%。EAC可起源于BE的前驱病变,为早期检测提供了一个有效的起点。BE发生在胃食管反流病(GERD)患者中,GERD是一种胃酸和胆汁返回食管的消化疾病,通常导致胃灼热感。在西方国家,10-15%的成年人群受到GERD的影响,因此,患BE的风险也随之增加。BE的病征特征是肠上皮化生(IM),这一过程使位于食管下段的复层鳞状上皮细胞被含有杯状细胞的柱状上皮取代。BE的常规诊断需要上消化道的侵入性内镜手术。但是,没有对GERD人群进行常规内镜筛查,因此,绝大多数BE患者无法诊断。

Cytosponge-TFF3是BE的非内镜、微创诊断试验。它是由位于可溶性囊内细绳上的压缩海绵组成的细胞收集装置。胶囊被患者吞咽后,在胃内溶解,释放海绵。通过附着的细线抽出膨胀的海绵,从胃顶部、食管和口咽部采集浅表上皮细胞样本(图1a)。因此,样品的细胞组成以鳞状细胞、胃柱状上皮和呼吸道上皮以及任何IM细胞(如果存在)为主。取出后,将器械置于含有防腐剂溶液的容器中,处理采样细胞,包埋在石蜡中,用苏木精和伊红(HE)染色,并用TFF3进行免疫组化染色。HE染色允许识别和定量细胞表型,这对质量控制至关重要。TFF3在产生粘蛋白的杯状细胞中过度表达,这是BE的关键特征。TFF3还可保护粘膜免受损伤,稳定粘液层并促进上皮愈合。因此,TFF3是BE的关键诊断生物标志物。

Cytosponge-TFF3方法具有深刻且经过充分检验的临床意义。它提供了一个期待已久的内镜检查替代诊断方法,有大量的临床试验数据支持其有效性(BEST1、BEST2和BEST3)。

在本研究中,作者使用深度学习对Cytosponge-TFF3试验的病理切片进行质量控制和诊断(图1b),并提出了一种分诊驱动的方法,通过利用专家胃肠道病理学家的决策规则保证诊断准确性(图1c)。作者使用BEST2多中心临床试验数据进行训练、校准和内部验证,并在BEST3多种心试验的独立队列中进行外部验证(图1d)。此外,在一项模拟研究中作者还探索了获得的结果如何转化为更普遍的人群。

图1采样过程及分类方式2

实验设计与数据集

从整个BEST2队列(来自英国的11家医院)中,随机选择例患者,将其H&E和TFF3病理切片(总共1,个),并由病理学家对其进行评估。BEST2患者被随机分为三个不同的子集:位用于训练,位患者用于校准和位患者作为内部验证集。图1d显示了每个分区有或没有BE的患者分布。

在外部独立验证中,使用BEST3数据进行,随机选择1,例患者,由四名病理学家组成的团队进行病理学评估,并使用半自动方法对其进行评估。

3用于训练的全切片图像注释

由经验丰富的病理学家对来自训练集的例BEST2患者的染色拨片进行手动注释与审查。对于基于HE的质量控制模型,确定了4个不同类别:胃型柱状上皮、呼吸型柱状上皮、IM和背景(包括其他细胞物质,如鳞状细胞和载玻片伪影)。对于基于TFF3的诊断模型,确定了三类:TFF3阳性区域(深色染色杯状细胞)、TFF3不确定区域(可能是杯状细胞的不明确染色区域)和背景。TFF3阳性细胞被认为是IM存在的标志物,因为它们表明患者可能患有BE。

4使用深度学习进行模型训练

使用两种不同的深度学习框架,一种用于对H&E染色的图像进行质量控制,另一种用于根据TFF3染色图像进行自动BE诊断。质量控制和诊断的深度学习框架都是通过对多个CNN架构的比较转移学习创建的:AlexNet23、DenseNet24、Inceptionv3、ResNet-18、squesquezenet27和VGG-16。所有体系结构均采用ImageNet竞争中实现的最佳参数设置初始化。使用PyTorch(v1.0.1)深度学习框架对所有模型进行培训。

5平铺性能评价

为了比较所有六个深度学习架构的性能,作者计算了质量控制和诊断框架中的类特定性能,选择了每个训练运行的开发子集具有最佳加权精度评分的时段。然后,作者计算了在选定时期基于HE模型中所有四个类和基于TFF3模型中所有三个类的精度和召回率。

6结果分析

结果(一):深度学习模型实现了平铺分类的高性能。第一步是基于与BE质量控制和诊断相关的不同类别细胞的平铺检测。对于模型开发和内部验证,使用来自BEST2临床病例对照研究的份Cytosponge-TFF3患者样本以及配对病理学和内镜数据18。将样品随机分为培训/开发(n=)、校准(n=)和内部验证(n=)组(图1d)。BEST3研究的另一个独立数据集(n=1,)用于开发方法的外部验证。

对于质量控制(HE)和诊断(TFF3)任务,作者使用不同的网络结构并在开发数据集上评估其性能。对于胃型柱状上皮,VGG-16、DenseNet和Inceptionv3的召回率最高(分别为0.、0.和0.),精密度一致(0.、0.和0.)。对于杯状细胞,VGG-16、Inceptionv3和ResNet-18的召回率最高(0.、0.和0.),精密度一致(0.、0.和0.)。

结果(二):显著图与病理学家组织切片分类标准一致。

研究人员为一个基于HE的模型(VGG-16)和一个基于TFF3的模型(VGG-16)中的类生成显著图(图2b)。对于基于HE模型的胃型柱状上皮类别,显著图通过其细胞核的线性组织和细胞与管腔之间存在直线边界来突出胃细胞。对于基于TFF3模型的正类,发现显著图突出了以高精度表征IM的含粘蛋白杯状细胞。

结果(三):与有经验的病理学家相比,全自动化方法显示出次优性能。研究人员使用匹配的Cytosponge病理和内镜情况对内部验证队列进行ROC分析(图2c-e)。首先,由病理学家在内部验证集中将患者水平分类与二元Cytosponge-TFF3进行比较。对于质量控制,VGG-16在HE染色中检测柱状上皮的排名最高(ROC–曲线下面积(AUC):0.99(95%置信区间(CI):0.98-0.99));对于诊断,VGG-16在TFF3染色中检测杯状细胞的排名最高(ROC–AUC:0.97(95%CI:0.96-0.99)(图2d)。接下来,将患者水平分类与内镜情况进行比较,以检测内部验证集中的BE,内部验证队列的全自动方法结果显示,与有经验的病理学家相比,BE检测的灵敏度丧失9.1%。

结果(四):分诊驱动方法选择患者进行人工筛查。然后,研究人员探索了基于已建立的决策路径的不同建模方法是否可以提高性能,并开发了一种分诊驱动的半自动化方法,作为上述全自动方法的替代方法。两种方法都使用相同的患者级聚合作为输入,但它们的输出不同。全自动方法试图通过将患者分类为BE阳性或阴性来直接模拟病理学评估。相比之下,分诊方法定义了不同的质量和诊断置信度类别,以选择具有挑战性的患者样本进行手动筛查。尽管它不能像全自动方法一样减少工作量,但分诊方法使样本分层更容易解释和透明。

首先选择了深度学习架构,并根据三名专家观察者对校准队列确定的阈值定义了不同质量和诊断置信度类别的临界值。然后,将质量和诊断类别分为8个不同优先级的分诊类别进行人工审查(图3)。由有经验的病理学家确定每个类别的相对优先级。对于样本质量置信度低(HE上未检测到柱状上皮或很少检测到柱状上皮)或诊断置信度低(TFF3上检测到杯状细胞很少)的病例,应优先考虑进行人类专家评估,而不是高置信度阳性或阴性证据的病例。在内部验证队列中,发现只有13.0%的患者属于高优先级的分诊类别(4和5),而87.0%的患者属于其他6个类别(图3a)。

接下来研究了哪些类别可以被自动筛查取代,同时保留人类病理学家全手动审查的准确性(灵敏度:81.7%;特异性:92.7%)。结果表明,8个类别中的5个(1、2、3、7和8)可被自动审查取代,而3个类别(4、5和6)应由病理学家审查(图3b,c)。该替代方案将产生与病理学家完全人工审查相似的性能(灵敏度:82.5%(95%CI:77.3–87.2%);特异性:92.7%(95%CI:89.6–95.9%))。因此,分诊驱动的半自动审查将节省66%的病理学家工作量。

结果(五):分诊驱动方法的外部验证。最后,在来自英国(UK)个初级保健中心1例患者的张载玻片的独立测试集中,测试了结果的有效性和模拟研究的外推(BEST3试验)。1例患者中共有例(57.41%)将接受自动筛查,而42.59%将接受手动审查。鉴于该外部验证队列中BE的患病率(7.8%),这与工作量减少的期望值一致。与完全手动审查相比,病理学家会在遗漏的同时诊断出另外6例BE患者,需要额外进行19次内镜检查。1例患者自动诊断为阴性,即使病理学家将其评分为阳性,内镜检查时有BE发现的情况下。

7总结

作者提出了一种分诊驱动的方法,使用深度学习分析Cytosponge-TFF3检测样本,用于检测BE,BE是EAC的前体。AI结合病理玻片的质量控制和诊断指标,将患者分为8个诊断类别,可以大幅减少工作量,并且具有病理学家的灵敏度和特异性。研究表明,对于适度的数据集规模,利用现有的基于分诊的病理学家决策启发式算法是全自动分类模型的有力替代方法,为嵌入临床工作流程的量身定制的半自动决策支持系统奠定了基础。

参考文献

Gehrung,M.,Crispin-Ortuzar,M.,Berman,A.G.etal.Triage-drivendiagnosisofBarrett’sesophagusforearlydetectionofesophagealadenocarcinomausingdeeplearning.NatMed27,–().

转载请注明:http://www.0431gb208.com/sjszlfa/3293.html