作者:钟威 日期:2025-08-08 浏览量:20
第十三届北京罕见病学术大会暨2025京津冀罕见病学术大会(004)
钟威
推荐人:闫有圣
首都医科大学附属北京妇产医院产前诊断中心
目的:识别人类表型本体(HPO)术语对于罕见疾病的诊断和管理至关重要。然而,临床医生,尤其是初级医生,由于准确描述患者表型的复杂性,常常面临挑战。传统的手动检索HPO数据库的方法耗时且容易出错。本研究旨在探讨多模态大语言模型(MLLMs)是否能够提高初级医生从罕见疾病相关患者图像中识别HPO术语的准确性。
方法:来自10个专业的20名初级医生参与了本研究。每位医生评估了27张来自公开文献的患者图像,这些图像的表型与《中国罕见病目录》中的疾病相关。研究分为两组:手动搜索组依赖于HPO网站,而MLLM辅助组则使用包含ChatGPT-4o预先识别的HPO术语提示的电子问卷,随后再通过HPO数据库进行搜索。主要结果是HPO识别的准确性,定义为与专家小组确定的金标准集相比正确识别的HPO的比例。此外,还使用相同标准评估了ChatGPT-4o和两种开源MLLMs(Llama3.2:11b和Llama3.2:90b)的输出准确性,并分别记录了每种模型的幻觉情况。最后,初级医生还完成了一份关于其罕见病背景的电子问卷,以确定影响其使用标准化HPO准确描述患者图像能力的因素。
结果:每组共评估了270条描述。MLLM辅助组的准确率显著高于手动组,分别为67.41%和20.37%(RR = 3.31,95%CI:2.58–4.25,P < 0.001)。MLLM组在不同科室的表现较为一致,而手动组则表现出更大的变异性。在单独的MLLM中,ChatGPT-4o的准确率为48.15%,而Llama3.2:11b和Llama3.2:90b分别为14.81%和18.52%。然而,MLLMs表现出较高的幻觉率:生成错误ID或虚构HPO。具体而言,ChatGPT-4o、Llama3.2:11b和Llama3.2:90b分别在57.26%(67/117)、98.41%(62/63)和82.14%(46/56)的案例中生成了错误的ID,并分别在34.18%(40/117)、41.27%(26/63)和32.14%(18/56)的案例中虚构了术语。此外,针对初级医生罕见病知识的调查表明,参加罕见病和遗传病培训可能会提升医生的表现。
结论:将MLLMs整合到临床工作流程中显著提高了初级医生识别HPO的准确性,为改善罕见疾病的诊断和标准化医学研究中的表型描述提供了有希望的潜力。然而,MLLMs中观察到的显著幻觉率凸显了在广泛应用于临床实践之前进一步优化和严格验证的必要性。