ICD-11编码中文疾病诊断名称的效果评估及其与ICD-10的比较
陈禄明 张旭 邓立宗 蒋太交 商涛
摘 要:文章旨在调研并比较 icd-11 与 icd-10 疾病编码标准在我国临床使用中诊断名称的编码效果。同时,进一步调研 icd-11 及 icd-10 对《地方病学名词》《中医药学名词》中我国特色疾病诊断相关术语的编码效果。整体来看,icd-10 相较于 icd-11 对临床诊断以及我国特色诊断术语具有更好的效果,本地化水平较高。然而在中医相关疾病诊断以及癌症相关疾病诊断的编码上,icd-11 具有更好的表现效果。对 icd-11 持续进行的本地化工作,将是未来 icd-11 在临床应用中落地的重要基础。此外 icd-11 新的编码策略和组织形式为传统医学的收录和癌症疾病诊断编码的简化提供了巨大的发展空间和潜力。
关键词:icd-10;icd-11;疾病诊断;传统医学;编码能力
中图分类号:r4;n04? 文献标识码:a? doi:10.12339/j.issn.1673-8578.2022.03.009
effect evaluation of icd-11 disease encoding system and its comparison with icd-10//chen luming, zhang xu, deng lizong, jiang taijiao, shang tao
abstract:our purpose is to investigate and compare the effect of icd-11 and icd-10 disease encoding system, and further investigate the coding effect of icd-11 and icd-10 on terms related to diagnosis of diseases with chinese characteristics in local disease terms and traditional chinese medicine(tcm) terms. compared with icd-11, icd-10 has better encoding effect on real world clinical diagnosis, and has a higher level of localization. however, icd-11 has better performance in the encoding of tcm related disease diagnosis and cancer. the continuous development of chinese d icd-11 would be an important basis for the implementation of icd-11 in practical clinical application. in addition, the new encoding strategy and organization form of icd-11 provide potential for the enrichment of traditional medicine and the simplification of encoding for cancer.
keywords:icd-10; icd-11; disease diagnosis; traditional medicines; encoding capabilities
收稿日期:2022-03-22? 修回日期:2022-06-08
基金項目:全国科学技术名词审定委员会事务中心一般项目“不同医学信息系统之间临床表型术语的整合策略研究”(swzx2021002);国家重点研发计划“新平急一体数据标准化接口与体系建设”(2021yfc2302000);中国医学科学院创新工程“重大高致残、致畸性骨骼疾病的早期识别及精准干预研究”(2021-i2m-1-051);国家语言文字工作委员会“十三五”科研规划2020年度一般(委托)项目“数字时代以科技名词为代表的专业词语生产和产博管理机制研究”(wt135-73)
引言
国际疾病分类 (international classification of disease, icd)是世界卫生组织 (who)制定的国际统一疾病分类方法。根据疾病的病因、病理、临床表现和解剖位置等特性对疾病进行分类,使其成为一个具有层次结构的组织形式,并用编码的方式来表示[1]。icd系统的编制初衷是对各类疾病名称进行系统的分类,从而达到对临床疾病系统整理的效果。然而在临床实践中,icd系统也在病历整理、疾病诊断上报等多个医疗卫生系统中扮演了非常重要的角色。icd系统对疾病的精细化组织形式,为卫生管理部门患病人数管理与统计、临床诊断疾病分类、病历信息提取与采集带来了巨大的便捷[1]。我国自 1987 年以来,已先后采用了 icd-9、icd-10 编码系统,并且该系统通过直接引用及临床扩展等方式,经过多年的修订和维护,逐步适应于我国自身特色的临床实践[2]。在我国,除了临床诊断已全面使用 icd-10 进行编码之外,医保局疾病诊断报销编码、人社局死亡登记编码也开始全面采用 icd-10 编码进行登记汇总[3]。随着信息技术的发展和信息化进程的加速,世界卫生组织为了适应新时代的变化,于 2018 年发布了 icd 第11版(icd-11)。我国卫生与健康委员会也在同年基于who所发布的 icd-11 进行初步本地化处理,发布了 icd-11 中文版,并于2020年正式实施。相较于以往版本, icd-11 在结构和内容上做出了较大的调整,疾病分类、疾病间的关系等采用了本体论的方法进行重构[4],重新设计了疾病的分类体系和编码逻辑,参考了snomed-ct等其他复杂临床本体系统,采用了具有更高扩展性的编码逻辑体系,由icd-10的单向扩展形式变为扩展与组合相结合的形式[3]。这种设计模式为icd-11编码带来了更强的描述力,为计算机自动化编码在icd-11系统中发挥更重要的作用提供了可能。
同时icd-11新增了“传统医学”章节,进而涵盖了世界范围内具有一定受众基础的传统医学内容(如中医、日本汉方等)[3]。icd-11 通过对传统医学内容的加入,以及全新的组合方式,给临床编码带来了新的方法和策略。在 icd-11 系统真正进入全面临床使用之前,调研其实际的编码能力非常重要[5]。其一是检验 icd-11 的内容是否可以为临床诊断名称的编码提供足够强的编码能力支持。其二是检验 icd-11 相较于 icd-10 所带来的提升以及需要进一步完善的不足之处有哪些,以便未来针对性地对icd-11进行完善。
自icd-11 发布以来,国内外的学者非常重视 icd-11 编码能力及其与 icd-10 的比较研究。例如,来自德国的研究团队,系统比较了 icd-11 与精神疾病诊断与统计手册第5版(dsm-5)编码系统在儿童创伤应激障碍 (ptsd)实际研究和诊断中的编码效果[6]。他们收集并整理了 899 份儿童精神记录报告,对其病程变化进行 icd-11 与 dsm-5 诊断编码,发现 icd-11与dsm-5的最终诊断编码率水平均在 75%左右。然而,二者之间的编码一致程度较低,仅有 45%。研究认为 icd-11应加强与已有编码系统的统一程度,以免对临床实践造成困扰。此外,北京协和医院的研究者,也参与了 who 组织的 icd-11 现场测试工作[7]。该项研究旨在测试专业诊断编码人员应用 icd-11 对代表性诊断条目的编码效果及编码困难程度,并与 icd-10 进行比较。结果显示,icd-11 的编码效果大体上与 icd-10 相当;部分疾病种类,如传染性疾病,在编码过程中存在一定程度的困难。icd-11自2018年正式发布以来,其编码方式与组合表达在临床应用中的研究,无论是在我国还是在国际都处于发展和探索阶段,国际相关工作的报道较少。因此,对icd-11系统的调研工作也可以加深我们对这套系统编码方法与编码逻辑的认识。
在我国,实际医疗场景复杂,临床用语多样;同时中国医学发展历史悠久,且具有特色非常鲜明的自身文化与医学传承。icd 体系在我国临床诊断编码中的实际使用情况如何,需要从诊断名称编码这一应用场景出发予以研究。在本研究中,我们将分别从实际临床疾病编码、地方病学诊断编码、中医药学诊断编码几个方面出发,探索 icd-11与icd-10对我国疾病诊断名称的编码能力,并对编码结果进行比较分析,以此提出未来在进行icd-11中文本地化过程中可能发展的研究方向。
1 研究方法
1.1 研究设计
本研究的总体设计如图 1 所示:在标准参考方面,将《icd-11》中文版(国家卫生与健康委员会 2018 年发布,以下简称 icd-11)与《疾病与诊断编码(医保 2.0)》(以下简称 icd-10)分别作为 icd-11 与 icd-10 的参考标准。在数据收集与整理方面,首先,收集来自临床场景的电子病历数据;并利用自动化诊断识别方法与人工确认相结合,筛选出每份电子病历的首要诊断结果。其次,搜集并整理出全国科学技术名词审定委员会(以下简称名词委)《地方病学名词》诊断相关术语、《中医药学名词》症状、证候、疾病相关术语,作为中国特色诊断术语集合。最终,比较研究 icd-11 和 icd-10 两套诊断编码标准在临床诊断结果、地方病学诊断及中医症候诊断方面的编码效果。
1.2 搜集并整理真实世界病例诊断
从公开可获取的电子病历资源数据(包括发布在医学网站和发表于文献)中筛选出 1890 份电子病历数据。电子病历数据筛选标准为:(1)具有完整的主诉、体征、检查和诊断内容;(2)具有完整的诊断结果,且在数据中以完整的文字形式进行记录。在病历筛选过程中,并未限定疾病类型或科室种类。最后,自动识别与人工确认相结合,获取到这 1890 份电子病历数据的首要诊断结果(如心力衰竭心功能 Ⅲ 级、变应性支气管肺曲霉病[abpa]、脑外伤、药物过敏、结肠癌破裂穿孔等),作为来自临床诊断的用语数据,对 icd-11与icd-10 编码系统在临床应用中的编码效果进行比较。
1.3 搜集并整理标准术语
为评估 icd-11、icd-10 编码体系对我国地方病以及中医诊断相关概念的编码能力,本研究收集并整理了名词委的《地方病学名词》《中医药学名词》中的疾病诊断相关术语。《地方病学名词》《中医药学名词》通过专家审定编纂而成,术语表述准确專业,涵盖内容全面,同时也更具我国医学特色。通过比较icd-10与icd-11对这两个术语集合中诊断术语的编码水平,可以对疾病编码系统面向地方病学诊断和中医诊断的编码能力进行更为详细的探究,也更能考察出疾病编码系统对我国特色医学概念的描述能力。
1.4 半自动化诊断结果及诊断术语编码
通过运用自动术语标准化映射技术,可以实现更高效的术语编码过程[8]。近年来,基于预训练语言模型的术语标准化的自然语言处理技术发展愈发成熟。以 biosyn 方法为例[9],该方法以 bert 预训练语言模型为术语的语义表征,以基于n-gram 表示 tf-idf 字形嵌入矩阵为字形特征表示,通过字形与语义特征的结合,实现了高效的术语标准化过程。我们运用 biosyn,构建了 icd-11、icd-10 的特征表示矩阵,并进行基于语义相似与字形相似的编码推荐;同时辅助以人工判断,完成了实际临床诊断用语、地方病学诊断术语以及中医药学诊断术语的 icd-11、icd-10 的标准化编码。半自动化术语编码流程如图 2 所示。
最终,本研究共收集了临床诊断术语 1890 条、地方病学诊断术语 112 条、中医药学诊断术语 385 条。以这些术语为基础,利用半自动化编码方案来研究和比较 icd-11 与 icd-10 对我国当前临床应用场景和地方特色诊断术语的编码能力。
2 研究结果
2.1 实际临床诊断编码率比较研究
首先对 icd-11、icd-10对于临床诊断术语的编码水平进行调研和比较。从表 1 的结果中可见,icd-11、icd-10对于临床诊断名称的编码率分别为 28.8%、75.2%,icd-10具有更高的编码率。
在人工确认编码的过程中,可以观察到icd-11对于癌症诊断、中医诊断具有更好的编码效果。为了进一步客观验证观察到的现象,将临床诊断中的癌症诊断、中医诊断筛选出来,分别为300 条、29 条。更进一步比较了 icd-11、 icd-10 对癌症诊断和中医诊断的编码水平,结果如表 1所示。可以发现在癌症诊断、中医诊断集合中,icd-11的编码率分别为 25.7%、72.4%,而 icd-10的编码率分别为18%、0%。可知 icd-11体系对于癌症诊断具有更好的编码效果,而由于没有加入传统医学相关内容,icd-10 系统对中医诊断结果无直接编码能力。
2.2 地方病学与中医药学诊断术语编码率比较研究
为了进一步调研 icd-11、icd-10 对中国地方特色疾病诊断和中医诊断的编码水平,我们从《地方病学名词》《中医药学名词》中分别收集并整理了 112 条、385 条疾病诊断相关术语。icd-11与 icd-10 对这些术语的编码水平如表 2 所示。其中,对于地方病学诊断术语,icd-10 仍具有较高的编码水平,编码率达到了 73.2%,高于 icd-11的33.9%。对于中医药学诊断术语,icd-11由于传统医学章节的加入,带来了编码水平的极大提升,弥补了 icd-10 对中医诊断无直接编码能力的不足。然而,从编码结果上看,icd-11对中医诊断的编码水平仍仅为34.5%。由于icd-11的传统医学部分只收录病名150个、证名196个,数量有限,因此对于《中医药学名词》中的大部分中医诊断术语仍不具备直接编码能力。
综上所述,对比了icd-11与icd-10对临床诊断、地方病学诊断、中医药学诊断术语的编码率。对于临床诊断,进一步细分了中医诊断、癌症诊断。最终的icd-11与icd-10的编码率比较结果如图3所示。
从以上比较结果可知,icd-10 对于临床诊断与中国地方病学诊断具有更高的编码率水平。然而,icd-11自实施以来,术语词条的本地化水平仍有较大提升空间,与临床实践中的医学用语习惯仍有较大差距,所以对临床诊断和地方病学诊断的编码水平较低。此外,icd-11首次引入了传统医学的内容,使得其对传统中医诊断的编码具有比icd-10(无传统医学内容)更好的效果。同时还发现,icd-11新的本体式编码策略,使其在无附加编码的情况下,对癌症诊断也具有更高的编码率。然而,总体上看icd-11对于疾病诊断的编码率水平不高,仍需进一步针对我国医疗、文化等特点发展与优化。
3 结语
在总体层面上,icd-10 仍具有较好的编码效果,但是在中医和癌症方面,icd-11已经体现出编码优势。
icd-11当前版本术语表述模式与icd-10具有较大的区别(如表3所示)。从系统首选术语的表述情况来看,icd-11的术语表述形式与医疗场景中的中文使用习惯具有较大的差异:当前版本 icd-11的中文版在表述方面,仍需推动本土化优化,以提升其在我国临床实践中的适配程度。
icd-11当前版本,对我国常用临床词条的收录情况,与 icd-10 相比仍有较大区别。从收录的总词条数目上看,icd-11共收录27 000余条,远低于icd-10的49 000余条。词条数目的差距集中于icd-10为适应我国需求所做的本地化扩展部分。如“结核性肺不张”“肺干酪性结核”等我国临床常见诊断,icd-11中文版并未收录,仅收录了近似词条,“呼吸道结核病,确诊病例”。因此, icd-11当前版本在收录词条方面仍具有较大的提升空间。在癌症类疾病的编码中, icd-11由于组织策略的调整,对癌症诊断的编码不需要借助附加码即可完成对诊断的直接编码。因此,在编码效果上icd-11优于 icd-10。然而,由于词条收录不全,词条表述形式与中文习惯表述差距过大,icd-11对癌症诊断的编码水平仍然不高。
此外, icd-11加入了传统医学部分,使得疾病诊断编码第一次覆盖到中医疾病诊断范围[10]。在本研究中,通过比较临床中医诊断和《中医药学名詞》中的疾病诊断,进一步证明, icd-10 对于中医诊断结果无直接编码能力。同时也发现,icd-11当前版本对《中医药学名词》中诊断术语的覆盖程度仅有 34.5%。根据 icd-11传统医学章节的编码规则 (如图 4 ),icd-11为传统医学诊断提供了 3600 位编码空间,在包括日、韩以及国外其他传统医学术语的基础之上[11],实际使用489位编码空间;《中医药学名词》中的诊断术语共 385 条,由此可知,未来可以通过合理的规划,完成 icd-11 对我国中医诊断术语的全部吸收。
关于icd-11的当前版本与现行icd-10的相对不足,可以通过以下方法加以提升和解决。首先,针对icd-11术语表达形式与中文使用习惯适配性较差的问题,可以充分借鉴who所提供的icd-10与icd-11之间的相互映射关系,更好地继承icd-10中已有的中文术语表述形式,从而使icd-11中术语词条的中文表述方式更接近我国的临床使用习惯。其次,针对icd-11与icd-10相比在词条收录水平上的差距,可以在结合原有icd-10词条组织形式的基础上,展开icd-10扩展词条与icd-11词条的映射与扩展工作,进而实现icd-11词表面向中国临床实践的扩充与发展。该映射工作的开展,可借鉴icd-10扩展编码的经验,结合icd-11自身的编码特性,实现icd-11词条收录和编码水平的提升。
本研究的一个不足之处是未涵盖 icd-10 的附加编码部分。由于 icd-10 对于癌症疾病诊断的编码是由主编码和附加编码组合完成的,因此本研究仅系统地比较了 icd-11 与 icd-10 对癌症的直接编码效果。在未来的研究中,将会针对癌症类疾病收集更为全面的数据,同时在编码过程中包含 icd-10 的附加编码,以及 icd-11 后组式表达等新提出的编码特性,从而更为全面和系统地评价两套编码系统在癌症类疾病编码过程中的表现效果。同时,在后续研究中,也将进一步分析 icd-10与 icd-11 的中文表述习惯,以期提出一套行之有效的 icd-11 本地化策略,为icd-11系统应用于临床做好理论准备和技术铺垫。
参考文献
[1] 许文, 陶廷萍. 国际疾病分类(icd10)及其编码实践[j]. 中国卫生统计, 2003(5):35-36.
[2] 吕传禄, 王侠, 曹洪欣. 国际疾病分类第 10 次修订本本地化研究的思考[j]. 海军医学杂志, 2016, 37(2):190-191.
[3] 伍晓玲, 刘爱民, 王黎君. 国际疾病分类(icd-11)推广应用策略的研究[j]. 中国卫生信息管理杂志, 2020, 17(1):5.
[4] 黄裕翔,李晓瑛,任慧玲,等.icd-11内容结构分析与语义映射研究[j].中国数字医学,2020,15(3):35-37,80.
[5] 廖爱民, 张萌, 刘爱民. icd-11扩展码应用的探讨[j]. 中国病案, 2017, 18(4):3.
[6] sachser c, berliner l, holt t, et al. comparing the dimensional structure and diagnostic algorithms between dsm-5 and icd-11 ptsd in children and adolescents[j]. european child & adolescent psychiatry,2018, 27(2):181-190.
[7] 張萌, 廖爱民, 崔胜男,等. 我国 icd-11 现场测试的初期实践与分析[j]. 中国医院管理, 2018, 38(11):3.
[8] 胡佳慧,赵琬清,方安,等.基于医疗大数据的临床文本处理与知识发现方法研究[j].中国数字医学,2020,15(7):11-13,88.
[9] sung m, jeon h, lee j, et al. biomedical entity representations with synonym marginalization[c/ol]//association for computational linguistics. proceedings of the 58th annual meeting of the association for computational linguistics, 2020:3641-3650.(2020-06-20)[2022-04-13]. https://aclanthology.org/2020.acl-main.335.pdf.
[10] 周强, 李明, 董全伟,等. 《国际疾病分类第十一次修订本(icd-11)》传统医学章节与新版中医国家标准的比较研究[j]. 上海中医药杂志, 2021, 55(5):7.
[11] 任慧玲,李晓瑛,邓盼盼,等.国际医学术语体系进展及特色优势分析[j].中国科技术语, 2021, 23(3):18-25.
作者简介:陈禄明(1989—),男,博士,2021年毕业于中国医学科学院/北京协和医学院苏州系统医学研究所,现在生物岛实验室、广州国家实验室进行博士后研究,主要从事中文生物医学文本挖掘、中文生物医学术语本体建设方面的研究。参与多项国家、部委组织的中文医学术语建设方面的研究工作,参与发表论文5篇。通信方式:luming_chen@outlook.com。
蒋太交 (1970—) ,男,博士,广州国家实验室研究员,中国医学科学院/北京协和医学院长聘教授、博士生导师,国家杰出青年基金获得者。 多年从事生物信息学、医学信息学领域的研究。 课题组经过多年积累,发表多篇关于生物医学大数据处理的研究论文。同时在医学文本自然语言处理、疾病表型、医学本体、知识图谱方面进行了深入研究。此外,在解决重大疾病科学问题中对生物信息学、医学信息学等进行多学科、多方法的交叉融合也是课题组重要的研究方向。通信方式:taijiao@ibms.pumc.edu.cn。
通讯作者:商涛(1979—),男,博士,2011 年毕业于中国医学科学院基础医学研究所/北京协和医学院基础学院细胞生物学专业,主要研究方向为医学术语审定、医学数据规范化、国际疾病分类本地化,在医学术语规范化方面进行了深入研究。此外,对规范化医学术语与医学信息学的交叉融合进行了研究。现任全国科学技术名词审定委员会事务中心医学专项办公室主管,主持全国科学技术名词审定委员会事务中心基金项目 2 项。 通信方式:shangt@cnterm.cn。
ICD-11编码中文疾病诊断名称的效果评估及其与ICD-10的比较
本文2022-11-11 21:08:33发表“城建环卫”栏目。
本文链接:https://www.wenmi123.com/article/431129.html
- 座谈会发言:体系抓好思政课教育做好贯彻落实下篇文章(02-19).docx
- 组织部机关支部书记2024年度抓基层党建工作述职报告(02-19).docx
- 在县委理论中心组暨2024年度民主生活会学习研讨会上的发言(02-19).docx
- 在2025年市人代会分组讨论会上的发言(02-19).docx
- 医院党委选人用人工作自查报告(02-19).docx
- 宣传部2024年民主生活会个人对照检查发言(02-19).docx
- 行政服务中心民族团结进步创建工作经验材料(02-19).docx
- 校长在中学2025春季开学典礼上的讲话:撷一抹祈望春风掬一程锦绣花开(02-19).docx
- 乡镇领导班子2024年民主生活会对照检查发言材料(五个带头+典型案例)(02-19).docx
- 乡2024年度基层党建工作总结(02-19).docx