Double clustering analysis of medical artificial intelligence research hotspots
-
摘要:目的
采用双聚类方法对人工智能在医学领域的国际研究成果进行分析, 探讨主题领域内热点趋势。
方法检索Web of Science核心合集数据库中医学人工智能的相关文献,采用Co-Occurrence13.4提取高频关键词生成词篇矩阵,应用gCluto1.0聚类工具包进行双聚类分析。
结果共纳入文献7 803篇,年发文量整体呈上升趋势,美国位居发文总量的首位,共提取30个高频主题词,形成人工智能应用于生物标志物检测等6个聚类。研究热点聚焦于卫生保健、疾病转归、疾病全程监测、辅助诊断癌症、预测模型效验和鉴别生物标志物6个主题。
结论人工智能已普遍应用于临床诊断和治疗,为基因检测及公共卫生事件提供了针对性的支持,但国内相关研究还处于发展阶段,未来还需要依托多学科、机构间的交流合作,推动中国智能化医疗的发展,使其真正成为促进医疗卫生事业发展的重要工具。
Abstract:ObjectiveTo analyze the international research results of artificial intelligence in the medical field by the double clustering method, and to explore the hot trends in the topic field.
MethodsThe Web of Science core collection database was searched for the research literature of artificial intelligence in the field of medicine, and the high-frequency keywords were extracted by Co-Occurrence13.4 to generate the word matrix. The gCluto1.0 clustering toolkit was used for the double cluster analysis.
ResultsA total of 7 803 articles were included, and the annual number of publications showed an overall upward trend. The United States ranked the first in the total number of publications. A total of 30 high-frequency subject words were extracted to form 6 clusters such as artificial intelligence applied to biomarker detection. The research hotspots focused on six topics: health care, disease outcome, whole-course disease monitoring, auxiliary diagnosis of cancer, model validity and differential biomarkers.
ConclusionArtificial intelligence has been widely used in clinical diagnosis and treatment technology, which provides targeted support for genetic testing and public health events. However, related domestic research is still in developing stage. In the future, we need to rely on multidisciplinary and inter-institutional communication and cooperation to promote the development of intelligent medical in China, so that it truly becomes an important tool to promote the development of medical and health services.
-
Keywords:
- artificial intelligence /
- telemedicine /
- research hotspots /
- Web of Science /
- double clustering /
- visual analysis
-
人工智能(AI)是一种通过编程设定系统指令来模拟并增强人类智力的智能化系统,能够从数据中提取知识并应用知识来解决问题[1]。目前,国际医学AI领域的相关研究高速发展, AI在突发卫生事件和遗传类疾病预防和控制方面展现出至关重要的辅助作用,且相较于传统方法更精确、及时。随着数字经济和互联网产业的深入发展, AI技术在医疗大数据统计、智能交互和图像处理等领域展现出巨大的潜力和优势[2-4], 但其存在的社会伦理复杂性以及临床应用的精确性还有待进一步考量[5]。近年来,医学AI领域的研究正蓬勃发展。然而,现有关于医学AI领域的文献计量学研究[6-7]大多发表时间较早,对于该领域的研究热点及其未来发展趋势存在一定的滞后性,且鲜有通过双聚类方法深入探讨AI在医学领域研究热点属性之间相关性的研究。因此,本研究采用双聚类方法对医学领域中AI技术的应用研究进行分析,旨在为未来中国医学AI领域的纵深研究提供参考依据。
1. 资料与方法
1.1 一般资料
本研究以Web of Science核心合集[8]作为数据来源,采用主题式检索方式,检索式如下: “TS=(artificial intelligence OR AI AND Medicine OR Medical)”, 检索年限为建库至2022年12月31日。为了消除误差,采用数据库中的筛选功能,将语言限定为英语,“文献类型”类别选择article和review,“研究方向”类别中对非医学相关的文献进行人工剔除后得到文献9 076篇。将上述文献以纯文本的全记录与引用格式导出至NoteExpress, 排除重复发表文献,并使用Co-Occurrence13.4[9]提取文献的关键词字段,去除缺失关键词的文献,最终纳入有效文献7 803篇。
1.2 数据提取及分析方法
使用Co-Occurrence13.4对纳入文献的关键词进行频次统计,选择排名前30位高频关键词生成词篇矩阵,将词篇矩阵导入gCluto进行双向聚类,聚类方法(Cluster Method)选择Regeated Bisection, 相似性(Similarty Function)选择Cosine, 聚类数量及效果由类内相似度、类间相似度结果及专业知识结合分析确定。根据gCluto聚类结果绘制战略坐标图,图中纵坐标为密度,代表每一类别内主题词之间的紧密程度,横坐标为向心度,代表不同类别主题词之间的紧密程度,类别内的研究之间联系越密切,则密度越大,一类研究与别类研究之间的联系越密切,则向心度越大[10]。
2. 结果
2.1 文献外部特征分析
2.1.1 发文时间分布
自1991年以来,AI在医学领域应用的发文量呈逐年上升趋势。第1阶段(1991—2008年): 初步探索阶段; 第2阶段(2009—2022年): 加速发展阶段,其中受新型冠状病毒感染疫情的影响,2020—2022年AI在医学研究领域的发文量呈爆发式增长,见图 1。
2.1.2 发文期刊和国家、机构分布
分析结果显示,主题领域内发文分布排名前5位的期刊分别为: Plos One(184篇)、Scientific Reports(166篇)、Diagnostics(111篇)、Journal of Medical Internet Research(94篇)、Cancers(66篇); 发文量累计最多的国家为美国(2 966篇,占比38.00%), 其次为中国(1 223篇,占比15.67%)和英国(777篇,占比9.96%)。发文研究机构分析显示,共有10 072个机构参与医学AI研究,其中发达国家发文量首位的机构为Harvard Med Sch(148篇),其次是Univ Washington(140篇)、Mayo Clin(108篇)。发展中国家发文量首位的机构为上海交通大学(76篇),其次是中山大学(73篇)、华中科技大学(65篇)。
2.2 文献高频主题词情况
使用Co-Occurrence13.4对纳入文献的关键词按照词频分界法确定频次,将高频同义词进行合并后最终形成17 777个关键词,根据主题领域特定背景信息设置关键词频次>124次,最终共得到高频关键词30个,并形成双聚类高频词表,见表 1。
表 1 AI在医学研究领域的双聚类高频关键词序号 关键字段 频次/次 百分比/% 序号 关键字段 频次/次 百分比/% 1 Risk 460 2.59 16 Women 194 1.09 2 Diagnosis 419 2.35 17 Validation 194 1.09 3 Expression 400 2.25 18 Health 180 1.02 4 Classification 379 2.13 19 Model 180 1.02 5 Disease 302 1.70 20 AI 154 0.90 6 Management 292 1.64 21 Impact 152 0.90 7 Cancer 289 1.62 22 Activation 151 0.84 8 Prediction 277 1.55 23 Care 149 0.83 9 Prevalence 259 1.46 24 Children 148 0.83 10 System 245 1.37 25 Performance 145 0.81 11 Association 213 1.20 26 Protein 140 0.79 12 Mortality 210 1.18 27 Cells 135 0.76 13 Identification 210 1.18 28 Outcomes 127 0.71 14 Therapy 198 1.11 29 Gene-Expression 126 0.70 15 Risk-Factors 195 1.10 30 Gene 125 0.70 2.3 聚类分析结果
gCluto聚类工具包提供了一种可以生成高频关键词双向聚类及山丘图(图 2)的可视化方法,可用于探索主题领域内的研究热点及趋势[11]。本研究中,代表高频关键词共生成6个类属,分别为AI与卫生保健应用的研究(类属0)、AI与疾病转归关系的研究(类属1)、AI与疾病全程监测应用的研究(类属2)、AI辅助癌症诊断鉴别的研究(类属3)、AI与预测模型构建及效验的研究(类属4)、AI与生物标志物鉴别诊断的研究(类属5),聚类结果见图 3。聚类山丘中,峰顶颜色与聚类内标准差呈相关性[12], 由红色、绿色、蓝色,依次代表标准差低、适中、高。结果显示, 2、5聚类山丘呈现红色,表明聚类内关键词高度相似; 0、1、3、4聚类山丘呈绿色,表明聚类内关键词相似度适中。山丘图成像结合专业知识对聚类结果进行分析,所生成的聚类类内相似度、类间相似度指标合理。聚类0至聚类5的类内相似度(ISim)分别为0.327、0.304、0.278、0.247、0.245、0.206, 类间相似度(ESim)分别为0.038、0.033、0.032、0.028、0.029、0.013。根据高频词的聚类结果绘制出战略地图以协助分析主题领域内研究热点及研究聚合程度,具体结果见图 4。
3. 讨论
医学AI领域研究近3年处于高速发展阶段。中国相继发布的“中国制造2025”和“健康中国2030”等系列方针政策和规划纲要,将AI列入国家发展战略的重要组成部分,大力支持AI在医学领域的发展[13]。同时,随着全民健康和科技创新发展的需要不断增加,以AI为基础的智能化医疗已成为实现这2个目标的重要组成部分之一[14]。患者在切身体会AI带来的精准、科学医疗服务的同时,也提升了对医学AI的接受程度,进一步推动了AI在各行各业的广泛应用[15]。本研究结果可见, AI在医学领域应用研究的全球发文量呈逐年上升趋势,尤其是近3年主题领域内发文量呈爆发式增长。其中,研究主题领域内发文量排名靠前的国家多为发达国家,中国为发文量位居首位的发展中国家,可能与国内外相关政策导向助力推进医疗技术信息化、智能化发展有关[16]。
聚类分析结果可见,类别0、1、2研究集中于AI应用于公共卫生事件的研究,主要涉及流行病学及卫生保健方向,从探索疾病的风险因素延伸至转归、结局及影响因素等。山丘图与战略坐标图结果可见,该类山丘内变异度较小,研究人群相对集中。相关研究[17]表明,在AI技术的支持下,医疗数据统计效率及精确度逐步提升,同时优化了数据的可用性。在新型冠状病毒感染疫情期间,医护人员利用数字化预测模型,精确筛查疫情传播链及易感人群[18], 对高危人群进行个体化防控,有效降低了疾病的传染风险,为控制疫情提供了有效保障[19]。此外,利用AI技术为易感人群制订个性化电子病历,在传统影像学成像系统的基础上进行数字化图像转换[20], 不仅提高了肺炎类型的检疫精确度及特异性[21], 而且将感染风险及治疗转归进行智能化预测分析,在优化医疗资源分配的基础上,改善了患者疾病转归及临床预后[22-23]。由此可见, AI技术的远程可控及信息扩展属性在预防和控制公共卫生突发事件中发挥了至关重要的作用。
战略坐标图分析结果显示,类别5研究在密度和向心度上表现最高,表明该类研究与主题领域内其他相关研究之间存在密切关系。同时,结合类别内关键词和既往研究[24], 可以推断类别5与研究人群固定的类别3之间存在紧密关系。目前,基于AI的检测技术已应用于基因检测及早期恶性肿瘤筛查,且在辅助诊断癌症及分型研究中已取得确切效果[25]。其中,蛋白检测及基因测定在临床实践中同属于生物标志物检测,该类检查属于无创性检测,对于确定疾病机制、实施个性化管理提供了可行性[26]。YANG D等[27]基于AI算法开发的GEM基因诊断技术,实现了自动化检测,提高了遗传基因亚型的检测及诊断的检查效率及精准性,有效解决了传统检验方法因时间和成本限制引起的相关风险性问题。同时,利用生物检测模型对中枢基因进行生存分析,鉴定靶基因与肿瘤免疫力之间的关系,为恶性肿瘤的鉴别诊断提供了重要依据,提高了对恶性肿瘤患者生存预测的精准性[28-29], 为早期恶性肿瘤的筛查和个性化管理提供了新思路和方法。此外,癌症的分子分型决定了治疗方式的选择。MITSALA A等[30]利用AI技术开发出结肠癌分型系统,确定了不同类型结肠癌的基因表达,进一步证实了结肠癌细胞异质性及生物学分型指标,为精确癌症分型及鉴别诊断提供了有力支持[31]。
类别4属于基于AI的预测模型构建及检验,结合山丘图和战略坐标图可见,此类别类内差异较大,且密度最低,提示相关研究相对较少,未来应加强该类研究,为医学领域内疾病预测模型的构建及检验提供参考。相关研究[32]已证实,基于AI算法的疾病预测模型能够为临床提供决策支持,提高医学诊断的特异性及敏感性。相较于传统的疾病预测方式, YE S Y等[33]构建了基于AI的心肌梗死风险预测模型,具备更高的准确性和及时性,能够有效降低院内心肌梗死的风险,改善患者的临床结局。此外,对于早期癌症患者而言,通过疾病预警模型筛查和管理影响其生存质量的高危因素及癌病变风险,能够指导临床医生为患者制订个性化的管理及治疗策略[34], 尤其胰腺癌这类早期无明显症状且生存率较低的恶性肿瘤的诊断尤其受益。基于AI的疾病预测模型不仅为胰腺癌早期诊断提供了更准确的结果,同时降低了因筛查遗失率所导致的风险[35-37]。因此,加强基于AI的疾病预测模型构建及验证,对提高患者的临床预后具有非常重要的意义。
目前,国外医学研究由AI向深度机器学习、纳米机器人等辅助临床诊断和治疗技术逐步发展,但其因涉及伦理问题,还需要各国研究者结合实际国情进行深入探讨。中国在顺应国情及政策支持的前提下,未来应增加多学科、机构间的交流合作,推动AI技术在医学诊断以及疾病预测模型构建等领域的发展。此外,本研究仅纳入Web of science核心合集数据库文献,因此可能存在文献范围有限和语言限制的问题。下一步研究拟增加纳入数据库数量,并通过专家论证的方法获得更为全面和可靠的结果。
-
表 1 AI在医学研究领域的双聚类高频关键词
序号 关键字段 频次/次 百分比/% 序号 关键字段 频次/次 百分比/% 1 Risk 460 2.59 16 Women 194 1.09 2 Diagnosis 419 2.35 17 Validation 194 1.09 3 Expression 400 2.25 18 Health 180 1.02 4 Classification 379 2.13 19 Model 180 1.02 5 Disease 302 1.70 20 AI 154 0.90 6 Management 292 1.64 21 Impact 152 0.90 7 Cancer 289 1.62 22 Activation 151 0.84 8 Prediction 277 1.55 23 Care 149 0.83 9 Prevalence 259 1.46 24 Children 148 0.83 10 System 245 1.37 25 Performance 145 0.81 11 Association 213 1.20 26 Protein 140 0.79 12 Mortality 210 1.18 27 Cells 135 0.76 13 Identification 210 1.18 28 Outcomes 127 0.71 14 Therapy 198 1.11 29 Gene-Expression 126 0.70 15 Risk-Factors 195 1.10 30 Gene 125 0.70 -
[1] 邓晨曦, 蒋一锄. 人工智能算法在图像处理中的应用探讨[J]. 中国新通信, 2020, 22(18): 98-99. https://www.cnki.com.cn/Article/CJFDTOTAL-TXWL202018051.htm [2] 吴林玉, 许茂盛. 重视人工智能在医学影像中的研究与应用[J]. 中国中西医结合影像学杂志, 2022, 20(4): 307-309. doi: 10.3969/j.issn.1672-0512.2022.04.001 [3] 张斌, 薛彩强, 林晓强, 等. 深度学习在脑胶质瘤影像学的研究进展[J]. 中国医学物理学杂志, 2021, 38(8): 1048-1052. https://www.cnki.com.cn/Article/CJFDTOTAL-YXWZ202108025.htm [4] KULIKOWSKI C A. Beginnings of artificial intelligence in medicine (AIM): computational artifice assisting scientific inquiry and clinical art- with reflections on present AIM challenges[J]. Yearb Med Inform, 2019, 28(1): 249-256. doi: 10.1055/s-0039-1677895
[5] 邹陆曦, 孙玲. 基于WOS的医学人工智能研究的可视化分析[J]. 医疗卫生装备, 2021, 42(12): 68-72. https://www.cnki.com.cn/Article/CJFDTOTAL-YNWS202112014.htm [6] 张富程, 高凯, 姜茂敏. 医疗卫生领域人工智能的研究热点及发展趋势研究[J]. 中国医疗管理科学, 2020, 10(4): 45-51. https://www.cnki.com.cn/Article/CJFDTOTAL-YLGL202004014.htm [7] KULKARNI A V. Comparisons of citations in web of science, Scopus, and google scholar for articles published in general medical journals[J]. JAMA, 2009, 302(10): 1092. doi: 10.1001/jama.2009.1307
[8] 高健雄, 程艺, 耿喆. 演进·热点·趋势: 体教融合研究探析: 基于COOC/VOSviewer的CNKI文献计量可视化[J]. 四川体育科学, 2022, 41(6): 127-133. https://www.cnki.com.cn/Article/CJFDTOTAL-SCTK202206025.htm [9] 余珍, 潘利妞, 张爽, 等. 基于文献计量学的久坐行为研究现状及热点分析[J]. 中国全科医学, 2019, 22(26): 3198-3202. https://www.cnki.com.cn/Article/CJFDTOTAL-QKYX201926015.htm [10] 范婷, 徐鹏, 娄岩. 基于双聚类法的医学大数据研究热点分析[J]. 中国卫生统计, 2017, 34(2): 328-330. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGWT201702045.htm [11] 米元元, 陈义璇, 林玲, 等. 手外科护理研究热点的共词聚类分析[J]. 现代临床护理, 2019, 18(7): 32-37. doi: 10.3969/j.issn.1671-8283.2019.07.007 [12] 庄昱, 周程. 从政策推动到研究产出—浅析医院主导人工智能研究的技术性挑战[J]. 中国科学院院刊, 2023, 38(4): 643-653. https://www.cnki.com.cn/Article/CJFDTOTAL-KYYX202304013.htm [13] 胡红濮, 秦盼盼, 雷行云, 等. 中国全民健康信息化发展历程及展望[J]. 医学信息学杂志, 2019, 40(7): 2-6. https://www.cnki.com.cn/Article/CJFDTOTAL-YXQB201907002.htm [14] GUDIGAR A, RAGHAVENDRA U, NAYAK S, et al. Role of artificial intelligence in COVID-19 detection[J]. Sensors (Basel), 2021, 21(23): 8045. doi: 10.3390/s21238045
[15] 戴木才. 论我国基本实现社会主义现代化远景目标的科学依据[J]. 马克思主义研究, 2020(11): 27-39, 163. https://www.cnki.com.cn/Article/CJFDTOTAL-STUD202011004.htm [16] 卢昕玥, 王鸿蕴, 郑秋莹, 等. 政策工具视角下中国医疗人工智能的政策文本分析[J]. 中国卫生信息管理杂志, 2021, 18(6): 802-808. https://www.cnki.com.cn/Article/CJFDTOTAL-WSGL202106019.htm [17] DONG J C, WU H Q, ZHOU D, et al. Application of big data and artificial intelligence in COVID-19 prevention, diagnosis, treatment and management decisions in China[J]. J Med Syst, 2021, 45(9): 84. doi: 10.1007/s10916-021-01757-0
[18] ALO U R, NKWO F O, NWEKE H F, et al. Non-pharmaceutical interventions against COVID-19 pandemic: review of contact tracing and social distancing technologies, protocols, apps, security and open research directions[J]. Sensors (Basel), 2021, 22(1): 280. doi: 10.3390/s22010280
[19] SHI F, WANG J, SHI J, et al. Review of artificial intelligence techniques in imaging data acquisition, segmentation, and diagnosis for COVID-19[J]. IEEE Rev Biomed Eng, 2021, 14: 4-15. doi: 10.1109/RBME.2020.2987975
[20] ALSHARIF W, QURASHI A. Effectiveness of COVID-19 diagnosis and management tools: a review[J]. Radiography (Lond), 2021, 27(2): 682-687. doi: 10.1016/j.radi.2020.09.010
[21] KIM D K. Prediction models for COVID-19 mortality using artificial intelligence[J]. J Pers Med, 2022, 12(9): 1522. doi: 10.3390/jpm12091522
[22] ALIMADADI A, ARYAL S, MANANDHAR I, et al. Artificial intelligence and machine learning to fight COVID-19[J]. Physiol Genomics, 2020, 52(4): 200-202. doi: 10.1152/physiolgenomics.00029.2020
[23] XU J, YANG P W, XUE S, et al. Translating cancer genomics into precision medicine with artificial intelligence: applications, challenges and future perspectives[J]. Hum Genet, 2019, 138(2): 109-124. doi: 10.1007/s00439-019-01970-5
[24] BERA K, SCHALPER K A, RIMM D L, et al. Artificial intelligence in digital pathology- new tools for diagnosis and precision oncology[J]. Nat Rev Clin Oncol, 2019, 16(11): 703-715. doi: 10.1038/s41571-019-0252-y
[25] CIRINO A L, HARRIS S, LAKDAWALA N K, et al. Role of genetic testing in inherited cardiovascular disease: a review[J]. JAMA Cardiol, 2017, 2(10): 1153-1160. doi: 10.1001/jamacardio.2017.2352
[26] DE LA VEGA F M, CHOWDHURY S, MOORE B, et al. Artificial intelligence enables comprehensive genome interpretation and nomination of candidate diagnoses for rare genetic diseases[J]. Genome Med, 2021, 13(1): 153. doi: 10.1186/s13073-021-00965-0
[27] YANG D, HE Y, WU B, et al. Integrated bioinformatics analysis for the screening of hub genes and therapeutic drugs in ovarian cancer[J]. J Ovarian Res, 2020, 13(1): 10. doi: 10.1186/s13048-020-0613-2
[28] COURTIOL P, MAUSSION C, MOARⅡ M, et al. Deep learning-based classification of mesothelioma improves prediction of patient outcome[J]. Nat Med, 2019, 25(10): 1519-1525. doi: 10.1038/s41591-019-0583-3
[29] OKAMOTO T, NATSUME Y, DOIM, et al. Integration of human inspection and artificial intelligence-based morphological typing of patient-derived organoids reveals interpatient heterogeneity of colorectal cancer[J]. Cancer Sci, 2022, 113(8): 2693-2703. doi: 10.1111/cas.15396
[30] MITSALA A, TSALIKIDIS C, PITIAKOUDIS M, et al. Artificial intelligence in colorectal cancer screening, diagnosis and treatment. A new era[J]. Curr Oncol, 2021, 28(3): 1581-1607. doi: 10.3390/curroncol28030149
[31] FENG L L, LIU Z Y, LI C F, et al. Development and validation of a radiopathomics model to predict pathological complete response to neoadjuvant chemoradiotherapy in locally advanced rectal cancer: a multicentre observational study[J]. Lancet Digit Health, 2022, 4(1): e8-e17. doi: 10.1016/S2589-7500(21)00215-6
[32] LIU R, WANG M Y, ZHENG T, et al. An artificial intelligence-based risk prediction model of myocardial infarction[J]. BMC Bioinformatics, 2022, 23(1): 217. doi: 10.1186/s12859-022-04761-4
[33] YE S Y, PAN J W, YE Z T, et al. Construction and validation of early warning model of lung cancer based on machine learning: a retrospective study[J]. Technol Cancer Res Treat, 2022, 21: 15330338221136724.
[34] ZHANG H, LU J, JIANG C, et al. Construction and evaluation of an artificial intelligence-based risk prediction model for death in patients with nasopharyngeal cancer[J]. Journal of Southern Medical University, 2023, 43(2): 271-279.
[35] HAMEED B S, KRISHNAN U M. Artificial intelligence-driven diagnosis of pancreatic cancer[J]. Cancers (Basel), 2022, 14(21): 5382. doi: 10.3390/cancers14215382
[36] 杜晗, 吴羿霏, 杜新. 人工智能在新药研发中的应用进展[J]. 药学进展, 2022, 46(11): 875-880. https://www.cnki.com.cn/Article/CJFDTOTAL-YXJZ202211008.htm [37] 张开友, 王思佳. 基于WOS的重症医学领域人工智能研究的可视化分析[J]. 检验医学与临床, 2023, 20(9): 1287-1293. https://www.cnki.com.cn/Article/CJFDTOTAL-JYYL202309024.htm -
期刊类型引用(1)
1. 蒋倩,张彩虹,郭洪花,麦惠盈. 中老年人轻度认知障碍风险预测模型的范围综述. 海南医科大学学报. 2025(04): 288-297 . 百度学术
其他类型引用(0)