Research on prognostic models and biomarkers of lung adenocarcinoma using integrated proteomics and transcriptomics
-
摘要:目的
基于蛋白质组学和转录组学筛选肺腺癌预后生物标志物并构建预后模型。
方法从TCGA公共数据库下载肺腺癌的蛋白质组学、转录组学及患者临床特征数据。按照7∶3比例将数据集分成训练组和验证组。根据患者临床生存时间、生存状态和蛋白表达数据, 在训练集中进行蛋白表达单因素预后分析。采用Lasso-step Cox方法,构建肺腺癌患者预后模型,并计算风险分数。根据风险分数中位数将患者分为高风险组和低风险组,并分析2组预后情况。构建预后列线图模型和校准曲线,对该模型进行临床分组验证和相关性分析。基于HPA数据库分析模型蛋白表达情况,并对风险蛋白进行富集分析。选取20例初诊肺腺癌患者进行免疫组化和临床特征分析。
结果本研究筛选出5个与预后相关的蛋白,构建了风险蛋白模型。风险分数对肺腺癌患者的预后具有预测作用。该风险模型展现出较强且独立的预后预测能力。列线图模型在预测个体预后方面表现出较高的准确性。此外,风险模型及其计算出的风险分数与临床分期特征之间存在内在联系。HPA数据库分析表明, CD38、CD49B、ADAR1和cdc25C4在肺腺癌组织中显著高表达。20例临床标本验证了初诊肺腺癌远处转移患者的CD49B呈高表达,且对治疗较敏感。
结论蛋白质组学和转录组学联合分析肺腺癌预后标志物的结果较可靠。CD49B在肺腺癌中发挥重要作用,基于该基因构建的预后预测模型有望为临床治疗肺腺癌提供重要参考。
Abstract:ObjectiveTo screen prognostic biomarkers for lung adenocarcinoma by integrating proteomics and transcriptomics.
MethodsProteomics, transcriptomics and clinical characteristics data of lung adenocarcinoma patients were downloaded from the TCGA public database. The dataset was split into training set and validation set at a ratio of 7∶3. Univariate prognostic analysis of protein expression was conducted in the training set based on patients' clinical survival time, survival status, and protein expression data. A prognostic model for lung adenocarcinoma patients was constructed using the lasso-step cox method, and risk scores were calculated. Patients were divided into high-risk and low-risk groups based on the median risk score, and the prognosis of the two groups was analyzed. A prognostic nomogram model and calibration curves were constructed to clinically validate and correlate the model. The protein expression of the model was analyzed based on the HPA database, and enrichment analysis was performed on the risk proteins. Immunohistochemical and clinical characteristic analyses were conducted in 20 newly diagnosed lung adenocarcinoma patients from our hospital.
ResultsFive proteins associated with prognosis were screened out, and a risk protein model was constructed. The risk score had a predictive effect on the prognosis of lung adenocarcinoma patients. The risk model demonstrated strong and independent prognostic predictive ability. The nomogram model showed high accuracy in predicting individual prognosis. Furthermore, there were intrinsic relationship of the risk model and its calculated risk scores with clinical staging characteristics. HPA database analysis revealed significant overexpression of CD38, CD49B, ADAR1, and cdc25C4 in lung adenocarcinoma tissues. The 20 clinical specimens from our hospital validated the high expression of CD49B in newly diagnosed lung adenocarcinoma patients with distant metastasis and its sensitivity to treatment.
ConclusionThe combined analysis of proteomics and transcriptomics for prognostic biomarkers of lung adenocarcinoma yields reliable results. CD49B plays a crucial role in lung adenocarcinoma, and the prognostic prediction model based on this gene is expected to provide important references for clinical treatment of lung adenocarcinoma.
-
Keywords:
- proteomics /
- transcriptomics /
- lung adenocarcinoma /
- CD49B protein /
- TCGA public data
-
肺癌为发病率和致死率均较高的常见肿瘤之一[1]。在肺癌患者中, 85%的病理类型为非小细胞肺癌(NSCLC), 其中肺腺癌较为常见[2]。早期肺腺癌的主要治疗方法是手术切除,但大部分患者确诊时已进展至局部晚期或发生远处转移,此时治疗主要依赖于全身性疗法,如化疗、靶向治疗或免疫治疗。鉴于基因组的异质性,部分患者未能从靶向治疗及免疫治疗中获益。因此,早期识别潜在预后标志物并构建预后预测模型对于筛选高风险患者及探寻新的治疗靶点至关重要。本研究利用TCGA公共数据库,旨在整合蛋白质组学与转录组学数据,构建预后模型并筛选标志物,以评估其在肺腺癌临床应用中的价值,为肺腺癌患者的治疗及预后评估提供新的策略。
1. 材料与方法
1.1 组学数据和临床数据
从TCGA公共数据库下载肺腺癌蛋白质组学、转录组学和临床特征数据(https://portal.gdc.cancer.gov/)。蛋白质组、转录组靶基因分析分别在UALCAN(https://ualcan.path.uab.edu/index.html)和GEPIA(http://gepia2.cancer-pku.cn)中进行。转录组数表达最大的探针号作为基因ID, 提取蛋白质组学的表达量,移除表达量80%以上为NA的蛋白,并合并生存时间。
1.2 构建预后模型并比较高低风险组的差异特征
按照7∶ 3比例将数据集分成训练组和验证组。根据临床生存时间、生存状态和蛋白表达数据,在训练组中进行蛋白表达单因素分析,并绘制火山图。保留单因素分析中差异具有统计学意义的基因,采用Lasso-step Cox回归方法,构建肺腺癌患者预后模型,公式如下: 风险分数=Σ蛋白表达量×风险系数。采用卡方检验对各组临床数据进行统计分析。计算风险分数后,根据中位数将患者划分为高风险组和低风险组。应用主成分分析(PCA)降维解析所有蛋白和风险蛋白的分布情况,并在验证集中进行验证。使用Pheatmap包绘制生存状态、风险分数及靶蛋白的热图分布情况。
1.3 预后分析并构建列线图模型
利用Survival和survminer包对高风险组、低风险组进行生存分析,并评估风险分数的单因素及多因素独立预后能力。采用timeROC包分析1、3、5年的受试者工作特征(ROC)曲线。使用Regplot、rms、limma和ggpubr包构建预后列线图模型和校准曲线,并对该模型进行临床分组验证及临床相关性分析。
1.4 模型蛋白相关性和转录组富集分析
使用corrplot和circlize包进行模型蛋白表达量相关性分析,并可视化展示结果。使用Ggalluvial和dplyr包分析并绘制模型蛋白与相关蛋白之间的关联图。利用人类蛋白组数据库(HPA, https://www.proteinatlas.org/)分析模型蛋白的表达情况。肺腺癌转录组数据经SVT转换。利用enrichplot包进行基因集富集分析(GSEA)以探究通路富集情况。采用Cibersort方法分析转录组水平的免疫细胞浸润差异。
1.5 临床样本风险蛋白免疫组化表达和治疗效果分析
本研究选取了20例初诊肺腺癌患者,对其进行免疫组化分析并评估其临床特征。这20例患者均通过手术或穿刺获取标本,并经病理学检查确诊肺腺癌。本研究分析上述患者的相关蛋白表达与临床治疗效果及预后的关系。采用组织化学评分(H-Score)分析免疫组化结果,公式为: H-Score=∑ (弱染色强度百分比×1)+(中度染色百分比×2)+(强染色百分比×3) [3]。以H-Score的中位数作为阈值,将患者分为高表达组和低表达组。本研究已获得江苏省扬州洪泉医院伦理委员会批准。
1.6 统计学分析
采用SPSS 25.0软件、GraphPad Prism 9软件进行数据分析,分别采用双尾t检验和单因素方差分析来评估组间统计学差异。采用χ2检验分析分类数据的相关性。所有分析均在R软件(R version 4.1.3)中完成。P值采用双尾检验, P < 0.05为差异有统计学意义。
2. 结果
2.1 蛋白组学预后分析和模型构建
从TCGA数据库获取了35 311个转录组样本数据、487个蛋白质表达谱数据以及346例携带临床信息的肺腺癌病例资料。将肺腺癌患者分成训练组和验证组, 2组临床特征比较,差异无统计学意义(P>0.05), 见表 1。在训练集中进行蛋白表达的单因素预后分析,结果显示共有10个蛋白具有预后意义。采用Lasso方法筛选并构建风险蛋白模型,确定了以下5个风险蛋白及其对应系数,风险评分计算公式如下: 风险分数=(ADAR1×0.582 179 873 585 282)-(CD38×-0.543 391 668 394 537)+(CD49B×0.498 506 440 671 452)-(cdc25C×0.355 777 249 085 615)- (HER2-pY1248×0.211 400 403 505 097)。见图 1。
表 1 TCGA肺腺癌患者训练组和验证组临床特征分析[n(%)]临床特征 分类 训练组
(n=243)验证组
(n=103)P 年龄 ≤65岁 121(49.79) 55(53.39) 0.540 >65岁 118(48.56) 45(43.69) 未知 4(1.65) 3(2.91) 性别 女 131(53.91) 53(51.46) 0.764 男 112(45.09) 50(48.54) 肿瘤分期 Ⅰ~Ⅱ期 181(74.49) 82(79.61) 0.425 Ⅲ~Ⅳ期 58(23.87) 20(19.42) 未知 4(1.65) 1(0.97) T分期 1~2期 213(87.65) 90(87.38) >0.999 3~4期 29(11.93) 13(12.62) 未知 1(0.41) 0 M分期 0期 167(68.72) 76(73.79) 0.881 1期 12(4.94) 4(3.88) 未知 64(26.34) 23(22.33) N分期 0期 153(62.96) 61(59.22) 0.546 1~3期 84(34.57) 40(38.83) 未知 6(2.47) 2(1.94) 2.2 高低风险组患者差异和预后特征分析
计算风险评分,并依据中位数将患者分为高风险组和低风险组。PCA结果显示, 2组患者的风险蛋白质分布较为集中且能够显著区分。在总数据集、训练组及验证组中的分析结果一致,表明该模型能够有效区分高风险组和低风险组; 此外,生存状态为死亡的患者主要集中在高风险组,见图 2。
预后分析结果显示,训练组患者的预后存在差异; 在总数据集和验证组中发现同样的预后作用。进一步单独分析风险模型中5个蛋白质的预后作用,结果显示差异均具有统计学意义(P < 0.05)。见图 3、图 4。上述结果证实风险分数对预后的预测作用。
2.3 风险分数预后分析和列线图模型构建
单因素预后分析显示,临床分期和风险评分均为预后的影响因素。但在多因素预后分析中,仅有风险评分对预后有显著影响,这表明本研究构建的蛋白质组学风险模型具有独立且较强的预后预测能力。该模型风险比为1.879, ROC曲线分析表明该模型在训练组中的1、3、5年的曲线下面积分别为0.681、0.627、0.670, 验证组结果也证实了除临床分期外,风险评分具有更高的预后预测效能。鉴于风险分数预测预后的能力,本研究结合其他临床因素构建了列线图模型,并对其进行了校准和验证。结果显示,该模型在预测个体预后方面具有较高的准确性。图中红点代表TCGA数据集中某患者的临床特征评分,总得分为257分,表明该患者1、3和5年的生存率分别为91.4%、69.3%和42.4%。见图 5。
2.4 风险模型与临床特征的关系分析
进一步分析模型中的风险蛋白与临床特征的关系,结果表明ADAR1与N分期相关, CD38与年龄、T分期相关, CD49B与性别、T分期相关, cdc25C与N分期、肿瘤分期相关,风险分数与T分期、肿瘤分期、N分期相关。这说明风险模型及计算出的风险分数与临床分期特征存在内在联系,风险分数不仅可作为独立预后因素,还可进行联合诊断。见图 6。
2.5 风险相关蛋白共表达和转录组水平富集分析
ADAR1蛋白与cdc25C、CD49B蛋白的表达均呈正相关,与CD38呈负相关。CD38、CD49B与cdc25C、HER2_pY1248呈负相关。使用桑基图对共表达蛋白进行可视化,左侧为模型蛋白,右侧为与这些模型蛋白相关的蛋白。该图直观展示了风险蛋白相关的蛋白,包括CD45、mTOR、METTL3等。根据风险相关蛋白对应的转录组数据,进行单样本基因集富集分析(ssGSEA), 结果显示高风险组患者的表达通路主要富集在细胞周期(Cell cycle)、DNA复制(DNA replication)、同源重组(Homologous recombination)、错配修复(Mismatch repair)和剪接体(Spliceosome)。低风险组患者的主要富集通路则为异体移植排斥反应(Allograft rejection)、细胞黏附分子(Adhesion molecules CAMs)、细胞因子信号传导(Cytokine signaling)、造血细胞谱系(Hematopoietic cell lineage)和免疫网络(Immune networks)。高风险组、低风险组的M0型巨噬细胞(Macrophages M0)和静息记忆CD4 T细胞(T cells CD4 memory resting)免疫细胞存在显著差异。见图 7。
2.6 风险蛋白免疫组化表达
从HPA公共数据库中检索正常肺组织和肺腺癌组织中上述风险蛋白的表达情况,结果表明ADAR1、CD38、CD49B和cdc25C在肿瘤组织中的表达高于正常组织,差异有统计学意义(P < 0.05), 见图 8。为了进一步验证风险蛋白的表达,本研究选取本院20例肺腺癌患者的癌组织、癌旁正常组织的病理切片进行分析。20例患者中,男14例,女6例; 年龄36~81岁; T1~2期7例, T3~4期13例; N0期5例, N1~3期15例; M0期5例, M1期15例。对20例肺腺癌样本进行免疫组化染色,并对患者进行完整临床随访。鉴于风险模型中CD49B的风险比值最高(2.265), 本研究进一步分析了CD49B在肺腺癌组织中的表达特征。
通过UALCAN和GEPIA分别对CD49B进行了蛋白组学和转录组学分析,结果显示CD49B在肺腺癌组织中的转录水平和蛋白质表达均高于正常肺组织,差异有统计学意义(P < 0.05)。免疫组化结果显示, CD49B在肺腺癌组织中的表达高于癌旁正常组织,差异有统计学意义(P < 0.05)。分析初诊时无远处转移(M0)和有远处转移(M1)患者中CD49B的表达差异,结果显示初诊时M1肺腺癌患者的CD49B的H-Score值高于M0患者。
基于GEPIA平台的分析显示, CD49B 低表达患者的预后较好。本中心12例 CD49B 高表达患者中, 10例为治疗响应(部分缓解+完全缓解), 2例为无反应; 8例 CD49B 低表达患者中, 2例患者为治疗响应, 6例为治疗无反应。这一结果与本中心免疫组化的发现一致,即初诊时M0患者预后更佳。上述数据进一步验证了本研究的结果,表明CD49B在临床应用中的潜在价值。见图 9。
3. 讨论
蛋白质组学和转录组学是2个互补的研究领域。相较于传统的单个基因或蛋白质研究方法,蛋白质组学和转录组学具有全面性、高通量、无偏倚、动态监测和个体化等优势,能够提供更为全面、准确和个性化的信息,有助于揭示疾病的分子机制,指导临床治疗。
本研究基于蛋白质组学和转录组学分析,筛选出CD49B等风险蛋白作为预后和疗效的标志物,并在本院临床样本中验证了CD49B对疗效及预后的预测作用,提示CD49B可作为预后生物标志物,用于指导临床治疗。
CD49B又名ITGA2, 是一种结构整合素α亚基,其异常表达会改变细胞黏附能力和迁移速率,在癌症的发生和发展中起重要作用。在多种实体肿瘤中, CD49B促进细胞增殖和侵袭,阻断CD49B可改善肿瘤免疫应答[4]。在骨肉瘤、乳腺癌、肺癌和脑胶质瘤等多种肿瘤中, CD49B的表达均与肿瘤转移及预后相关[5-7]。研究[8]表明, ITGA2的下调可能有助于表皮生长因子受体(EGFR)突变型非小细胞肺癌对厄洛替尼产生获得性耐药性。此外, CD49B也是胶原蛋白及其相关蛋白的跨膜受体,其是血小板黏附的重要生理激活剂[9]。研究[10]发现, CD49B在癌症进展中似乎激活了乳腺癌干细胞和祖细胞的细胞循环,并影响多种代谢途径,如以乙酰辅酶A为显著成分的乙酰辅酶A合成酶(ACLY)参与的脂质代谢。一项研究[11]将ITGA2蛋白确定为胰腺癌放射敏感性的潜在生物标志物,并表明ITGA2的过表达可能显著影响通过非同源末端连接(NHEJ)通路进行的DNA损伤修复效率。ADAR1表达和(或)活性增加与许多肿瘤有关,包括肝细胞癌、非小细胞肺癌、胃癌等[12-14]肿瘤。ADAR可以通过多种不同的机制调节转录组,这体现在ADAR1靶标的多样性和相关机制上,这些靶标和机制与其促癌作用密切相关[15]。最直接的效应是由A-to-I编辑介导的,其可以改变RNA结构、结合基序和编码序列,从而调节靶标[16]。但ADAR可以作为独立于催化活性的RNA结合蛋白发挥作用[17]。在风险模型中, CD49B的风险比值最高,且相关研究报道较少。因此,本研究选取该蛋白在本院临床患者样本中进行蛋白质层面的验证。结合临床信息发现,初诊时,有远处转移的患者中, CD49B高表达者在临床治疗后的近期原发灶疗效较好,这一结果与既往研究一致。本研究的结果为后续深入探讨CD49B在肺腺癌中新的生物学功能及相关机制提供了基础。CD49B可能成为未来肺腺癌治疗的一个有吸引力的靶点。然而本研究的结果尚存在不足之处:一是所分析数据为回顾性数据,具有一定的时间跨度,数据可能存在选择偏倚; 二是虽然研究结果显示构建的模型具有良好的预测能力,但未进行外部数据验证; 此外, CD49B与免疫治疗反应相关性的具体机制也有待进一步研究。
本研究结合蛋白质组和转录组数据筛选肺腺癌预后生物标志物,并分析其表达与预后及免疫微环境之间的联系,以获得更加准确和全面的肺腺癌生物标志物和预后模型。这些标志物有助于科研人员和药物研发者发现新的分子靶向治疗方法,从而提高肺腺癌治疗的效果。
-
表 1 TCGA肺腺癌患者训练组和验证组临床特征分析[n(%)]
临床特征 分类 训练组
(n=243)验证组
(n=103)P 年龄 ≤65岁 121(49.79) 55(53.39) 0.540 >65岁 118(48.56) 45(43.69) 未知 4(1.65) 3(2.91) 性别 女 131(53.91) 53(51.46) 0.764 男 112(45.09) 50(48.54) 肿瘤分期 Ⅰ~Ⅱ期 181(74.49) 82(79.61) 0.425 Ⅲ~Ⅳ期 58(23.87) 20(19.42) 未知 4(1.65) 1(0.97) T分期 1~2期 213(87.65) 90(87.38) >0.999 3~4期 29(11.93) 13(12.62) 未知 1(0.41) 0 M分期 0期 167(68.72) 76(73.79) 0.881 1期 12(4.94) 4(3.88) 未知 64(26.34) 23(22.33) N分期 0期 153(62.96) 61(59.22) 0.546 1~3期 84(34.57) 40(38.83) 未知 6(2.47) 2(1.94) -
[1] SIEGEL R L, MILLER K D, JEMAL A. Cancer statistics, 2020[J]. CA A Cancer J Clinicians, 2020, 70(1): 7-30. doi: 10.3322/caac.21590
[2] BADE B C, DELA CRUZ C S. Lung cancer 2020: epidemiology, etiology, and prevention[J]. Clin Chest Med, 2020, 41(1): 1-24. doi: 10.1016/j.ccm.2019.10.001
[3] MACLEAN A, BUNNI E, MAKRYDIMA S, et al. Fallopian tube epithelial cells express androgen receptor and have a distinct hormonal responsiveness when compared with endometrial epithelium[J]. Hum Reprod, 2020, 35(9): 2097-2106. doi: 10.1093/humrep/deaa177
[4] TIRILOMI A, ELAKAD O, YAO S, et al. Expression and prognostic impact of CD49b in human lung cancer[J]. Medicine, 2022, 101(6): e28814. doi: 10.1097/MD.0000000000028814
[5] REN D Y, ZHAO J Y, SUN Y, et al. Overexpressed ITGA2 promotes malignant tumor aggression by up-regulating PD-L1 expression through the activation of the STAT3 signaling pathway[J]. J Exp Clin Cancer Res, 2019, 38(1): 485. doi: 10.1186/s13046-019-1496-1
[6] CHEN Y J, JIN L Y, MA Y C, et al. BACH1 promotes lung adenocarcinoma cell metastasis through transcriptional activation of ITGA2[J]. Cancer Sci, 2023, 114(9): 3568-3582. doi: 10.1111/cas.15884
[7] 周子璇, 高尚锋, 张士成, 等. ITGA2在人脑胶质瘤组织中的表达及其临床意义[J]. 临床神经外科杂志, 2023, 20(3): 301-306, 312. [8] WU X L. Up-regulation of YPEL1 and YPEL5 and down-regulation of ITGA2 in erlotinib-treated EGFR-mutant non-small cell lung cancer: a bioinformatic analysis[J]. Gene, 2018, 643: 74-82. doi: 10.1016/j.gene.2017.12.003
[9] WENG Z Y, LI X B, LI Y Q, et al. The association of four common polymorphisms from four candidate genes (COX-1, COX-2, ITGA2B ITGA2) with aspirin insensitivity: a meta-analysis[J]. PLoS One, 2013, 8(11): e78093. doi: 10.1371/journal.pone.0078093
[10] ADORNO-CRUZ V, HOFFMANN A D, LIU X, et al. ITGA2 promotes expression of ACLY and CCND1 in enhancing breast cancer stemness and metastasis[J]. Genes Dis, 2020, 8(4): 493-508.
[11] ZHOU C, LI S K, BIN K J, et al. ITGA2 overexpression inhibits DNA repair and confers sensitivity to radiotherapies in pancreatic cancer[J]. Cancer Lett, 2022, 547: 215855. doi: 10.1016/j.canlet.2022.215855
[12] ANADÓN C, GUIL S, SIMÓ-RIUDALBAS L, et al. Gene amplification-associated overexpression of the RNA editing enzyme ADAR1 enhances human lung tumorigenesis[J]. Oncogene, 2016, 35(33): 4422.
[13] CHAN T H M, QAMRA A, TAN K T, et al. ADAR-mediated RNA editing predicts progression and prognosis of gastric cancer[J]. Gastroenterology, 2016, 151(4): 637-650. e10. doi: 10.1053/j.gastro.2016.06.043
[14] CHAN T H M, LIN C H, QI L H, et al. A disrupted RNA editing balance mediated by ADARs (Adenosine DeAminases that act on RNA) in human hepatocellular carcinoma[J]. Gut, 2014, 63(5): 832-843. doi: 10.1136/gutjnl-2012-304037
[15] RAMÍREZ-MOYA J, MILIOTIS C, BAKER A R, et al. An ADAR1-dependent RNA editing event in the cyclin-dependent kinase CDK13 promotes thyroid cancer hallmarks[J]. Mol Cancer, 2021, 20(1): 115. doi: 10.1186/s12943-021-01401-y
[16] CHEN L L, LI Y, LIN C H, et al. Recoding RNA editing of AZIN1 predisposes to hepatocellular carcinoma[J]. Nat Med, 2013, 19(2): 209-216. doi: 10.1038/nm.3043
[17] TEOH P J, AN O, CHUNG T H, et al. Aberrant hyperediting of the myeloma transcriptome by ADAR1 confers oncogenicity and is a marker of poor prognosis[J]. Blood, 2018, 132(12): 1304-1317. doi: 10.1182/blood-2018-02-832576