[IT/数码] 极智分析助力发文:特征筛选(LASSO+Boruta+REF)+多模型比较+SHAP+在线预测工具=中国中老年关节炎患者抑郁风险

[复制链接]
查看12 | 回复0 | 前天 23:07 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×

本次解读的是发表在Archives of Gerontology and Geriatrics上的一篇文章《Interpretable machine learning model for predicting depression in middle-aged and elderly Chinese arthritis patients: A nationwide prospective cohort study》,本研究构建了一个可解释的机器学习模型用于预测中国中老年关节炎患者的抑郁。

    230648b5b06242.png


2306489b0dd9cd.png













01背景介绍
在中国,48%的关节炎患者同时患有抑郁症。抑郁会降低关节炎患者的疼痛阈值、治疗依从性和工作效率,增加疾病活动度和医疗资源成本。
以往众多横断面研究探索了关节炎患者抑郁症状的风险因素,包括社会人口学因素、关节炎相关症状和其他健康状况因素等,但传统统计方法存在局限性。机器学习(ML)模型虽有应用潜力,但针对中国中老年关节炎患者这一特定人群的研究较少,且以往研究存在模型缺乏疾病特异性、动态建模不足、可解释性与临床实用性失衡、方法学缺陷和验证不充分等问题。

02材料与方法
1.数据来源
利用CHARLS数据库进行模型开发和内部验证,KLoSA数据库进行外部验证。研究纳入年龄≥45岁、确诊患关节炎且基线时无抑郁症状的参与者,最终CHARLS数据库纳入3100人,KLoSA数据库纳入773人。


2.特征筛选
通过广泛文献回顾和临床专家咨询,确定26个潜在预测变量,涵盖人口特征、关节炎相关症状等方面。使用LASSO回归、递归特征消除(RFE)和Boruta算法进行特征筛选。LASSO回归通过L1正则化,将不重要特征的系数压缩为零来实现特征筛选,能处理高维数据、避免过拟合并提供特征系数估计;RFE基于SVM模型权重递归去除最不重要的特征,可处理非线性关系且对噪声数据不敏感;Boruta算法利用随机森林评估特征重要性,通过与阴影特征比较来选择特征,能处理高维数据且评估更稳健。三种方法选择的重要特征的交集,这可以精确定位所有方法都认为重要的核心特征。
3.模型开发、模型优化和评价
将纳入个体按7:3随机分为训练集和内部验证集,选择XGBoost、逻辑回归、K最近邻(KNN)、决策树、LightGBM和随机森林6种机器学习算法建立了中老年关节炎患者抑郁风险预测模型。基于ROC曲线、特异性、精确度、灵敏度、F1评分、DCA曲线和PR曲线等指标评估和比较模型性能。在训练集内进行10折交叉验证优化模型,用学习曲线评估模型拟合度和稳定性。外部验证集评估方法与内部验证集一致。此外,SHAP还用于为最优模型提供解释,并对特征的重要性进行排序。
此外,我们还进行了轨迹分析。基于组轨迹建模(GBTM)是一种假设人群异质性的方法,用于根据受试者随时间推移的独特轨迹将受试者分为不同的组。在本研究中,我们使用GBTM来识别在五波数据收集期间抑郁症状轨迹的变异性。基于在每波收集的CESD-10评分,测试了包含1至4组的轨迹模型。通过BIC、AIC、OCC、APP等标准确定最佳组数。BIC和AIC最低、OCC大于5、APP大于0.7的模型被选为最佳模型。在此基础上,进一步验证了通过机器学习筛选出的影响关节炎合并抑郁症的核心变量。最后,开发了一个在线风险预测模型计算器。
2306498a2ec6b7.png


03结果
01 变量筛选
当Lasso模型中的λ为0.016时,17个预测变量显示出非零系数,其中IADL的系数最高,为0.47。通过Boruta算法的迭代运算,确定了10个重要变量。SVM_REF方法基于通过支持向量机的递归特征消除,通过递归删除最不重要的特征来筛选变量。在本研究中,SVM_REF方法共选择了15个变量。通过维恩图取交集识别了10个预测变量,筛选的变量用于后续的机器学习建模。


02 多种分类模型的比较
XGBoost在训练集和验证集(训练集:0.861(0.846-0.876);验证集:0.801(0.765-0.836))中的AUC大于逻辑回归和决策树模型。此外,除特异性指标外,XGBoost模型其他评分方面优于逻辑回归和决策树。在DCA中,XGBoost在大多数阈值范围内具有较高的净收益。此外,XGBoost校准曲线接近完美的校准线,布尔分数:0.175,95%CI(0.168-0.182)小于其他模型。PR曲线的AP值:0.753,95%CI(0.746-0.76)在所有机器学习模型中表现最好。因此,XGBoost模型在六种机器学习模型中表现最好,并用于后续分析。
23064974533c2f.png 230649b2d58b63.png


3 XGBoost模型的模型优化和外部验证
XGBoost模型优于其他六种机器学习模型。此外,十折交叉验证可以防止过度拟合,并增强模型推广到未知数据的能力。训练集、验证集和测试集中的AUC值分别为0.807(0.789-0.824)、0.768(0.710-0.826)和0.757(0.712-0.802),证明了模型的强区分能力。
23064986b2b156.png
学习曲线显示,训练集和验证集的AUC值随着训练样本数量的增加而趋于稳定和收敛,证实了模型的良好稳定性。校准曲线证实了模型的预测概率与实际观察结果之间的一致性。决策曲线分析(DCA)支持该模型在临床应用中的有效性。
230650ec47a04c.png

XGBoost模型在外部验证集上表现良好。XGBoost模型的AUC为0.764(95%CI:0.747-0.781),灵敏度为0.664,特异性为0.739,PPV为0.637,NPV为0.761,F1评分为0.65。XGBoost模型的校准曲线接近完美校准线,进一步表明模型的校准性能良好,预测概率相对准确。此外,XGBoost模型在大多数阈值概率范围内具有比“不治疗任何人”基线更大的净益处。



4 模型解释和模型展示
通过计算SHAP值,我们可以量化每个特征对模型预测结果的贡献。图4显示了SHAP值的分布,其中图4A是SHAP值的散点图,图4B是SHAP值平均影响大小的排序图,图4C和4D是单个特征的SHAP值的分布图。
230650f7cc5705.png

最后,我们进一步开发了基于最佳模型XGBoost的在线计算器(https://www. xsmartanalysis.com/model/list/predict/model/html?mid=22020&symbol=817jJds391

70NJ163nD8),通过输入现成的临床变量,帮助临床人员预测中国中老年关节炎患者十年内的抑郁风险。

230650bb42c5d2.png


5 轨迹分析
在所有轨迹模型中,三类模型的AIC和BIC值最低。然而,在组分类中,2类的比例为0%。同样的现象也发生在四类模型中。因此,我们最终选择了两类模型,其中APP值均大于0.7,OCC值均大于5。识别出的轨迹如下:(1)稳定-低抑郁症状(41.2%),其特征是平均抑郁评分最低;(2)抑郁症状增加(58.8%),其特征是抑郁评分逐渐增加。接下来,我们进一步使用逻辑回归模型分析了XGBoost模型确定的10个关键预测变量对两种不同抑郁轨迹的贡献。

04总结
结论
本研究开发的基于XGBoost机器学习算法的风险评估模型集成了多个关键变量,为中国中老年关节炎患者抑郁风险的早期识别提供了有效的工具。该模型不仅提高了抑郁风险识别的准确性,而且通过SHAP值解释预测结果。尽管数据集和结果外推存在局限性,但该模型在临床实践中的应用有望改善关节炎患者的心理健康和生活质量。未来的研究将进一步优化该模型的用户界面,评估其在不同临床环境中的应用效果,并探索其在长期患者管理中的潜力。
局限性
1. 数据准确性问题:CHARLS数据主要基于自我报告,未记录关节炎亚型,缺乏临床影像和血液炎症标记物,可能存在回忆偏倚或错误分类,无法准确反映疾病严重程度和进展。
2. 样本代表性问题:CHARLS抽样设计可能无法完全代表中国所有年龄和地区的关节炎患者。样本主要集中在45岁及以上人群,对年轻患者和严重行动受限或认知障碍患者可能低估,且地区覆盖不全面,城乡人口比例失衡可能影响结果代表性。
3. 数据时效性问题:CHARLS数据库的时效性和更新频率可能限制其在最新研究中的应用,无法及时反映部分地区医疗条件和生活方式的变化。
4. 结果外推问题:CHARLS数据基于中国人群,结果能否外推到其他种族人群未知,模型在不同人群和临床环境中的通用性有待进一步验证。此外,纳入更多遗传数据和代谢/蛋白质生物标志物可提高模型准确性和临床实用性。
小编说明
本文构建的机器学习模型为预测中国中老年关节炎患者抑郁风险提供了有效工具。通过多方法筛选变量和多种模型比较,确定了最佳模型并进行深入分析。然而,研究受限于数据来源,在样本代表性、数据准确性和时效性等方面存在不足。未来研究可在优化模型的同时,注重数据质量和通用性验证,进一步提高模型在临床实践中的应用价值,更好地服务于中老年关节炎患者抑郁风险的早期识别和干预。
结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

hdy

507

主题

338

回帖

540

积分

二级逆天

积分
540