2019年机器学习算法的分类与选择.pdf

编号：97288

PDF 27页 2.73MB 下载积分：VIP专享

下载报告请您先登录！

2019年机器学习算法的分类与选择.pdf

1、1机器学习算法的分类&选择中国人民解放军总医院医疗大数据中心2019年7月4日CHIMA 20192机器学习算法PCALDAK-meansDBSCANSVM逻辑回归随机森林GBDTAdaboostKNNXgboost决策树神经网络CHIMA 20193SupervisedLinear Discriminant AnalysisDimension ReductionTry PCA聚类分类降维回归CHIMA 2003030404特特征征降降维维聚聚类类分分类类&回回归归总总结结目录CHIMA 20195特征降维特征向量较多时使用SVM进行分类，结果并

2、不理想；随机删除几个特征后，准确率反而提升？CHIMA 20196特征降维=特征选择？通过属性间的关系（如组合不同的属性得新的属性）改变原来的特征空间特征选择特征降维从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间找一个高维到低维的映射！删除若干特征！CHIMA 20197特征选择按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。如：移除低方差的特征、移除相关性较高的特征Filter（过滤法）Wrapper（包装法）Embedded（嵌入法）根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。如：递归地训练基模型，移除对模

3、型贡献度较小的特征使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。如：基于随机森林的特征选择方法CHIMA 20198特征降维无监督的降维找到一个能最大保留数据方差信息的子空间，降维后的数据是原来特征在新空间中的映射值APCA（主成分分析）SVD（奇异值分解）LDA（线性判别分析）无监督的降维将矩阵A分解为三个矩阵UVT的乘积，选择中数值较大的几个奇异值及U和VT中对应的奇异向量，完成特征降维。有监督的降维相同类别在超平面上投影之间的距离尽可能近，不同类别投影之间的距离尽可能远，最多降到类别数-1的维数CHIMA 20199降维算法的注意事项：P

4、CA、SVD、LDA均为线性降维方法，但可引入核函数实现非线性降维，此外还有一些非线性降维方法如Isomap谱嵌入法等 LDA作为有监督的降维方法，容易使后续的分类过程发生过拟合应用：PCA是最常用的数据降维方法，可用于图像压缩等领域SVD可用于推荐系统、自然语言处理等领域，如电子病历文本潜在语义分析LDA既可以用于降维也可用于分类缺点：经过降维后的数据与原特征不存在一一对应关系，较难解释CHIMA 201910案例分享1利用PCA对数据集去噪心衰患者是否发生院内死亡预测选取2015-2018年于解放军总医院住院的心衰患者，根据是否发生院内死亡选择正样本1094例，随机筛选负样本1094例，选

5、用94个特征用SVM做分类，利用5折交叉验证法进行结果评估。基本信息3项性别年龄BMI共病信息6项呼衰肾衰脑梗冠心病糖尿病高血压检查信息9项射血分数缩短分数胸腔积液心包积液二尖瓣反流检验信息76项血常规类15项血生化类38项尿类化验23项SVM 5折交叉验证结果训练集AUC测试集AUC未经过PCA降维0.95910.8436经过PCA降维到90维0.90090.8605特征分布情况CHIMA 201911聚类想做一个分类问题，但是却没有分类标签？如：疾病可能存在的亚型研究如：疾病风险因素的归类分析CHIMA 201912聚类层次聚类凝聚方法AGNES分裂方法DIANA密度聚类DBSCAN原型

6、聚类GMMK-meansAGNESDBSCANGMM聚类方法的类别CHIMA 201913 对数值型数据进行聚类随机选取K个对象作为初始的聚类中心，把每个对象分配给距离它最近的聚类中心，根据聚类中现有的对象重新计算聚类中心，不断重复此过程直到满足终止条件K-MEANS（K均值聚类）K-means聚类（不断迭代过程）K-modes（k众数聚类）对分类型数据进行聚类采用差异度（属性不相同的个数）来代替k-means算法中的距离CHIMA 201914聚类方法优缺点：优点：让数据变得有意义缺点：结果难以解读，针对不寻常的数据组，结果可能无用分层聚类：不需要预先制定聚类数，可以发现类的层次关系；耗

7、时，受离群值影响大密度聚类：不需要输入类别数，可发现任意形状的聚类簇，可识别离群值；无法反映数据尺寸，对高维数据密度难以定义K-means聚类：简单，最常用；仅适用凸的样本集聚类，受离群值影响大高斯混合聚类：在各类尺寸不同、聚类间有相关关系时可能比k-means聚类更合适；需要初始化多个参数高斯混合聚类K-means分层聚类密度聚类原型聚类https:/scikit-learn.org/stable/modules/clustering.htmlCHIMA 201915聚类方法在医学中的应用：1.无监督的医学图像分割2.疾病可能存在的亚型分类研究采用聚类分析为早期帕金森疾病分亚型，对致病机制

8、假说的提出和治疗策略的制定有重大暗示3.疾病与模式基因之间的关联关系分析研究4.特征解释CHIMA 201916案例分享2利用层次聚类解释模型肠道菌群与年龄之间的关系研究从公共数据库中选用江苏地区923个健康人（按照年龄被分为7组）粪便检材的16S测序数据，从中获取5621个菌群的丰度值，特征筛选后得到278个菌群的丰度值，用来对不同年龄分组的样本做层次聚类。分组年龄人数幼儿园学生3-6103小学生8-12161中学生13-14114青年人19-24135中年人30-5086老年人60-7986长寿老人94198长寿老人老年人青年人幼儿园学生小学生中年人中学生CHIMA 201917分类&回归

9、疾病发病风险预测术式选择术后恢复时间预测药效评估CHIMA 201918分类Logistic Regression（逻辑回归）Decision Tree（决策树）Random Forest（随机森林）GBDT（梯度提升树）Neural Network（神经网络）SVM（支持向量机）Naive Bayes（朴素贝叶斯）回归Linear Regression（线性回归）Decision Tree（决策树）Random Forest（随机森林）GBDT（梯度提升树）Neural Network（神经网络）SVR（支持向量回归）分类&回归常用方法CHIMA 201919分类&回归算法常见问题：A AB

10、 BC C各种算法的各种算法的优缺点优缺点缺失值、异缺失值、异常值对算法常值对算法的影响的影响冗余特征对冗余特征对算法的影响算法的影响D D是否可进行模是否可进行模型解释，得到型解释，得到特征权重特征权重CHIMA 201920模型优点缺点线性/逻辑回归1.容易使用和解释。1.要求数据线性可分；2.容易欠拟合。决策树1.易于理解和解释，运行速度快；2.对于噪声干扰具有较好鲁棒性。1.容易过拟合；2.模型结构不稳定。随机森林1.训练速度快；2.泛化能力强，预测精度高。1.取值划分较多的属性会对模型产生更大的影响。梯度提升树1.预测精度高，能处理非线性数据。1.难以并行训练数据，数据维度较高计算复

11、杂度也高。神经网络1.分类准确度高，对噪声有较强的鲁棒性；2.具备联想记忆的功能。1.需要大量的参数，学习时间过长；2.学习过程为黑盒，输出结果难以解释。支持向量机（回归）1.可解决小样本情况下的机器学习问题；2.泛化性能较强1.对缺失数据敏感；2.运行复杂度较高。朴素贝叶斯1.稳定的分类效率；2.模型所需估计的参数很少，算法简单。1.需要计算先验概率；2.分类决策存在错误率。问题一：各种算法的优缺点CHIMA 201921案例分享3树模型会赋予连续变量更大的权重？数据来源：2015年解放军总医院医院开展的社区流行病学调查研究目的：发掘冠心病的发病风险因素样本情况：正、负样本各1590例

12、29个特征向量：性别、年龄、BMI、腰臀比、抽烟、喝酒共病信息、家族史生命体征信息、ECG检查信息采用模型：随机森林00.050.10.150.20.250.3高血压病程年龄糖尿病病程是否有血脂异常是否有其他共病腰臀比BMI平均收缩压平均舒张压脑卒中病程连续变量离散化前连续变量离散化后CHIMA 201922问题二：缺失值、异常值对算法的影响问题三：冗余特征对算法的影响问题四：是否可进行模型解释，得到特征权重模型对缺失值、异常值的敏感度对冗余特征的敏感度是否可得到特征权重线性/逻辑回归敏感一般敏感可以决策树不敏感不敏感可以随机森林不敏感不敏感可以梯度提升树不敏感不敏感可以神经网络不敏感不敏感

13、不可以支持向量机（回归）敏感敏感不可以朴素贝叶斯不敏感敏感不可以CHIMA 201923案例分享4不同分类器对缺失值的敏感度朴素贝叶斯对缺失值的敏感程度最低 KNN（K-最近邻，基于距离的方法）对缺失值的敏感程度最高决策树、神经网络对缺失值的敏感程度不高Liu P,Lei L,Wu N.A Quantitative Study of the Effect of Missing Data in ClassifiersC/Fifth International Conference on Computer&Information Technology.2005.CHIMA 201924分类算法选择的建议：分类需要得到特征权重逻辑回归随机森林其他基于树的bagging或boosting算法不需要得到特征权重逻辑回归随机森林其他基于树的bagging或boosting算法SVM、神经网络CHIMA 201925总结CHIMA 201926如何选择机器学习算法：312确定数据分析目的降维聚类分类回归了解数据数据量大小缺失值、异常值冗余度数据的分布情况考虑资源合理性软硬件的配置是否满足当前数据集下算法的正常运行CHIMA 201927中国人民解放军总医院医疗大数据中心CHIMA 2019

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2019年机器学习算法的分类与选择.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。