机器学习中的特征重要性 Feature Importance
一个简短的关于特征重要性的介绍。
·
Feature Importance
闲话
几周没用CSDN,发现编辑器的字体变了。最近看了几篇讲特征重要性的文章。在这里【简要】记录一下我的总结,对不熟悉相关知识的读者做个导航。
优点
- 知道数据中的特征对预测的重要性,可以让我们对模型/数据的理解更加深刻——可解释性。
- 降维
- 特征选择——减少参数/提升效率/提升效果
主要类型
- 相关系数
一些基础的机器学习模型,例如线性回归(linear regression)、logistic regression等模型,其中的权重等可以看作是重要性 - 模型本身带来的特征重要性
类似于决策树/随机森林(Decision Tree)、XGBoost等模型,模型本身就可以输出特征重要性等信息。 - 特征扰动
对数据集中的某一类feature进行shuffle,然后在测试集上进行(多次)测试,查看模型效果的(平均)下降程度,下降的越多代表重要性越高。(优点:无需重新训练模型,独立于模型/数据。)
其他
读者还可以关注一些模型可解释性的论文。
搜索的关键词:Interpretability, explainable, causal inference, mutual information, sharpley, interpretable machine learning, XAI
- Aaron Fisher, Cynthia Rudin, and Francesca Dominici. All Models are Wrong, but Many are Useful: Learning a Variable’s Importance by Studying an Entire Class of Prediction Models Simultaneously. Journal of Machine Learning Research, 20 (177): 1-81, 2019.
更多推荐
所有评论(0)