机器学习基础如何在Python中处理 - 诊断 - 包虫病包虫病 - Powered by ZK!NT

我的中心

包虫病 » 常识 » 诊断 » 机器学习基础如何在Python中处理

返回列表

发新话题

回复该主题

查看: 39\|回复: 0	机器学习基础如何在Python中处理 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别新手上路生日帖子1 积分11 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2020-12-11 17:03 \|只看楼主安宁风光安宁赏荷花好去处ldquo http://www.anningzx.com/ansjj/9927.html 特征锦囊：如何在Python中处理不平衡数据??Index 1、到底什么是不平衡数据 2、处理不平衡数据的理论方法 3、Python里有什么包可以处理不平衡样本 4、Python中具体如何处理失衡样本印象中很久之前有位朋友说要我写一篇如何处理不平衡数据的文章，整理相关的理论与实践知识（可惜本人太懒了，现在才开始写），于是乎有了今天的文章。失衡样本在我们真实世界中是十分常见的，那么我们在机器学习（ML）中使用这些失衡样本数据会出现什么问题呢？如何处理这些失衡样本呢？以下的内容希望对你有所帮助！ ??到底什么是不平衡数据失衡数据发生在分类应用场景中，在分类问题中，类别之间的分布不均匀就是失衡的根本，假设有个二分类问题，target为y，那么y的取值范围为0和1，当其中一方（比如y=1）的占比远小于另一方（y=0）的时候，就是失衡样本了。那么到底是需要差异多少，才算是失衡呢，根本GoogleDeveloper的说法，我们一般可以把失衡分为3个程度：轻度：20-40%中度：1-20%极度：1% 一般来说，失衡样本在我们构建模型的时候看不出什么问题，而且往往我们还可以得到很高的accuracy，为什么呢？假设我们有一个极度失衡的样本，y=1的占比为1%，那么，我们训练的模型，会偏向于把测试集预测为0，这样子模型整体的预测准确性就会有一个很好看的数字，如果我们只是
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题