博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习基础---再谈归纳偏置
阅读量:5793 次
发布时间:2019-06-18

本文共 523 字,大约阅读时间需要 1 分钟。

hot3.png

在“”中提到了归纳偏置实际上是一种模型选择策略,尽管我们认为A模型更简单可能具有更好的泛化能力(更贴切实际问题对新数据的预测更准)而选择了A,但是实际情况中很可能会出现B模型比A更好的情况如图所示:(注:本文实际是对周志华西瓜书的部分总结)

1336ac82e3cccb4d019b89be38a5fa1d25e.jpg

黑点是训练数据,空心点是新数据,在(b)图中B模型比A模型更好。

也就是说在无数个模型中都可能会出现比A模型与实际数据更符合的情况(西瓜书中引入了NFL(没有免费的午餐定理)来着重说明具体问题具体分析,这个具体问题实际上是指数据分布要与实际问题一致而不是指应用场景一致),换句话说哪个模型与实际情况更加符合我们就选择那个模型。

现在的问题是我们如何判断哪个模型与实际情况更加符合,因此引入了模型的评估和选择

在评估和选择时,虽然使用了N种方法,但本质上还是将数据分成了训练集和测试集分别进行模型训练和模型验证,我们理想中的情况是训练集与测试集要同时与实际数据的概率分布一致,只有这样我们才能通过技术手段尽量选择到那个最优的模型,那N种方法直观上模型评估选择法,本质上是尽量保证与实际数据的概率分布一致!

 

转载于:https://my.oschina.net/u/1268334/blog/3018372

你可能感兴趣的文章
聚合类新闻client产品功能点详情分析
查看>>
js设置定时器
查看>>
数据库除运算
查看>>
LeetCode--112--路径总和
查看>>
DeviceIOControl与驱动层 - 缓冲区模式
查看>>
感悟贴2016-05-13
查看>>
vim使用教程
查看>>
跨vlan通信-----单臂路由技术
查看>>
百度编辑器ueditor 光标位置的坐标
查看>>
DEV-C++ 调试方法简明图文教程(转)
查看>>
VS2017+EF+Mysql生成实体数据模型(解决闪退的坑)
查看>>
C++多态、继承的简单分析
查看>>
库克称未来苹果用户可自己决定是否降频 网友:你是在搞笑吗?
查看>>
6倍性能差100TB容量,阿里云POLARDB咋实现?
查看>>
Sublime Text 2 技巧
查看>>
使用fscanf()函数从磁盘文件读取格式化数据
查看>>
参加婚礼
查看>>
刚毕业从事java开发需要掌握的技术
查看>>
CSS Custom Properties 自定义属性
查看>>
vim
查看>>