- 博客
- 分类
- 标签
- 归档
- 随笔
- 日报

西瓜书 2.2 评估方法 2.3 性能度量

zhiqiuyuan

发布于：Apr 15, 2023

2.2

对测试样本的假设

一个数据集得到训练集和测试集

留出法

交叉验证

自助法

有放回抽样m次，得到含m个样本的集合，作为训练集（这个训练集中有重复的样本，但是我们不去重）

调参

验证集

验证集来自训练数据

即给定数据集D，其被划分为：训练数据，测试数据

其中训练数据进一步划分为：训练集，验证集

最终模型

2.3 性能度量（主要分类问题）

错误率精度

混淆矩阵查全率recall 查准率precision

查全：正例有多少被查出来了

查准：查出来的正例有多少是真正的正例

PR曲线

F1度量

b如何度量影响的，看加权调和平均式更明显

多个混淆矩阵

宏

微

ROC

这个“依次把每个样例划分为正例”其实不太准确，因为比如两个样例的预测输出相同的话，我们依次按样例的预测输出来作为阈值的话，这样一下会把两个样例划分到某一类中，

ROC曲线绘制举例：

分类阈值变动一次，可能会新增多个真正例+假正例，这是因为可能有多个样例的预测输出是一样的

AUC

证明lrank是ROC曲线之上的面积：

ROC曲线之上的面积：ROC曲线和y轴围成的面积

接下来我们解析下为啥这个式子就是ROC曲线和y轴围成的面积：

代价敏感错误率代价曲线

代价敏感性能度量

代价曲线

为什么取下界之后，围成的自积即为在所有条件下学习器的期望总体代价？

取下界实际含义是？
- 不同的线段对应不同的分类结果，同一条线段上不同点对应某分类结果下不同的cost时的代价情况
- 取下界：相同正例概率代价的情况下（其对应多条线段上的多个点，这些点对应的分类结果（即式2.24和2.25中的p）和cost可能都不相同），归一化代价取最小值
期望总体代价：
- 各种cost分布下，这个学习器的平均总体代价
还是没懂，这里是对cost分布做了什么假设吗？

更新于：Apr 16, 2023

16

周六动物园+周六上午周日上午文野今日目标：上午下午 1 （任性一下，学西瓜书）西瓜书2.3 完成PR 2 西瓜书2.3 完成代价敏感 3 西瓜书2.4 完成代价敏感晚上

有向无环图枚举st路径 st路径计数

https://www.geeksforgeeks.org/number-of-paths-from-source-to-destination-in-a-directed-acyclic-gr...

评论

粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
新标签页打开
复制链接地址
复制图片
谷歌识图
常见问题
示例博客
加入社区

本站源码
主题源码

暗黑模式
打印页面
阅读模式