Sorry, your browser cannot access this site
This page requires browser support (enable) JavaScript
Learn more >

2.2

对测试样本的假设

image-20230415111214648

一个数据集得到训练集和测试集

留出法

image-20230415111406291

image-20230415111723746

image-20230415111739127

image-20230415111751481

交叉验证

image-20230415112032842

image-20230415112044611

自助法

有放回抽样m次,得到含m个样本的集合,作为训练集(这个训练集中有重复的样本,但是我们不去重)

image-20230415112539725

image-20230415112555556

image-20230415112607707

调参

image-20230415113133645

image-20230415113158633

验证集

验证集来自训练数据

即给定数据集D,其被划分为:训练数据,测试数据

其中训练数据进一步划分为:训练集,验证集

image-20230415112942397

最终模型

image-20230415113215542

2.3 性能度量(主要分类问题)

image-20230416142922821

错误率 精度

image-20230416143142034

image-20230416143159880

混淆矩阵 查全率recall 查准率precision

image-20230416144516598

查全:正例有多少被查出来了

查准:查出来的正例有多少是真正的正例

image-20230416143456092

PR曲线

image-20230416144557672

image-20230416144753530

image-20230416144807104

F1度量

image-20230416144823952

image-20230416144840530

image-20230416144852016

b如何度量影响的,看加权调和平均式更明显

多个混淆矩阵

image-20230416145149204

image-20230416145202968

image-20230416145216530

image-20230416145229225

ROC

image-20230416145543501

image-20230416145556216

image-20230416150427483

image-20230416150617649

image-20230416150628578

这个“依次把每个样例划分为正例”其实不太准确,因为比如两个样例的预测输出相同的话,我们依次按样例的预测输出来作为阈值的话,这样一下会把两个样例划分到某一类中,

ROC曲线绘制举例:

image-20230416152548678

image-20230416152609065

分类阈值变动一次,可能会新增多个真正例+假正例,这是因为可能有多个样例的预测输出是一样的

AUC

image-20230416152121538

image-20230416152200617

image-20230416152802305

证明lrank是ROC曲线之上的面积:

ROC曲线之上的面积:ROC曲线和y轴围成的面积

image-20230416153549141

接下来我们解析下为啥这个式子就是ROC曲线和y轴围成的面积:

image-20230416153650949

代价敏感错误率 代价曲线

image-20230416160057409

代价敏感性能度量

image-20230416160128554

代价曲线

image-20230416160200193

image-20230416160220231

为什么取下界之后,围成的自积即为在所有条件下学习器的期望总体代价?

  • 取下界实际含义是?
    • 不同的线段对应不同的分类结果,同一条线段上不同点对应某分类结果下不同的cost时的代价情况
    • 取下界:相同正例概率代价的情况下(其对应多条线段上的多个点,这些点对应的分类结果(即式2.24和2.25中的p)和cost可能都不相同),归一化代价取最小值
  • 期望总体代价:
    • 各种cost分布下,这个学习器的平均总体代价
  • 还是没懂,这里是对cost分布做了什么假设吗?

评论