Coursera ML(10)-机器学习诊断法
in Coursera ML with 0 comment

Coursera ML(10)-机器学习诊断法

in Coursera ML with 0 comment
假设你在开发一个机器学习系统,或者在改进一个机器学习系统的性能,应如何做?

目前已有的方法:

每种方法都有自己不同的应用场景

Evaluating a Hypothesis

根据测试集得到参数,对训练集运用模型。有两种误差计算方法

$$J_{test}(\Theta) = \dfrac{1}{2m_{test}} \sum_{i=1}^{m_{test}}(h_\Theta(x^{(i)}_{test}) - y^{(i)}_{test})^2$$

误分类的比例,对于每一个测试实例,计算:
$$err(h_\Theta(x),y) = \begin{matrix} 1 & \mbox{if } h_\Theta(x) \geq 0.5\ and\ y = 0\ or\ h_\Theta(x) < 0.5\ and\ y = 1\newline 0 & \mbox otherwise \end{matrix}$$
然后急死俺平均
$$\text{Test Error} = \dfrac{1}{m_{test}} \sum^{m_{test}}_{i=1} err(h_\Theta(x^{(i)}_{test}), y^{(i)}_{test})$$

Model Selection and Train/Validation/Test Sets(交叉验证机)

使用60%的数据作为训练集,20%的数据作为交叉验证集,20%的数据作为测试集

简单来讲:
训练集训练出 10 个模型 ->10 个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)->选取代价函数值最小的模型->用选出的模型对测试集计算得出推广误差(代价函数的值)

Diagnosing Bias vs. Variance

high biais and high variance

很多情况下,欠拟合会导致高误差,高方差意味着拟合过度。

Decide Bias or Variance

Regularization and Bias/Variance

mark

Regularization 相关结论

Learning Curves

Experiencing high bias:

因此在高偏差(欠拟合)的情况下,增加训练集数量并不是一个好办法。此时,我们应当增加features。

Experiencing high variance:

对比之下,如果在高方差(过拟合)的情况下,增加训练集数量可以明显降低误差,提高算法效果。

决定下一步做什么

high biais and high variance

Responses

From now on, bravely dream and run toward that dream.
陕ICP备17001447号