交叉验证原理 ：
在交叉验证中，我们只分割一次，但是我们分成10份，然后用其中的9份作为训练集，剩余的一份作为测试集，接着还是用之前分隔好的数据，我们再选择另外的一组9份作为训练数据，剩余的一份作为测试集，我们这样重复10次，每次都是用分割出的不同的数据作为测试集。最后取这十次结果的平均，这就是10层交叉验证

Test option > Cross-validation Folds 10

Cross‐validation really is better than repeated holdout
It reduces the variance of the estimate

3.1 Simplicity first

There are many kinds of simple structure eg:

One attribute does all the work
Attribute contribute equally and independently
A decision tree that tests a few attributes
Calculate distance from training instances

rules.OneR：一个属性决定一切

OneR的基本原理：

我们选择某个属性(如Outlook)开始，然后为它的每个值建立一个分支
将这个分支(如Sunny)所含的最多的类(如No)作为它的分类
错误率是在这个分支中不属于最多分类的实例的比例
我们选择错误率(Total errors)最小的属性

我们建立一棵只在根结点根据某个属性分叉的树
例如天气数据集，我们将展望、温度、湿度、风速建立一组规则
Outlook有三个分类值 Sunny, Rainy, Overcast

任何机器学习算法都有可能过度拟合训练数据

当创建的分类器过度拟合训练数据时，就很难推广到独立的测试数据

Our model doesn’t generalize well from our training data to unseen data.

This is known as overfitting, and it’s a common problem in machine learning and data science.

过拟合（overfitting）与欠拟合（underfitting）是统计学中的一组现象。过拟合是在统计模型中，由于使用的 参数过多 而导致模型对观测数据（训练数据）过度拟合，以至于用该模型来预测其他测试样本输出的时候与实际输出或者期望值相差很大的现象。欠拟合则刚好相反，是由于统计模型使用的参数过少，以至于得到的模型难以拟合观测数据（训练数据）的现象。

我们总是希望在机器学习训练时，机器学习模型能在新样本上很好的表现。过拟合时，通常是因为模型过于复杂，学习器把训练样本学得“太好了”，很可能 把一些训练样本自身的特性当成了所有潜在样本的共性了 ，这样一来模型的泛化性能就下降了。欠拟合时，模型又过于简单，学习器没有很好地学到训练样本的一般性质，所以不论在训练数据还是测试数据中表现都很差。我们形象的打个比方吧，你考试复习，复习题都搞懂了，但是一到考试就不会了，那是过拟合；如果你连复习题都还没搞懂，更不用说考试了，那就是欠拟合。所以，在机器学习中，这两种现象都是需要极力避免的。

它对于训练数据非常准确，但是却很难适用于独立的测试数据。因为它规则过度（参数过多）拟合训练数据，它就很难推广到独立的测试数据——这就是一个过拟合的例子

3.3 Using probabilities

Naive Bayes: Use all the attributes
假设在决策过程中，所有属性是有平等的、独立的贡献。
独立指的是根据已知属性的值不能推测出其他属性的值。

Independence assumption is never correct!
But … often works well in practice

可以看到Weka对每个实例都加了个1，这是为了防止有些实例的概率是0，从而使最终结果为0

对于零次数问题 zero-frequency-problem, Weka的最常用的解决方案是在对每个数加1

3.4 Decision trees

J48是自上而下的归纳决策树(基于信息论去选择属性)
决策树算法原理：

Top‐down: recursive divide‐and‐conquer

Select attribute for root node
Create branch for each possible attribute value
Split instances into subsets
One for each branch extending from the node
Repeat recursively for each branch
using only instances that reach the branch
Stop
if all instances have the same class

每次选择信息增益做多的属性(你可以用很多标准来选择属性，这里使用的是信息增益)

需要修剪的情况是：原始的未修剪的决策树过度拟合训练数据集

如何剪枝How to prune?

Don’t continue splitting if the nodes get very small (J48 minNumObj parameter, default value 2)
Build full tree and then work back from the leaves, applying a statistical test at each stage
(confidenceFactor parameter, default value 0.25)
Sometimes it’s good to prune an interior node, raising the subtree beneath it up one level
(subtreeRaising, default true)
Messy … complicated … not particularly illuminating

修剪后决策树的结点变少，而且预测实例的准确率会更高，所以Weka默认是修剪的

修剪方法经常会大大简化决策树，就像乳腺癌 breast-cancer 例子

修剪pruning实际上是防止过拟合的一个通用技术

一般来说，J48是一个常见的有效的数据挖掘算法