添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

什么是训练数据和测试数据?
训练数据经过机器学习算法(ML Algorithm)可以得到分类器,再将测试数据放入分类器,则可得到评估结果。

在这里插入图片描述
训练集和测试集应来源于同一个数据集,但为两个不相交的集合。比如:将一个数据集的1/3作为测试集,2/3作为训练集。

接下来通过一个简单的实验进一步理解训练与测试数据:
1、打开Explorer界面,选择数据集segment-challenge.arff。
2、打开classify面板,选择J48分类器。
在这里插入图片描述

3、观察Test options面板,共有4种方式来评价模型效果,分别是:
Use traning set 使用训练集 Supplied test set设置测试集 Cross-validation交叉验证 Percentage split按比划分
以下将介绍四种方法的区别。

●使用训练集

选择后,点击start。
在这里插入图片描述
在这里插入图片描述 观察到产生了正确率为 99% 的结果。
这种方式使用得较少,得到的结果
误导性
很强。
因为这种方法中,训练集和测试集相同。

●设置提供的测试集

选择后,点击set并选中测试集 segment-test.arff ,点击start。
在这里插入图片描述
在这里插入图片描述 观察到产生了正确率为 96.1728%的 结果。

●交叉验证

当Folds为10时,会将数据集随机分为10份。
假设分别为:S1、S2、S3、S4…S10。
将S1 S9作为训练集创建模型M1,用S10作为测试集来评价模型的效果,并得到错误率F1;将S1 S8及S10作为训练集创建模型M2,用S9作为测试集来评价模型的效果,并得到错误率F2;将S1 S7及S9 S10作为训练集创建模型M2,用S8作为测试集来评价模型的效果,并得到错误率F3…
如此循环共10次,得到10个错误率。最终将10份数据放在一起构建一个模型,错误率为10个错误率的平均值。

将Folds设置为10,并点击“Start”。
在这里插入图片描述
观察到产生了正确率为 95.7333%的 结果。

再将Folds设置为 100 ,并点击“Start”。
在这里插入图片描述
观察到产生了正确率为 96.8%的 结果。正确率得到了提升。
此方法的准确性会比前几种高,但当数据量很大时,计算速度会较慢。

●按比划分

选择后,输入百分比(默认为66%),点击Start。
此方法将训练集分为两部分,一部分做数据训练,一部分做数据测试。
输入的百分比为做数据训练的部分。

在这里插入图片描述
在这里插入图片描述
观察到产生了正确率为 95.098%的 的结果。

什么是训练数据和测试数据?训练数据经过机器学习算法(ML Algorithm)可以得到分类器,再将测试数据放入分类器,则可得到评估结果。训练集和测试集应来源于同一个数据集,但为两个不相交的集合。比如:将一个数据集的1/3作为测试集,2/3作为训练集。接下来通过一个简单的实验进一步理解训练与测试数据:1、打开Explorer界面,选择数据集segment-challenge.arff。2... kdd99 数据集 之前介绍过,没有看的可以参考:KDD CUP99 数据集 预处理(Python实现) 这里拿 kdd99 数据集 练练手,主要目的是熟悉一下 weka 的使用。 1、 数据集 准备 使用 WEKA 数据 挖掘,面临的第一个问题往往是我们的 数据 不是 ARFF 格式的。幸好, WEKA 还提供了对 CSV 文件的支持,而这种格式是被很多其他软件所支持的。 虽然 weka 也支持 csv 格式,但是建议还是转为 ARFF 格式最好。 1.1 简单打开一个 csv 文件(加载 数据 ) (1)加载 数据 方式 Instances trainingSet = DataSource.read(path); //打乱顺序 trainingSet.randomize(new Random(0)); int trainSize = (int) Math.round(trainingSet.numInstances...
训练 数据 测试数据 是从相同的总体中取出独立样本,结果自然存在误差。但我们可以通过设定随机种子和重复实验来估算误差。还可以通过实验计算平均值和方差。 1、打开Explorer界面,选择 数据集 segment-challenge.arff。 2、打开classify面板,选择J48 类器。 3、将Percentage split按比划 设为90%,即 数据集 的90%为 训练集 ,10%为 训练集 。点击“star...
Weka 数据 期末大作业是针对机器学习等相关领域的学生所设计的。通过该作业,学生可深入掌握 Weka 这一强大的 数据 挖掘工具,学习和掌握 数据 预处理、特征选择、 类器 训练 和模型评价等重要步骤,进一步掌握机器学习的理论和应用技能。 在完成 Weka 数据 期末大作业的过程中,学生首先需要了解 Weka 的基本操作和主要功能,掌握如何导入 数据 、预处理 数据 、特征选择、 类器 训练 以及模型评价等工作流程。其次,学生还需要根据具体的 数据集 确定适合的预处理和特征选择方法,如缺失值处理、标准化、归一化、降维、特征排除等。 接着,学生需要选择适合的 类器进行 训练 和优化,如决策树、朴素贝叶斯、支持向量机等,针对不同算法选择不同的参数和优化方法。然后,进行模型评价和性能 析,如准确率、精确率、召回率、F1值等指标,评价模型的鲁棒性和泛化能力。最后,根据评价结果对模型进行进一步优化。 总之, Weka 数据 期末大作业是对学生应用机器学习知识和工具的综合考核,不仅需要掌握 Weka 的基本操作和主要功能,还要具备 数据 处理、特征选择、 类器 训练 和模型评价等关键技能。通过该作业的完成,学生能够深入理解机器学习的理论和应用,在实际 数据 析和挖掘过程中更具有实践能力。