选择后,输入百分比(默认为66%),点击Start。
此方法将训练集分为两部分,一部分做数据训练,一部分做数据测试。
输入的百分比为做数据训练的部分。
观察到产生了正确率为
95.098%的
的结果。
什么是训练数据和测试数据?训练数据经过机器学习算法(ML Algorithm)可以得到分类器,再将测试数据放入分类器,则可得到评估结果。训练集和测试集应来源于同一个数据集,但为两个不相交的集合。比如:将一个数据集的1/3作为测试集,2/3作为训练集。接下来通过一个简单的实验进一步理解训练与测试数据:1、打开Explorer界面,选择数据集segment-challenge.arff。2...
kdd99
数据集
之前介绍过,没有看的可以参考:KDD CUP99
数据集
预处理(Python实现)
这里拿 kdd99
数据集
练练手,主要目的是熟悉一下
weka
的使用。
1、
数据集
准备
使用
WEKA
作
数据
挖掘,面临的第一个问题往往是我们的
数据
不是 ARFF 格式的。幸好,
WEKA
还提供了对 CSV 文件的支持,而这种格式是被很多其他软件所支持的。
虽然
weka
也支持 csv 格式,但是建议还是转为 ARFF 格式最好。
1.1 简单打开一个 csv 文件(加载
数据
)
(1)加载
数据
方式
Instances trainingSet = DataSource.read(path);
//打乱顺序
trainingSet.randomize(new Random(0));
int trainSize = (int) Math.round(trainingSet.numInstances...
训练
数据
和
测试数据
是从相同的总体中取出独立样本,结果自然存在误差。但我们可以通过设定随机种子和重复实验来估算误差。还可以通过实验计算平均值和方差。
1、打开Explorer界面,选择
数据集
segment-challenge.arff。
2、打开classify面板,选择J48
分
类器。
3、将Percentage split按比划
分
设为90%,即
数据集
的90%为
训练集
,10%为
训练集
。点击“star...
Weka
数据
期末大作业是针对机器学习等相关领域的学生所设计的。通过该作业,学生可深入掌握
Weka
这一强大的
数据
挖掘工具,学习和掌握
数据
预处理、特征选择、
分
类器
训练
和模型评价等重要步骤,进一步掌握机器学习的理论和应用技能。
在完成
Weka
数据
期末大作业的过程中,学生首先需要了解
Weka
的基本操作和主要功能,掌握如何导入
数据
、预处理
数据
、特征选择、
分
类器
训练
以及模型评价等工作流程。其次,学生还需要根据具体的
数据集
确定适合的预处理和特征选择方法,如缺失值处理、标准化、归一化、降维、特征排除等。
接着,学生需要选择适合的
分
类器进行
训练
和优化,如决策树、朴素贝叶斯、支持向量机等,针对不同算法选择不同的参数和优化方法。然后,进行模型评价和性能
分
析,如准确率、精确率、召回率、F1值等指标,评价模型的鲁棒性和泛化能力。最后,根据评价结果对模型进行进一步优化。
总之,
Weka
数据
期末大作业是对学生应用机器学习知识和工具的综合考核,不仅需要掌握
Weka
的基本操作和主要功能,还要具备
数据
处理、特征选择、
分
类器
训练
和模型评价等关键技能。通过该作业的完成,学生能够深入理解机器学习的理论和应用,在实际
数据
分
析和挖掘过程中更具有实践能力。