添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

表示有30个叶子节点,共有59个节点。

Correctly Classified Instances         143               66.8224 %
Incorrectly Classified Instances        71               33.1776 %

表示有66.8224%的样例被正确分类了。

=== Detailed Accuracy By Class ===
                 TP Rate  FP Rate  Precision  Recall   F-Measure  MCC      ROC Area  PRC Area  Class
                 0.714    0.174    0.667      0.714    0.690      0.532    0.806     0.667     build wind float
                 0.618    0.181    0.653      0.618    0.635      0.443    0.768     0.606     build wind non-float
                 0.353    0.046    0.400      0.353    0.375      0.325    0.766     0.251     vehic wind float
                 0.000    0.000    0.000      0.000    0.000      0.000    ?         ?         vehic wind non-float
                 0.769    0.010    0.833      0.769    0.800      0.788    0.872     0.575     containers
                 0.778    0.029    0.538      0.778    0.636      0.629    0.930     0.527     tableware
                 0.793    0.022    0.852      0.793    0.821      0.795    0.869     0.738     headlamps
Weighted Avg.    0.668    0.130    0.670      0.668    0.668      0.539    0.807     0.611     
=== Confusion Matrix ===
  a  b  c  d  e  f  g   <-- classified as
 50 15  3  0  0  1  1 |  a = build wind float
 16 47  6  0  2  3  2 |  b = build wind non-float
  5  5  6  0  0  1  0 |  c = vehic wind float
  0  0  0  0  0  0  0 |  d = vehic wind non-float
  0  2  0  0 10  0  1 |  e = containers
  1  1  0  0  0  7  0 |  f = tableware
  3  2  0  0  0  1 23 |  g = headlamps

代表有7种类别的玻璃,对角线矩阵表示正确的分类。

更改配置信息:点击“J48-U-M 2”,将unpruned(未修剪)改成true

重新点击start,得到新的运行结果。(未修剪的决策树运行的结果)

Correctly Classified Instances         144               67.2897 %
Incorrectly Classified Instances        70               32.7103 %

此时得到正确的分类率为67.2897%>66.8%.

继续更改配置信息:minNumObj:每个叶节点所含实例的最少数量。

我们把它更改为大一点的数字15

改之前的数据:(6.0)表示叶节点所含实例的数量

(5.0/1.0)表示这个叶节点包含一个错误的分类实例和5个正确的分类实例。

 Si <= 72.49
|   |   |   |   Ca <= 8.28: build wind non-float (6.0)
|   |   |   |   Ca > 8.28: vehic wind float (5.0/1.0)

更改最小实例为15个过后的结果。此时发现正确的分类率仅仅61.215%,错误的分类比较多,比如(15/6),表示这个叶节点有15个正确的分类,6个错误的分类。

J48 unpruned tree
------------------
Ba <= 0.27
|   Mg <= 2.41
|   |   K <= 0.12: tableware (15.0/6.0)
|   |   K > 0.12: containers (20.0/8.0)
|   Mg > 2.41
|   |   Al <= 1.41
|   |   |   RI <= 1.51727: vehic wind float (16.0/9.0)
|   |   |   RI > 1.51727
|   |   |   |   K <= 0.23: build wind float (27.0/8.0)
|   |   |   |   K > 0.23
|   |   |   |   |   Mg <= 3.66: build wind float (41.0/5.0)
|   |   |   |   |   Mg > 3.66: build wind non-float (16.0/3.0)
|   |   Al > 1.41: build wind non-float (50.0/10.0)
Ba > 0.27: headlamps (29.0/3.0)
Number of Leaves  : 	8
Size of the tree : 	15
Correctly Classified Instances         131               61.215  %

图可视化:右击鼠标,选择“Visualize tree”

此时我们得到一个可视化的决策树。

如果Ba的含量高,则分类为headlamps。

如果Ba的含量低,我们继续看Mg的含量,如果Mg的含量低,我们继续看K的含量,如果K的含量低,则分类为tableware.

点击“more”,将会展示更多关于J48决策树分类器的信息。

J48分类器的信息

导入glass.arff数据,选择“Classify”中的J48分类器。点击“start”,等一会儿将会出现运行结果表示有30个叶子节点,共有59个节点。Correctly Classified Instances 143 66.8224 %Incorrectly Classified Instances ... 目前正在做机器学习数据分析,遇到基于 决策树 的方法,但是论文中很多都提到 j48 ,在网上找到的资料大多都是c4.5,让人很疑惑,这篇博客受启发于一篇论文,我在其中找到了答案。 C4.5 决策树 算法: C4.5是一种 决策树 算法,是对Quinlan [17]开发的早期ID3算法的扩展。。通过基于最大化标准化信息增益的属性的选择来确定性地划分训练分区的过程来构造 决策树 。在添加每个拆分之后,将IF–THEN节点添加到当前 决策树 。树的每个分支将(训练)数据划分为子集,目的是识别具有相同标签的子集。此过程的递
1、 J48 原理   基于从上到下的策略,递归的分治策略,选择某个属性放置在根节点,为每个可能的属性值产生一个分支,将实例分成多个子集,每个子集对应一个根节点的分支,然后在每个分支上递归地重复这个过程。当所有实例有相同的分类时,停止。   问题:如何选择根节点属性,建立分支呢?   例如:weather.arff   我们希望得到的是纯分裂,即分裂为纯节点,希望找到一个属性,它...
文章目录一、构建训练集与检验集二、 J48 构建 决策树 三、tree构建 决策树 四、混淆矩阵五、随机森林 三种属性选择度量:信息增益(ID3)、增益率(C4.5)、基尼指数(CART) ID3:Iterative Dichotomiser(迭代的二分器),利用增益比不纯性,树采用二叉树,停止准则为当所有的记录属于同一类时,停止分裂;或当所有的记录都有相同的属性时,停止分裂 C4.5:ID3的改进版,也是最流行的 决策树 算法,采用多重分枝和剪枝技术。 CART:Classification and Regress
任务4 - 模型评估(2天) 记录5个模型(逻辑回归、SVM、 决策树 、随机森林、XGBoost) 关于accuracy、precision,recall和F1-score、auc值的评分表格 import numpy as np import pandas as pd data=pd.read_csv(r'/Users/dongxiaojie/Documents/广东1810成绩/data2.cs...
Weka 分类器 结果的指标根据所选择的测试模式,显示不同文字。例如,如果选择十折交叉验证,显示Stratified cross-validation;如果选择 使用 训练集,显示Classifier model(full training set),等等。由于评估内容较多,将结果分解显示如下。 1.Summary(总结):一个统计列表,根据所选择的测...
1 决策树 流程 决策树 遵循的是“分而治之”的策略流程。 2 信息熵信息熵(information entropy),是衡量事物不确定的指标。 Ent(D)=−∑k=1|y|pklog2pk\displaystyle \mathrm {Ent} (D)=-\sum _{k=1}^{|y|}{\mathrm {p_klog_2p_k} } 在信息增益度量中,熵值越小越好。3 CART 决策树 CART,
Correctly Classified Instances :正确分类的实例 Incorrectly Classified Instances :错误分类的实例 Kappa statistic:就是假设有两个相互独立的人分别将N个物品分成C个相互独立的类别,如果双方结果完全一致则K值为1,反之K值为0; Mean absolute error :就是把N次实验的绝对误差...
分类模型的准确性可用如下一系列的指标综合判断或者找出模型或者数据中的一些不合理的地方 1、Correctly Classified Instances(正确分类实例):正确分类的实例的绝对数量和百分比 2、Incorrectly Classified Instances(错误分类的实例):错误分类的实例的绝对数量和百分比 3、Kappa statistic(Kappa 统计 或称 Kappa