添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

作者:

徐冬冬

吴韶波

作者机构:

北京信息科技大学信息与通信工程学院

,

北京

100101

出版物刊名:

现代图书情报技术

页码:

39-48

年卷期:

2015

3

主题词:

文本分类

特征选择

TF-IDF

类别描述

摘要:

【目的】对特征权重公式进行改进,提高文本分类精度。

【方法】引入类内、类间信息并修正

TF-IDF

权重因子,得到基于类别描述的

TF-IDF-CD

方法。将其在偏斜文本集和均衡文本集下分别与

NB

KNN

等分类方法结合进行文本分类实验,比较其与

TF-IDF

CTD

等方法的分类精确度。

【结果】

TF-IDF-CD

方法在特征项较少时已有很好分类效果。相比

TF-IDF,

在不同文本集以及不同分类方法下,

其平均分类精度均有大幅提高,最低为

14

%,最高可达

30

%。与

CTD

相比,

TF-IDF-CD

NB

SVM

DT

结合后的平均分类精度均有

1

-13

%的提高。而在非均衡文本集下,

TF-IDF-CD

KNN

结合时其性能比

CTD

KNN

结合时低

2

%。

【局限】

TF-IDF-CD

与对文本集不均衡性较敏感的

KNN

结合时,其抗数据偏斜能力仍需改善。

【结论】实验结果表明,

TF-IDF-CD

特征选择方法有效,对

TF-

IDF

的改进具有一定借鉴意义。