作者:
徐冬冬
吴韶波
作者机构:
北京信息科技大学信息与通信工程学院
,
北京
100101
出版物刊名:
现代图书情报技术
页码:
39-48
页
年卷期:
2015
年
第
3
期
主题词:
文本分类
特征选择
TF-IDF
类别描述
摘要:
【目的】对特征权重公式进行改进,提高文本分类精度。
【方法】引入类内、类间信息并修正
TF-IDF
权重因子,得到基于类别描述的
TF-IDF-CD
方法。将其在偏斜文本集和均衡文本集下分别与
NB
、
KNN
等分类方法结合进行文本分类实验,比较其与
TF-IDF
、
CTD
等方法的分类精确度。
【结果】
TF-IDF-CD
方法在特征项较少时已有很好分类效果。相比
TF-IDF,
在不同文本集以及不同分类方法下,
其平均分类精度均有大幅提高,最低为
14
%,最高可达
30
%。与
CTD
相比,
TF-IDF-CD
与
NB
、
SVM
及
DT
结合后的平均分类精度均有
1
%
-13
%的提高。而在非均衡文本集下,
TF-IDF-CD
与
KNN
结合时其性能比
CTD
与
KNN
结合时低
2
%。
【局限】
TF-IDF-CD
与对文本集不均衡性较敏感的
KNN
结合时,其抗数据偏斜能力仍需改善。
【结论】实验结果表明,
TF-IDF-CD
特征选择方法有效,对
TF-
IDF
的改进具有一定借鉴意义。