学术论文

      基于动态聚类的Rough集快速离散化算法

      Quick Discretization Algorithm for Rough Set Based on Dynamic Clustering

      摘要:
      为处理大数据量决策表的离散化问题,设计高效的离散化算法是必要的.根据候选断点在单属性上重要性值的分布规律,提出了"先动态聚类,再选择候选断点"的思路和基于Rough集的快速离散化算法.首先,根据断点的重要性在单个特征上的分布规律,对断点进行快速动态聚类,从而有效降低候选断点的数目;然后,在聚类结果的基础上,采用启发式方法快速选择并得到最终的断点集,从而实现决策表的离散化.试验结果表明:通过动态聚类,多数数据集候选断点的数目能减少80%以上,大大提高了后续断点选择的效率;用提出的算法处理7个UCI数据集Iris、Wine、Glass、Ecoli、Breast_w、Pima和Letter,其正确识别率分别约为92.0%、92.1%、69.3%、65.7%、95.3%、67.1%和76.5%.
      作者: 胡峰 [1] 王国胤 [1] 代劲 [2]
      Author: HU Feng [1] WANG Guoyin [1] DAI Jin [2]
      作者单位: 西南交通大学信息科学与技术学院,四川,成都,610031;重庆邮电大学计算机科学与技术研究所,重庆,400065 重庆邮电大学计算机科学与技术研究所,重庆,400065
      刊 名: 西南交通大学学报 ISTICEIPKU
      年,卷(期): 2010, 45(6)
      分类号: TP18
      机标分类号: TP1 O22
      在线出版日期: 2011年3月23日
      基金项目: 国家自然科学基金资助项目,重庆市重点自然科学基金资助项目,重庆市杰出青年基金资助项目,重庆市教育委员会科学技术研究项目