学术论文

      基于随机森林模型的成分数据缺失值填补法

      Imputation of Missing Values for Compositional Data Based on Random Forest

      摘要:
      缺失数据处理是数据挖掘领域中进行数据预处理的一个重要环节,由于成分数据特殊的几何性质,传统的缺失值填补方法不能直接用于这种类型的数据.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,本文利用了成分数据和欧氏数据之间的关系,提出了一种基于随机森林的成分数据缺失值迭代填补法,该方法的实施和评估采用模拟和真实的数据集.实验结果表明:新的填补方法可广泛应用于多种类型的数据集且具有较高准确性.
      作者: 张晓琴 程誉莹
      Author: ZHANG XiaoQin CHENG YuYing
      作者单位: 山西大学数学科学学院,太原,030006
      刊 名: 应用概率统计 ISTICPKU
      年,卷(期): 2017, 33(1)
      分类号: O212.1
      在线出版日期: 2017年3月31日
      基金项目: 山西省高等学校教学改革项目,山西省自然科学基金面上项目,山西省国际科技合作计划项目