学术论文

      基于无指导学习策略的无词表条件下的汉语自动分词

      Chinese Word Segmentation without Using Dictionary Based on Unsupervised Learning Strategy

      摘要:
      探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统有所裨益.全部分词知识源自从生语料库中自动获得的汉字Bigram.在字间互信息和t-测试差的基础上,提出了一种将两者线性叠加的新的统计量md,并引入了峰和谷的概念,进而设计了相应的分词算法.大规模开放测试结果显示,该算法关于字间位置的分词正确率为85.88%,较单独使用互信息或t-测试差分别提高了2.47%和5.66%.
      作者: 孙茂松 [1] 肖明 [1] 邹嘉彦 [2]
      作者单位: 清华大学智能技术与系统国家重点实验室,北京,100084 香港城市大学语言资讯科学研究中心,香港
      刊 名: 计算机学报 ISTICEIPKU
      年,卷(期): 2004, 27(6)
      分类号: TP391
      机标分类号: TP3 TP1
      在线出版日期: 2004年7月22日
      基金项目: 国家自然科学基金