学术论文

      基于字串内部结合紧密度的汉语自动抽词实验研究

      Chinese Word Extraction Based on the Internal Associative Strength of Character Strings

      摘要:
      自动抽词是文本信息处理中的重要课题之一.当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否.本文分别考察了九种常用统计量在汉语自动抽词中的表现,进而尝试将它们组合在一起,以期提高性能.为了达到尽可能好的组合效果,采用了遗传算法来自动调整组合权重.对二字词的自动抽词实验结果表明,这九种常用统计量中,互信息的抽词能力最强,F-measure可达54.77%,而组合后的F-measure为55.47%,仅比互信息提高了0.70%,效果并不显著.我们的结论是:(1)上述统计量并不具备良好的互补性;(2)通常情况下,建议直接选用互信息进行自动抽词,简单有效.
      作者: 罗盛芬 孙茂松
      作者单位: 智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京,100084
      刊 名: 中文信息学报 ISTICPKU
      年,卷(期): 2003, 17(3)
      分类号: TP391
      机标分类号: G35 U4
      在线出版日期: 2004年3月12日
      基金项目: 国家重点基础研究发展计划(973计划)