学术论文

      基于中文拼音输入法数据的汉语方言词汇自动识别

      Automatic Identification of Chinese Dialect Based on the Data from Chinese Pinyin Input Method

      摘要:
      方言研究领域中的语音研究、词汇研究及语法研究是方言研究的三个重要组成部分,如何识别方言词汇,是方言词汇研究首要的环节.目前,汉语方言词汇研究的语料收集与整理主要通过专家人工整理的形式进行,耗时耗力.随着信息技术的发展,人们的交流广泛通过网络进行,而输入法数据包含海量的语料资源以及地域信息,可以帮助进行方言词汇语料的自动发现.然而,目前尚没有文献研究如何利用拼音输入法数据对方言词汇进行系统化分析,因此在本文中,我们探讨借助中文输入法的用户行为来自动发现各地域方言词汇的方法.特别的,我们归纳得到输入法数据中表征方言词汇的两类特征,并基于对特征的不同组合识别方言词汇.最后我们通过实验评价了两类特征的不同组合方法对方言词汇识别效果的影响.
      作者: 张燕 [1] 张扬 [2] 孙茂松 [1]
      Author: ZHANG Yan [1] ZHANG Yang [2] SUN Maosong [1]
      作者单位: 清华大学计算机系,北京,100084 搜狗科技公司,北京,100084
      刊 名: 中文信息学报 ISTICPKU
      年,卷(期): 2013, 27(5)
      分类号: TP391
      机标分类号: TP3 TN9
      在线出版日期: 2013年11月18日
      基金项目: 国家自然科学基金重点资助项目,国家863计划资助项目