您现在的位置: 首页» 科学研究» 科研成果
科研成果
中文信息处理技术平台
更新时间:2017-01-02 点击数:

   中文信息处理是我国实现国家信息化战略的基础性工作,是我国在世界信息技术领域里得天独厚的优势所在,也是我国必须始终保持世界领先水平的技术领域之一,是许多应用系统的基础性支撑平台。这些应用系统最核心的技术都取决于中文信息处理的基础研究,这些基础研究包括:中文分词、词性标注、句法分析、语义分析,语句或篇章的自动处理技术,中文信息资源的建设等。 特别是中文分词技术是中文特有的技术,是其他技术的最基本技术。

   从大规模中文文本中获取有用的信息,主要依靠中文信息处理技术。中文是我国自己的语言文字,特别是在互联网时代,中文信息处理技术是智能信息系统的基础,在智能检索、自动问答、机器翻译等系统中有着广泛的应用前景,是我们必须自行解决的核心技术。中文信息处理技术在历年的国家863高技术研究计划中,中文信息处理方面的相关课题一直得到重点资助。

   本项目依托山西大学多年在中文信息处理领域中的优势,特别是近年对汉语框架语义知识库的研究成果,开发基于开放网络环境的中文信息处理技术平台。中文信息处理技术开放平台将提供高效的中文语言处理模块,包括分词、词性标注、命名体识别、语块分析、语义分析等中文信息处理关键技术部分,并将基于网络服务(Web Service)标准接口形式对外提供服务。区别于目前国内外同类平台的技术,本平台将特别提供汉语框架语义知识库的框架语义自动标注工具。内容包括汉语框架的自动识别、框架语义角色自动标注。这是目前我们独有的技术。

 

3.2 主要内容

   本项目从20132月开始实施,从项目一开始,项目组就明确分工,层层落实,责任到人,每周例会讨论项目中遇到的问题,有效推进了项目的进展。

   我们课题研究小组紧跟国际计算语言学研究前言,学习、讨论自然语言处理领域国际顶级期刊和顶级国际会议相关论文50多篇,并将相关算法在面向中文文本数据处理中进行实验,消化和吸收国际前言语言处理技术,逐步建成针对中文文本数据的中文信息处理技术平台。

   具体工作内容有:首先,在山西大学高性能计算平台上实现了,条件随机场模型(CRF)、最大熵模型(ME)、支持向量机(SVM)三种智能分类器软件。实现了C/Fortran语言并行编译,实现了大型数据分析软件R系统的高性能计算;实现了我校最新研究的机器学习特征选择的OAS算法(基于正交表的特征选择算法),为大规模数据的机器学习提供一种通用的、基于并行计算的快速特征选择算法,有效提高了机器学习模型处理大规模中文本文数据分析能力。

其次,在上述基础上,完成了中文信息处理技术开放平台的建设,目前平台提供如下主要技术方法:

1)文本数据整理子系统:文本数据规范录入、数据整理子系统.

2)分词、词性标注、命名体识别子系统:分词和词性标注一体分析系统;使用条件随机场构建的分词系统;使用深层神经网络构建的分词系统.

3)句法分析: 基于规则的汉语基本块标注系统; 基于条件随机场的汉语基本块标注系统; 基于分布表征的汉语基本块边界识别;基于条件随机场的汉语功能块识别系统.

4)语义分析: 基于条件随机场的汉语框架语义角色标注; 基于词分布表征的汉语框架语义角色标注;汉语CFN框架自动识别系统.

5)词语表示: 提供了三种词语的分布式表示的向量,分别是C&W词表征;word2vecter词表征; GloVe 词表征.

6)应用系统: 阅读理解问题回答系统.

7)数据资源: 汉语框架语义知识库(CFN

8)统计机器学习数据的交叉验证方法: 1)均衡mx2交叉验证,针对单点分类问题,其中包含:方差计算,方差估计,切分方式计算等;2)基于均衡3x2交叉验证的F1值置信区间估计;3)均衡的RLT的语料切分方法;4)特征选择的OAS算法(基于正交表的特征选择算法).

  网站: http://nlp.sxu.edu.cn