中文信息抽取工具调研
1.机构调研
南京大学自然语言处理研究组
网址:http://nlp.nju.edu.cn/homepage
方向涉及汉语的分词、命名实体识别、组块分析、句法分析、指代消解、信息抽取和文本分类、统计机器翻译、情感分析等。除发表论文外,部分工作成果参加了国内外组织的评测,取得了很好的成绩。其中,中文分词、命名实体识别、统计机器翻译等系统都曾在国内外评测中名列前茅。
注:网站上的演示不能用了。
清华大学智能技术与系统国家实验室自然语言处理组
网址:http://nlp.csai.tsinghua.edu.cn
演示系统包括分词、分词标注、文本聚类
网站提供的词表资源已经下载,文件。
在线演示系统
- 清华大学中文分词和词性标注系统演示(THULAC)
- 清华大学中文分词演示系统(Thu-Cws v1.0)
系统采用C++语言编写,支持跨平台的应用。清华大学中文分词演示系统(Thu-Cws v1.0)采用现今流行的条件随机场方法,结合预先给定的已切分好的训练集,进而训练出高效准确的分词模型,再利用该分类模型对测试样本进行切分,最后使 用一系列后处理算法对中文分词结果进行修正,完成整个分词过程。
- 清华大学中文文本分类演示系统(Thu-Ctc v1.0)
系统采用Java语言编写,系统使用中文大百科分类体系(55个类别)标注的近10万篇文档。清华大学中文文本分类演示系统(Thu-Ctc v1.0)采用现今流行的支持向量机方法,结合预先给定的有标记的训练集,进而训练出高效准确的分类模型,最后利用该分类模型对测试样本进行分类,完成整个分类过程。
北京大学计算语言学研究所
研究包括如下三个主要的方向:
- 基础资源的研究与建设:计算词典学与机器词典,综合型语言知识库,语料库语言学与语料库加工技术,术语学、术语自动提取、术语标准化研究等。
- 基础理论、NLP的模型和方法:计算语言学基础,自然语言处理核心技术,现代汉语语法,汉语的词/句法/语义分析,NLP统计模型,语言处理的信息论方法等。
- 基础应用技术:机器翻译的方法、技术与系统实现,信息检索与提取,自然语言信息处理系统的评价方法和技术,受限汉语及其辅助写作系统,中国古诗词计算机辅助研究等。
网站上有些词表数据,但是无法下载。需要ftp的用户名与密码。
哈尔滨工业大学信息检索研究室
- 语言技术平台(LTP, Language Technology Platform)
语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口,可视化工具,并且能够以网络服务(Web Service)的形式进行使用。
中科院自动化所模式识别国家重点实验室语音语言技术研究组
上海交通大学APEX数据和知识管理实验室
大连理工大学信息检索实验室
2. 国外项目
- 英国的AKD项目(Advanced Knowledge Technologies)
- 欧盟SEKT项目(Semantically Enabled Knowledge Technologies)
- DARPA的RKF(快速知识形成
- HALO
- 评测会议
- 文本信息理解评测会议(MUC)
- ACE-自动内容抽取评测会议
与 MUC 相比,目前的 ACE 评测不针对某个具体的领域或场景,采用基于漏报(标准答案中有而系统输出中没有)和误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统跨文档处理(Cross-document processing)能力进行评测。 这一新的评测会议将把信息抽取技术研究引向新的高度。
MET(DARPA发起的一个评测项目)
DUC(DARPA的TIDES基础上发起的项目
3.论文调研
信息抽取的类型
- 基于NLP的信息抽取
- 基于规则的信息抽取
- 基于统计规模的信息抽取
隐马尔科夫模型,最大熵模型,条件随机场,支持向量机
- 基于认知模型的信息抽取
- 基于本体
- 基于知网
- 基于HNC理论
4.大型语料库
- 国家现代汉语语料库(页面不可访问)
- 台湾平衡语料库
- 香港理工大学中港台汉语语料库
5.知识介绍
自然语言处理
主要研究内容包括:语言计算(语音与音位、词法、句法、语义、语用等各个层面上的计算),语言资源建设(计算词汇学、术语学、电子词典、语料库、知识本体等),机器翻译或机器辅助翻译,汉语和少数民族语言文字输入输出及其智能处理,中文手写和印刷体识别,中文语音识别及文语转换,信息检索,信息抽取与过滤,文本分类、中文搜索引擎,以自然语言为枢纽的多媒体检索,与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究,与语言计算相关的语言学研究。
信息抽取
命名实体识别(name entity,NE)
判断一个文本串是否代表一个命名实体,并确定它的类别。在信息抽取研究中,命名实体识别具有非常直接的实用价值,在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进行检索的可能。对于许多语言处理系统,命名实体识别都是其中一个很重要的部分,是目前最有实用价值的一项技术。早期主要采用属于规则的方法,随着计算机计算速度的加快和大量熟语料的出现,使得统计方法成为实现命名实体识别的主流方法,如基于HMM的方法,最大熵模型等。HMM方法被认为更容易捕捉局部的语言现象,成为更多研究者的选择,尤其是用于己有的汉语命名实体识别系统中
发表评论