雅虎搜索日志 雅虎搜索日志
搜索

俞士汶教授谈中文语言处理(二)

作者:俞士汶 北大教授 客座博客

3、中文分词技术当前面临的主要挑战是什么?互联网的发展和计算能力的提升对其发展有何帮助?

与理论探讨、算法设计、演示系统开发不同,互联网搜索引擎技术要求词语切分技术具有实战能力。在互联网上应用时,歧义切分(交叉歧义和组合歧义)的消解技术仍会碰到解决不了的难题。现在最棘手的可能是“新词”问题。“新词”可定义为词典或训练语料中没有的词。新词种类很多,人名、地名、机构名、商品名等实体名称必然不断有新的出现,简称或缩略语也是,比这些更难对付的是新出现的普通词语。“新词”识别和歧义切分消解有时也会纠结在一起。

从互联网很容易获取大量语料,可以用于训练或测试,这比从前方便多了。计算能力和网络技术的发展对汉语词语切分软件的开发和性能的提升肯定有帮助,譬如使用并行计算和分布式处理可以提高处理速度,促进切分软件实用化。不过,汉语词语切分的难题基本上属于自然语言表述的信息内容理解的层次,可能需要突破现有的计算机体系、期待人类认知过程的揭秘和新型智能信息系统的出现,机器求解才有可能达到与人类智能相媲美的程度。


4、如何判断不同中文分词系统的优劣?

无疑,正确率是最重要的指标。不过,很难以单一指标(如:正确率)评判汉语词语切分软件的优劣,在互联网上应用,速度也是一个重要的指标。适应不同的应用,需要量体裁衣,功能、性能指标不同的软件也自有各自适用的范围。


5、请介绍一下中文语言处理的国际性研究组织?SIGHAN中文分词竞赛是怎么回事?

为了严谨起见,我强调这里介绍的应该说是中国大陆以外的情况。

较早成立的有美国的“中文计算机协会”,至今已组织了20多次东方语言信息处理国际会议。第20次于2003年在我国东北大学召开。台湾于1998年成立计算语言学学会(Rocling),每年举行一次年会;并出版《中文计算语言学期刊》。新加坡于1991年成立“中文与东方语言信息处理学会”,现在一年出版4期《汉语语言与计算学报》(俞士汶是该杂志的联合主编)。

ACL(the Association for Computational Linguistics)是国际上最有影响的计算语言学学术组织。它有很多下属组织,如关于分析技术的SIGPARSE(the Special Interest Group on Natural Language Parsing)成立于1994年。关于中文信息处理的SIGHAN(the Special Interest Group on Chinese Language Processing, HAN乃“汉”的拼音)成立于2002年,每年跟随ACL举办一次研讨会(workshop)。SIGHAN于2003年、2005年、2006年组织了中文分词比赛,扩大了它的影响。北大计算语言所也为这些比赛提供过训练语料和测试语料,并参加了第一次比赛(只限于美国宾州大学语料),并取得开放测试第一名的好成绩。

顺便谈及国内,规模最大、影响最广的学术组织自然是“中国中文信息学会”,成立于1981年。今年11月将召开“中国中文信息学会成立二十五周年学术会议”。

发表于:2006年07月27日 11:20 | 全文 | 评论(2) | 引用通告(0)| 添加到雅虎收藏+

网友评论

ls的确实说的没有错,人类的认知能力现在还不能很好地数学刻画描述出来,所以就目前的研究成果来讲,基于统计的方法取得了令人比较满意的效果,当然这是在封闭测试的条件下,在开放测试的情况下不见得能够满足人们的需求,比如现在的web环境。
但是我也不能同意你所说的现在的检索引擎没有一点智能的说法,因为现在还是有一定的方法让检索引擎具有一定的智能,当然这个智能不见得有多高。虽然统计的方法可能在本质上与人类的知识积累还是不同的,但是在语料非常大的情况下,知识就具有普遍性,在统计上就能体现出显著性。就像一个小孩,虽然他不懂得思考,不只是判断是非对错,但是他可以去问别人对于这个知识的正确的认识,可能100个人和他开玩笑不告诉他真实的知识,但是随着人数的真假,比如他问了上万个人,这100个人的错误信息也就不足为惧了,这个小孩还是能够判断出正确的信息来。所以不见得出现一种新的研究自然语言的方法。语言学上有很多方法,但是对于计算机来说处理起来不见得方便有效。

发布者:spirit - 2007年12月03日 23:00

闲来无事,针对本文就"自然语言理解"发表一点评论.
前天读过一篇文章,讨论自然语言理解对搜索引擎的重要性.文中举了"为孩子写的书"和"孩子写的书"的例子.对目前的搜索引擎来说,这两个关键字几乎没有多大区别;但就人类对自然语言的理解而论,意义截然不同.为什么会这样呢?
许多人可能不了解,给我们提供海量信息的搜索引擎是没有知识的,她目前的智力水平还不及一只青蛙,甚至缺乏条件反射的能力.您可以闭眼想一想,当"为孩子写的书"出现在你的脑海中,您是如何处理的?您立即想到"科普读物"、"幼儿读物"、"卡通书"等等.为什么?因为您有知识库,通过翻阅这个知识库,您知道"幼儿读物"是为孩子写的书.
似乎有些不可理解?
在理解"为孩子写的书"时,您没有使用介词、动词、名词等等概念,可您一下就理解了.很奇妙吧.
目前自然语言理解的研究基本上是基于规则或者统计,与我们日常的理解方式完全不同,因而可以初步断定是没有前途的.
隐约的感觉是,可能会出现一种新的研究自然语言理解的方法,而且这种方法是基于知识库和"联想"的.....

发布者:urc9999 - 2006年12月08日 13:13

发表评论

名称
电子邮件地址(为了更好的解决您的问题,请填写邮箱地址,谢谢)

您的网络日志URL(可选)

评论
 

引用通告

此项的引用通告URL是:
http://ysearchblog.cn/cgi-bin/yblog/mt-tb.cgi/141
引用此项的网络日志
Copyright © 2008 Yahoo.com.cn 版权所有 不得转载  使用须知  京ICP证000022号