作者:俞士汶 北大教授 客座博客
6、如何看待中文分词技术和中文搜索引擎两者之间的关系?
以“字索引”支撑的全文检索技术应用到网页检索之所以不再有昔日的辉煌就是因为互联网上的信息太多了,量变引起质变,提高查准率成为主要追求目标。对网页文本进行切分建立词索引为搜索引擎提供了新的发展机遇。现在,在Yahoo,Google,百度等网站上检索“华人”,给出的结果不再包含关于“中华人民共和国”的网页信息,就是搜索引擎技术有重要进展的体现。
不过有两点需要说明:
第一,这样的技术并非是中文特别需要的,对于英语,如果只对word作索引,要检索对应中文“笋”的“bamboo shoot”,会检索到大量分别同“bamboo”或“shoot”相关的网页,同样降低了检索“bamboo shoot”的正确率。
第二,不正确的切分对查准率和查全率都有损害,还是举第2个问题答案中的例子,用户键入“白天鹅”,原本要检索“白色的天鹅”,如果切分成“白天/ 鹅/ ”,岂非“失之毫厘,谬以千里”。
7、什么是中文命名实体的抽取技术?它和分词技术之间有什么关系?
2006年SIGHAN在其组织的比赛中增加了中文命名实体识别的项目。所谓命名实体在文本中就是指人名、地名、机构团体名称、商品名称等专有名词。因为它们通常具有唯一性,在信息检索、信息提取等应用系统中受到特别的重视(当然要另有办法解决难以完全避免的重名问题)。比SIGHAN早很多,TREC (Text REtrieval Conference)也组织过这类项目的比赛。
命名实体识别或者说抽取就是把这些专有名词从文本或语句中分离出来。不难理解,命名实体抽取和词语切分需要融合处理。由于词典或训练语料的有限性,命名实体识别常常表现为新词识别。机构团体的名称通常很长,常由既有的切分单位组合而成。如果先做命名实体识别,对于由很多词组成的单位名称,又有进一步切分的必要。有时,专有名词与普通名词的词形并无区别,如“凤凰卫视中文台”及其简称“凤凰台”是实体的专名,而其中的“凤凰”、“卫视”、“中文台”都是普通名词,“卫视”又是“人造卫星转播电视”的缩略语,这些问题纠缠在一起,无论中文命名实体抽取还是一般意义上的词语切分都还有深入研究的必要。
高深
发布者:cong - 2006年08月01日 12:06