作者:陈朝晖 雅虎美国工程师
背景知识:搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。
首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页。搜索引擎需要根据算法从抓取的网页当中取其精华,去其糟粕,挑选出有价值的网页进行索引。因此,对用户而言,搜索引擎的索引量大小才更有意义。
其次,无限制增大索引量并不一定能保证搜索质量的提升。一方面,在全面性指标中,除索引量外,还需要考虑到收录网页的质量和不同类型网页的分布。另一方面,搜索引擎的质量指标体系要保证四方面的均衡发展,不是依靠单个指标的突破就可以改善的。目前包括雅虎中国在内的主流中文搜索引擎的网页索引量都在20亿量级,基本上可以满足用户的日常查询需求。
然而,由于从外部无法直接测算出搜索引擎网页索引量的绝对值大小,很多搜索引擎服务商喜欢对外夸大自己的收录网页数,作为市场噱头。从1998年开始,Krishna Bharat和Andrei Broder就开始研究,如何通过第三方来客观比较不同搜索引擎索引量的大小。8年后,在今年5月份的WWW2006大会上,来自以色列的Ziv Bar-Yossef和Maxim Gurevich由于这方面的出色研究成果夺得了大会唯一的最佳论文奖。他们的研究算出了主流英文搜索引擎的索引量相对大小:雅虎是Google的1.28倍,Google是MSN的1.36倍。他们是如何算出这些数字的呢?下面我们将为搜索引擎爱好者介绍这个算法,以及探讨在中文搜索引擎上是如何应用的。
概述
搜索引擎的索引量或称覆盖率对搜索结果的相关性、时效性和找到率都具有深远的影响。出于市场运作的考虑,各大互联网搜索引擎不时对外公布自己索引的文档数量,然而这些数据往往不同程度地被加入了一些水份,可信度上有一个问号。因此,如何通过搜索引擎的公共接口,也就是通常所说的搜索框,比较客观、准确地测试它的索引量就成为了一个令人关注的问题。

图1,对搜索引擎的索引采样
每一个搜索引擎的索引都覆盖了互联网上全部文档的一个子集。如果我们把测试作为对这个集合的采样,那么问题的关键就在于如何实现一个近似的等概率随机采样(uniform search engine url sampler),参见图1。具体地说,假定一个搜索引擎S总共索引了|D|个文档,那么我们希望采样得到某一个具体文档的概率是1/|D|。
一旦实现了通过搜索框对索引的等概率随机采样,我们就可以在统计意义上比较有把握地估计搜索引擎索引量的相对大小。如下图所示:

图2,比较搜索引擎索引的相对大小
我们先对引擎S1随机采样N1个url。然后,通过url查询获知引擎S2索引了其中的N12个url,而没有索引另外N10个。换句话说,N1 = N10+N12 。同样地,如果我们对引擎S2随机采样N2个url,发现其中N21被S1收录而N20没有收录,N2=N20+N21。那么我们可以估计S1与S2的相对大小为:
|D1|/|D2|
≌(N12+N10) / (N12+N12N20/N21)
=(N1N21)/(N2N12)
=N21/N12 (如果N1══N2)
待续...
还是不错的.继续加油
发布者:meteor - 2007年02月16日 9:27一个全新的天地,令人耳目一新。
发布者:lala - 2007年01月07日 14:48搜索引擎越来越成为人们关注的热点了,就连我们出版也关注搜索引擎了。
发布者:sunny - 2006年12月26日 10:01强烈期待全文。
发布者:lxx - 2006年12月17日 23:44文章的思路应该是通过两次的随机采样计算(S2-N12)的值.因为是等概率随机采样,所以我们可以近似认为N12=N21(如果N1=N2)
,因此N12*N20/N21近似等于(S2-N12)。但怎么实现随机采样,却不太好实现。如果N1、N2中选的URL都是比较知名的网站,则重合的机率会比较大,体现为N12和N21的在N1和N2中所占的比重会比较大。相反,如果N1、N2中选的URL都是不知名的站点,则重合的机率会比较小,体现为N12和N21的在N1和N2中所占的比重会比较小。其实不可能作到完全的随机采样,我的一点想法是将抓取的URL按照某种标准分类,对每一类URL赋一个权重。对每一类多次按照上文的方法进行计算,对每一类得到一个平均值。最后对每一类加权平均,就可以得到比较准确的结果,前提是通过上述方法尽可能的逼近随机采样。
以上只是我的胡说八道,希望大家指正。
索引量只是一个指标,不是判断一个搜索引擎好坏的唯一标准。尤其是对于国内的互联网环境,其内容的原创能力有限,相当多的文本和多媒体的内容,都是重复的。对于这些内容用海量的索引其意义仍然是有限的。绝大多数的搜索引擎用户在使用时,其关注的重点只是排名在前几位最多几十位的内容。大部分的内容都湮没掉了。而排名在前的会有鱼目,排名在后的也可能会有遗珠。如何去有效的发掘这些遗珠,对用户提供个性化的优质内容,我想应该是搜索引擎今后发展的一个重点和难点吧。
发布者:木木 - 2006年12月15日 1:18to zhaiduo
索引量大小和索引网页质量是两个概念。根据不同语言的网页总量,搜索引擎的索引量大小一般有个优化值,低于这个值,则不能保证查全,也无法保证最终的搜索质量。
我发现yahoo的索引量一般都比Google多得多,是不是就说明Google的能够找到更加精华的东西?
发布者:zhaiduo - 2006年12月14日 9:23难得一见的好东西,沙发又被我抢了
发布者:pinong - 2006年12月13日 10:57