作者:agentzh
分子遗传学家们喜欢把不同物种的DNA序列放到一起,比较它们的相似性,从而作为物种亲缘关系远近的判断依据之一。伴随着"SearchAll,我搜去!"插件0.4.12版的发布,我们现在也可以把各家搜索引擎的"DNA"放到一起,绘出它们之间相同的地方,从而考察它们幕后索引算法的相似度。
那么该如何定义搜索引擎的DNA呢?为简单起见,不妨将它们在某个查询下返回的结果页列表作为DNA,而每一个结果项所对应的网址则是DNA中的基本单元(或者说,核糖核苷)。举例来说,在yahoo.cn中搜索"刘德华",会得到下面的结果列表(第一页):
作者:章亦春 何远银
在信息快速膨胀的今天,搜索引擎已成为我们每天用得最多的工具之一。然而,在使用搜索引擎的过程中我们会发现,自己经常使用的搜索引擎搜出来的结果并不总是让我们满意。在需要更多更全的结果的时候,我们会尝试第二个,甚至第三个。而对于搞搜索的同事们来说,可能比较各家搜索引擎的结果是日常工作中的重要组成部分,于是更需要非常快捷和便利的工具。为此,咱们中国Yahoo的EEEE hacking小组搞了一个很酷的Firefox浏览器插件,叫做SearchAll,又名“我搜去”。
安装SearchAll的过程非常简单。您只需要先从这个位置下载Firefox浏览器,然后在Firefox中打开下面的页面
https://addons.mozilla.org/zh-CN/firefox/addon/5712
最后点击那个绿色的“安装”按钮就开始安装过程了。
SearchAll是一款便捷的搜索引擎并行比较工具(side-by-side)。用户在工具栏上输入查询词,SearchAll会自动到指定的多家搜索引擎的网站上去查询,并将得到的结果以多种形式呈现给用户。SearchAll还会自动为用户,在各家搜索引擎中完成点击"下一页"和"上一页"的动作。
......[查看全文]作者:雅虎搜索日志小组
近期有很多站长咨询,怎样正确设置"robots.txt"文件。为了解决广大站长朋友们的疑问,我们对《Robots.txt 协议标准》进行了翻译,希望此篇译文能够帮助大家对"robots.txt"文件有更深的了解。
Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。
下面我们就来详细介绍一下它的使用方法:
作者:Winter 工程师
这年头,你问只蚂蚁,蚂蚁也会说,最近我很忙!但侯捷老师来雅虎中国讲座就讲了四天,我也听了四天,而且是周二到周五(没有用周末的说~~),够奢侈吧?!感谢党,感谢CCTV,感谢雅虎中国……

作者:陈朝晖 雅虎美国工程师
搜索引擎索引的等概率随机采样:Ziv Bar-Yossef 等人的方法介绍
对于搜索引擎等概率随机采样的研究已经有了相当长的历史,具体的背景文献我们不准备在这里一一探讨。我们希望通过对Bar-Yossef等人最近工作的介绍,把一种比较客观、科学的测试方法推介给读者。我们也会探讨他们的方法对于中文索引的局限性和一些解决方案。

图3,一个简化的搜索引擎索引
图3给出了一个简化了的搜索引擎索引示例,假定关键字“news”将返回4个结果:www.cnn.com、news.google.com、www.foxnews.com和news.bbc.co.uk。
首先我们给出一组定义
......[查看全文]作者:陈朝晖 雅虎美国工程师
背景知识:搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。
首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页。搜索引擎需要根据算法从抓取的网页当中取其精华,去其糟粕,挑选出有价值的网页进行索引。因此,对用户而言,搜索引擎的索引量大小才更有意义。
其次,无限制增大索引量并不一定能保证搜索质量的提升。一方面,在全面性指标中,除索引量外,还需要考虑到收录网页的质量和不同类型网页的分布。另一方面,搜索引擎的质量指标体系要保证四方面的均衡发展,不是依靠单个指标的突破就可以改善的。目前包括雅虎中国在内的主流中文搜索引擎的网页索引量都在20亿量级,基本上可以满足用户的日常查询需求。
然而,由于从外部无法直接测算出搜索引擎网页索引量的绝对值大小,很多搜索引擎服务商喜欢对外夸大自己的收录网页数,作为市场噱头。从1998年开始,Krishna Bharat和Andrei Broder就开始研究,如何通过第三方来客观比较不同搜索引擎索引量的大小。8年后,在今年5月份的WWW2006大会上,来自以色列的Ziv Bar-Yossef和Maxim Gurevich由于这方面的出色研究成果夺得了大会唯一的最佳论文奖。他们的研究算出了主流英文搜索引擎的索引量相对大小:雅虎是Google的1.28倍,Google是MSN的1.36倍。他们是如何算出这些数字的呢?下面我们将为搜索引擎爱好者介绍这个算法,以及探讨在中文搜索引擎上是如何应用的。
......[查看全文]作者:张克军 用户体验部
美国雅虎前端工程师Hedger Wang在感恩节那天来到北京。这位原雅虎奇摩的第一位Web Developer,非常慷慨的与我们分享了他丰富的经验。现身说法,比空洞的理论更有感染力,我们发现现在遇到的很多问题也都是他曾经遇到过的。美国雅虎里面Web Developer是一个更帖近用户的前端工程师角色,他们负责把UI和产品功能逻辑整合起来,并增强产品易用性和交互体验。
在他的信息架构(Information Architecture)培训中讲到,像雅虎几百人在一起做产品,内部更需要速度和效率,更需要团队的协同和专业化。以往的开发流程是单线程的,产品经理向设计师提出设计需求,设计师开始设计然后和产品经理反复讨论并定稿,再交给Web Developer转成HTML模板,之后,将模板发给前端工程师开发,前端工程师需要后端提供数据,再将需求提给后端工程师。这时候,Web Developer只能祈祷别把本来写得挺标准的模板破坏。于是,每启动一个项目,哪怕是功能很类似的项目,都要走一遍这样的流程。显然,做法不是高效的,而且在每个环节上都很容易出问题,就像玩多米诺骨牌,任何一个小牌倒了就都白费了。
“Bottom Up Approach”,对!Web开发由下而上实现才是合理的。产品经理在现有系统和现有技术的基础上,策划产品,细化产品流程,最终确定产品都具有哪些功能。这些做好之后,前端工程师就可以开工了。比如,所有页面都有一个登录模块,直接写成这样就可以了:
......[查看全文]作者:张克军 用户体验部
在掌握了XHTML的基本知识后,要理解语义化的概念。在流程化的产品前端开发中,模板是传递最频繁的,因此,模板的质量是影响前端开发的重要因素。Web标准是衡量模板质量的指标之一,另一方面语义化的XHTML也是提高效率的有效方法。
语义化的XHTML代码不仅对人是友好的。对搜索引擎也是友好的。使用语义化的XHTML可以很快从代码上了解一个页面的结构,而不是从表现上了解一个页面的结构。
作者:张克军 用户体验部
在Web标准的理念下,雅虎前端开发模式将会发生改变。通过下图可以看到前端将被分为四个层次:
这个层次模型对应着前端工程师将数据逻辑整合到页面模板中的步骤:服务器端行为(获取数据)、提取内容(纯粹的内容)、添加标记(原始风格)、添加表现控制(设计后风格)。
其中“添加标记”部分就是用XHTML构建文档的结构,“添加表现控制”就是在结构的基础上用CSS将表现效果添加进来。这样产品的内容、结构、表现就相互脱离了,编辑维护静态内容,前端工程师提供动态内容,网站开发工程师实现结构和表现,同步开发,相互配合,互不干扰。
作者:张克军 用户体验部
小编按:最近看到搜索日志上有不少朋友对雅虎的网页设计模式感兴趣,我们的设计师张克军也不禁手痒,和大家分享一些他在建设网站方面的心得,希望和对此感兴趣的朋友交流。设计师嘛,思维总是跳跃性的,不知您在阅读时能否感受到:)
传统的网站前端展现应该说是没有层次的,前端工程师直接将服务器端脚本和HTML近乎毫无规律地混合起来,HTML构建的结构很容易被破坏,直接影响前端的展现和日后的维护。直到CSS的出现后才略有改观,目前CSS正式推出的有两个版本CSS1和CSS2, CSS1是1996年制定的,CSS2是1998年制定,CSS3正在制订中尚未推出。由于CSS是滞后于HTML出现的,因此早期的浏览器对CSS的支持不足,导致很多网站制作同仁过度依赖HTML控制页面的视觉表现。
......[查看全文]作者:俞士汶 北大教授 客座博客
8、随着中文信息数字化进程的加快,特别是搜索引擎行业的发展,对中文语言处理人才的需求在加大,请介绍一下目前国内在这方面教育情况?
根据中国国家标准《学科分类与代码表》(GB/T13745--92 )。在一级学科“计算机科学技术”下的二级学科“人工智能”里包含三级学科“自然语言处理”(520.2020)。在一级学科“语言学”下的二级学科“应用语言学”里包含三级学科“计算语言学”(740.3550)。由此可见,自然科学与语言学交叉渗透所取得的成果在学科体系中已经有了一席之地。不过,无论是“计算语言学”还是“自然语言处理”都还是三级学科,这意味着在大学里设置系或专业从本科起就开始培养中文信息处理人才还是受到限制的。据笔者了解,目前只有北京大学中文系设有应用语言学(中文信息处理)专业,南京师范大学设有语言技术系。不过,培养研究生的路子就宽多了,中国的大学大约1990年代初开始培养“计算语言学”和“自然语言处理”研究方向的博士生,培养硕士生更早,1980年代中期就开始了。现在已有相当数量的博士和硕士在发挥生力军的作用。
......[查看全文]作者:俞士汶 北大教授 客座博客
6、如何看待中文分词技术和中文搜索引擎两者之间的关系?
以“字索引”支撑的全文检索技术应用到网页检索之所以不再有昔日的辉煌就是因为互联网上的信息太多了,量变引起质变,提高查准率成为主要追求目标。对网页文本进行切分建立词索引为搜索引擎提供了新的发展机遇。现在,在Yahoo,Google,百度等网站上检索“华人”,给出的结果不再包含关于“中华人民共和国”的网页信息,就是搜索引擎技术有重要进展的体现。
......[查看全文]作者:俞士汶 北大教授 客座博客
3、中文分词技术当前面临的主要挑战是什么?互联网的发展和计算能力的提升对其发展有何帮助?
与理论探讨、算法设计、演示系统开发不同,互联网搜索引擎技术要求词语切分技术具有实战能力。在互联网上应用时,歧义切分(交叉歧义和组合歧义)的消解技术仍会碰到解决不了的难题。现在最棘手的可能是“新词”问题。“新词”可定义为词典或训练语料中没有的词。新词种类很多,人名、地名、机构名、商品名等实体名称必然不断有新的出现,简称或缩略语也是,比这些更难对付的是新出现的普通词语。“新词”识别和歧义切分消解有时也会纠结在一起。
......[查看全文]作者:俞士汶 北大教授 客座博客
编者按:我们多次前往北大计算语言学研究所和俞士汶教授进行了分词方面的技术交流,俞教授的谈话让我们受益匪浅。我们特意对俞教授进行了访谈,希望读到此文的搜索爱好者,也能和我们一起分享分词知识、探讨搜索未来。
作者:Winter 工程师
中文分词和搜索引擎
中文分词除了在索引结构上影响搜索引擎以外,还会如何影响搜索引擎?
除了搜索引擎的索引过程需要用到分词以外,所有的搜索之前也需要用到分词。有些人误认为"短语搜索"(即两端加上引号的搜索方式,搜索引擎基本都支持这种方式,查看搜索引擎帮助)是直接拿字符串去匹配不用分词,因为结果看上去好像是字符串匹配的结果。其实不然,短语搜索同样需要用分词,只不过在结果中需要位置连续等严格限制。当位置连续时,在显示摘要的时候,会让你感觉只是用字符串匹配。
......[查看全文]作者:Winter 工程师
中文分词的算法
中文分词技术的研究,已经有几十年的历史了,在20世纪80年代,我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位,不是一件很容易的事情。
如何进行分词?对于程序员来说,最容易想到的办法是,用一个大词典,把所有的词都存入词典中,扫描输入的文本,查找所有可能的词,然后看哪个词可以做为输出。例如:
输入文本: 我是学生
词: 我/是/学生
作者:Winter 工程师
搜索引擎,上网的人基本上都不陌生了,CNNIC的第17次《互联网调查报告》显示,使用搜索引擎服务的网民,仅次于电子邮件。中文分词,估计了解的人并不多,毕竟太技术,太底层。但中文分词是中文搜索引擎系统中非常重要的模块,这里之所以强调是中文搜索引擎,是针对英文搜索引擎来讲,因为对于英文来说,空格代表词和词之间的分隔,也就不存在分词问题。和中文搜索引擎类似还有日文、韩文、泰文搜索引擎等,都需要处理分词问题。
......[查看全文]作者:车东 产品经理
上周末豆瓣的阿北给我电话:最近你们雅虎的蜘蛛(Yahoo! Slurp)对豆瓣网的抓取频度非常高,导致服务器的速度有些慢,如何才能让Slurp降低抓取频度呢?
我首先想到的建议是在网站的robots.txt中增加Crawl-delay: 设置,这个设置是目前Slurp独有的,用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒。
剩下的问题就是Crawl-delay的值该设置多大,这个要看网站自身可以承受的负载,假设你希望Slurp每10秒来访问一次,这个设置就是:
User-agent: *
Crawl-delay: 10