作者:Tim、Jeremy 和Tara
翻译:Yeqi 工程师
不久前,Andrei Broder(雅虎研究团队成员及新兴搜索技术副总裁)花了一个下午的时间和我们谈了他在搜索行业数十年的历史以及他未来将要进行的项目。最后,作为访谈的结束,Andrei回答了雅虎搜索日志的读者们提出的一些问题。
问:很多人都在问,你如何看待发生在AltaVista身上的事?
答:AltaVista遇到了可以说是最坏的时机;它是带着巨大的技术优势起步的,但是却没有足以维持它的商业模式,最终失去了它在早期核心搜索领域建立起的领先地位。
问:有一位读者的问题是关于你的分类学论文的,你能谈谈这篇文章吗?
答:在那篇论文中,我谈到了搜索的三个阶段,就如同我以前所提到的。网络搜索诞生于上世纪90年代中早期,完全是对传统信息检索模式的扩展。当时,人们仍旧在努力寻找让传统信息检索模式能适应大规模互联网的最佳方法:布尔模型,随机模型,等等。第二个阶段,在上世纪90年代后期,是关于元数据的。超链接,标签,点击数据,各种形式的元数据类别。(通过)互联网的结构。但是,本质上这些方法仍然还是靠句法结构,基本上是用单词来匹配文本。并没有真正去理解文本的含义。第三个阶段,还处在不断发展中,是基于文本语义和分析的,我们试图去理解用户的查询到底想要表达什么。这就是论文的概述。现在,通过对用户查询词的理解已经推导了很多信息和新的产品,如雅虎的快捷展现(Yahoo! Shortcuts)。语义,快捷展现,本地搜索,都是方兴未艾。看上去,文章当时正确地预测了下一阶段的发展是语义搜索。当然,如果现在去补充我的论文的话,我会写上第四代搜索引擎:信息提供。
问:你是如何看待博客搜索的?为什么它的结果并不尽人意?
答:博客搜索是很困难的。一般来说,如果你看看网页搜索,帮助最大的是元数据,链接文字、链接、网络结构图的分析,等等。对于博客文章来说,我们只有很少有用的元数据。即使你从博客中获取了一些元数据,你也会发现这些数据通常是错误的,或者你无法信任它的正确性,于是你就很难从元数据那里获得帮助。
此外,博客文章也通常不具备上下文关系。很多的博客文章本身不独立,上下文关系都在博客文章之外。即使是人看到这些博客文章都会不知所云。我不确信在这方面我们会有多少进展(但是申明一下,这不是我关注的领域!)
问:最后,是一些关于垃圾信息(Spam)的问题。
答:垃圾信息制造者们试图干扰我们搜索引擎所用到各种信息参数。我们不仅得当心链接型作弊、虚假站点作弊等,还得当心对查询日志以及其他敏感信息的污染。另一方面,垃圾信息是有经济利益的,人们以为作弊者只是在开玩笑而没有获得好处,其实不然。垃圾信息是经济驱动的,而我们想做得就是提高作弊的难度以使得制造垃圾信息无钱可赚。随着搜索引擎提供更加个性化的用户体验,搜索的社区化因素越来越重要。现在还不清楚这种变化对垃圾信息的影响——开发出行为像人一样的抓取机器人(robots)程序是很困难的,这或许正是意义所在,因为搜索的社区化对垃圾信息极为排斥。
"没有搜索框的搜索
http://www.ta6678.cn
http://www.xxlsc.cn
To 雅虎搜索日志管理员:
现在的雅虎搜索日志网页上的字体在IE下很大,请修正。
TO evan:
一是因为Firefox屏蔽了一些JavaScript;显示乱是因为Firefox对CSS的支持标准与IE不同。
不错
垃圾信息是有经济目的的
用垃圾信息获得的流量甚至可能成为某些网站的主要流量来源
用firefox评论出现问题,说Comment text is required.难道指支持IE?你们应该修改一下,而且firefox下的显示有时候也会乱。
发布者:evan - 2006年06月16日 11:40