作者:搜索日志小组
十年前,微软帝国的缔造者比尔-盖茨(Bill Gates)曾写过一本在当时轰动一时的书——《未来之路》,他在这本276页的书中预测了微软乃至整个科技产业未来的走势。十年后,人们又一次开始对科技产业的未来展开了预测,不过这一次预测完全集中在盖茨10年前没有预测到的重要产业领域:搜索引擎。2006年5月19日和20日,雅虎欧洲研究中心和Universitat Pompeu Fabrah大学网络搜索研究组合办的“互联网搜索的未来”(Future of Web Search)研讨会在西班牙召开,来自17个国家的150名搜索前沿的探索者们济济一堂,对未来搜索的各种主题进行了展望。
著名搜索专家、智利科学家Ricardo Baeza-Yates在会上作了《互联网查询词挖掘的应用》(Applications of Mining Web Queries)的主题报告。今年1月,Ricardo正式加盟雅虎,负责雅虎在欧洲及拉美的研发中心。他与Berthier Ribeiro-Neto曾一起合作编写了《现代信息检索》(Modern Information Retrieval)一书,成为信息检索领域的经典教科书而广泛流传。Ricardo在加盟雅虎前是智利大学计算机科学系教授,同时也是世界上多所大学的客座教授,被公认为信息检索领域少数几位顶级专家之一。在这份报告中,他介绍了对用户搜索时使用的关键词进行分析后的各种应用:通过对查询词的聚类,借此了解用户搜索的动机,从而可以向用户推荐更好的查询词,或者对搜索结果的相关性进行改进,或者根据查询词对用户点击的网页进行分类。
另一位雅虎搜索研究专家Andrei Broder作了主题报告:《从信息检索到信息推送》(From query based Information Retrieval to context driven Information Supply)的报告。大家对于Andrei可能并不陌生,搜索日志在此前曾刊登了《对话Andrei Broder》系列文章1、2、3,初步接触了他对未来“没有搜索框的搜索”的一些畅想。

Andrei认为互联网的搜索发展可以分成四个阶段。第一个阶段是1994年到1997年,当时的搜索引擎都采用的是传统信息检索方法,只使用网页自身带有的文字信息(例如:词出现的频率,网页内容的语言等),比较典型的搜索引擎包括Altavista、Excite、Lycos等。1998年后,进入第二个阶段,搜索引擎开始大量采用网页之外的信息,包括各种超链分析算法、用户点击的跟踪和链接文字(Anchor Text)的应用等,该阶段搜索引擎代表是Google和Inktomi。目前我们正处在第三个阶段,搜索引擎开始关注用户查询词背后的需求,而不再是查询词本身,这包括语义的分析,相关内容的整合,对用户的查询提供更多帮助(例如:友好的界面、拼写纠错、相关搜索、搜索提示等)。2000年,在《互联网搜索的分类》这篇论文中,Andrei在分析后把人们上网搜索的需求分成三类:对信息的需求(例如:找新闻、找评论、找帖子等)、对导航的需求(找某个特定网站)和对交易的需求(例如:下载软件、在线购物、订机票等)。第三代搜索引擎必须根据用户的需求,进行结果的优化,比较典型的例子是雅虎快捷展现(Yahoo Shortcuts)。例如:搜索“北京 天气”时,除相关网页搜索结果外,还会显示当前北京的天气情况。

第三代搜索引擎大量利用与时空相关的Context信息,如:地理位置、查询历史、个人档案等。通过对这些相关信息的利用,可帮助筛选出不合适的结果,结果的排序可以更加个性化。随着Context信息的不断发展,Andrei认为到第四代搜索引擎后,用户的搜索将不在需要他们输入查询词,而是搜索引擎可以根据用户的行为和Context信息,主动进行信息的推送(Information Supply)。

其实,在目前的互联网上,已经有一些信息推送的例子。例如,对周期性需求的信息推送,像订阅服务(电子邮件、RSS等)或者新闻邮件提示等。再比如对一些临时性需求的信息推送,像电子商务(推送商品的配件信息、用户评论和相关商品信息等)、在线旅游(推送机票、酒店、租车等信息)以及上下文相关的广告推送。在Andrei看来,选择显示什么广告时不仅仅要看查询的关键词,还要针对用户的背景、查询的历史、用户所处的地理位置(大到国家,小到街道)和广告的显示历史进行优化匹配。在这个过程中,信息推送引擎(ISE)将对三个信息源要素进行匹配,即对用户(如:注册的档案和背景信息)、活动(如:用户操作历史和浏览网页的内容)和广告(如:广告的统计)进行匹配,排序显示最合适的广告。当用户执行了相应操作(如:点击某条广告)后,此信息会反馈到三个信息源以及信息推送引擎,以便进行下一次的广告推送,从而周而复始,成为闭环。雅虎今年7月推出的搜索广告系统Panama和微软计划开发的adCenter(微软10年后终于意识到了搜索引擎的重要性),原理大体与此类似。
整个研讨会共有17个主题报告,除上面两个外,还包括:链接型Spam的对策,P2P搜索的相关性,搜索的个性化,用于语义搜索的XML信息检索等,喜欢搜索的朋友可以下载后慢慢研读(都是英文的)。

会议期间,还举行了雅虎在巴塞罗纳研究中心的开幕仪式。上图(由左到右)为身材魁梧的大胡子Richardo和雅虎西班牙负责人Javier Rodriguez Zapatero、雅虎美国研究院副总裁Ron Brachman在开幕式上的合影。
"没有搜索框的搜索
http://www.ta6678.cn
http://www.xxlsc.cn
很不错的,未来是怎样取决与产品及服务
http://www.51msh.com/sitemap.html
360中文出来就好了
互联网是链接的世界!搜索是必不可少的!
发布者:SEOON - 2007年06月22日 14:44我也很期待360.cn.
发布者:谷哥 - 2006年07月09日 18:26非常期待雅虎中国的360.cn版本,据说再过个一两月能退出,是真的么?可否事前给我们透露一些中国特色?
发布者:jark - 2006年07月02日 23:18如果开通中文的雅虎360,希望能自动导入以前在英文360里的文章。
因为我以前已经写了不少了。不想把他们都丢失。
顺便想问下,能否透漏以下,YAHOO是否有开通中文博客的计划?
为什么Yahoo中国不把Yahoo总部的Yahoo!360度引入中国呢?我试用了一下觉得很好,不会比现在其他的Blog差。而且还有很多特色服务。
建议引进~
发布者:Foxkid - 2006年06月29日 10:53Yahoo的搜索日志比Google Blog有含量多了。谢谢分享!祝愿Yahoo Search做得更好:)
发布者:xmsnow - 2006年06月28日 15:02对推送的搜索结果很看好.例如网页文本关键字广告,肯定是未来的趋势.
发布者:智能手机 - 2006年06月26日 20:14呵呵,我有这本书,不过内容大多忘了。要回家重新翻看,印象中,大体上,有些范围,比尔没预测到,有些领域,过于乐观。总体上来说,我觉得科技并没有一个“数量级”上的发展。
“推”,我喜欢这个词。因为我想象中的一个最好的影视频道它就应该是这样子:一个人,搜索某部电影的资料,然后由网站提供准确结果和包括相关资料周边其他用户反馈类似电影等等信息,这还不够,如果用户选择同意(或“下载”等类似的词汇)的话,还应该由网站把电影的本身“推”给用户。
索,还只是“demand”,将来肯定要做到“supply”。
发布者:remme - 2006年06月26日 12:43