作者:Tim、Jeremy 和Tara
翻译:Yeqi 工程师
问:你觉得目前网页搜索应用的现状如何?
答:一些问题还没有得到解决。如果你回过头阅读一下90年代中期的WWW会议上的论文,像重复、数据抓取策略、网络图分析等问题,现在仍然紧密相关的。所有这些问题都依旧存在,有很多可以改进的地方。同样,就像你看现在的汽车,依然会有很多对钢材料、发动机、结构的改进,但是研究的焦点已经放到了多功能汽车等上面。对于网页搜索,我相信下一步的研究方向将会是信息提供和多种信息来源的整合。
问:你是否想说我们(作为一个产业)自搜索引擎发明以来已经有了长足的进步?
答:是的,很显然。当AltaVista刚诞生的时候,我们需要3个月的时间来建立一个3千万网页文档的索引,而且还存在很多的重复和其它各种问题。90年代早期,5万词的辞典就可被称为“大”。接着,“大”是指百万级别,而现在则是指数十亿级别。这种变化不仅仅是数量上的,质量的改进同样使得搜索结果变得更好。
问:那么,Andrei,你认为下一步我们要朝哪个方向走?
答:我在《网页搜索的分类(Taxonomy of Web search)》这篇论文中谈到了网页搜索的三个阶段。我相信我们正在走入一个全新的时期。我把这个新阶段称为“没有搜索框的搜索”。今天的搜索被限制成你先给一些信息,然后得到一些信息,属于一种拉(Pull)的模式。下一步要做的是信息能根据上下文关系自动给出而不需要主动去搜索,一种推(Push)的模式。我最喜欢拿GPS举例,它取代了以往的在地图上找路的方式。在你的汽车里,GPS导航系统能为你指明方向,告诉你最近的加油站等。在今后的1到2年中,可能会发展成只有在你缺少汽油的时候才告诉你最近的加油站信息。于是,你只有在“需要的时候”才会获得信息,而不需要去主动请求信息。换句话说,我们会从信息检索转变到信息提供。
问:RSS属于你说的那种信息推送方式吗?
答:RSS提醒属于满足周期性需求的一种信息提供。而我所说的则是根据上下文关系来提供信息。广告就是一种上下文相关的信息提供方式。它的关键在于提供的广告必须和上下文相协调。例如,在滑雪杂志中,滑雪板广告就非常符合杂志的内容需求。由于广告这样的问题,信息提供作为一门科学还在不断的发展中。
问:信息提供就是你正在致力去做的事情吗?
答:是的,我正在尝试去理解信息提供形成的原理——骚扰信息和有用信息之间是有明显区分的。我们也希望用户可以在此过程中扮演自己的角色。你必须理解上下文环境、用户以及社会影响。如果我们知道其他像你这样的人都在做什么,那么对于这些用户群,我们有时就可以从信息检索转变到信息提供了。但是,我们仍然没有信息提供的理论,也没有一种可靠的模型。这完全是一个空白的领域。我们不太可能在短期内就可以看到成果,但是,他们代表下一阶段的发展方向。
事实上,我们对于某些上下文环境已经做的不错,例如,电子商务网站。假定你去一个在线旅游网站,搜索一下,你可以找到天气好坏的信息,会告诉你有哪些酒店可以住宿,有什么样的活动可以参加,等等。这就是一个关于信息提供的例子。但是,在其它没有这样紧密上下文关系的领域,我们仍需要努力。
实质上,我们正在把用户查询的平均单词数由2.7个逐渐降到0。这是如何做到呢?有个有趣的关于在线购物的呆伯特漫画(Delbert),不再是传统的一次点击购物,而是有了不需要任何点击的购物方式。如果你拒绝的速度不够快,恐怕呆伯特已经把商品发给你了!这如同变戏法一样,在幕布后面藏有很多魔法,你需要好的用户界面来把它藏起来;这是一个不错的研究方向。
这篇给我启发蛮大的 思路开阔了不少 最近的质量挺高的 很喜欢这里.
对于信息提供这样一个提法 我觉着是很前沿的思路 但在转化为实际产品时 应该还会遇到不少的困难. 比如海量的信息如何找到最有用的去掉spam 猜测用户意图 另外在收集用户信息方面还可能存在隐私上的问题.
发布者:BunnyQ - 2006年06月26日 12:24搜狗的输入法有没有往系统里植入一些“小玩意儿”?蛮担心的
发布者:uk - 2006年06月13日 13:09Yahoo什么时候推出自己的Ajax个性搜索啊?象Goolge那样的。以前最喜欢yahoo,但是现在看来邮箱速度慢了,整个yahoo的网速好像都慢了,而且除了首页,其他更新的都很慢,很喜欢以前yahoo给人的感觉。希望能和yahoo.com同步,国际版的似乎天天都能能人以新鲜的味道。
发布者:极品书生 - 2006年06月13日 7:55我觉得SOGOU最近推出拼音输入法是一很好的思路,YAHOO是不是可以借鉴下,花少量的东东打免费广告 合乐而不为 :-)
发布者:Yahoodir.com - 2006年06月13日 1:45yahoo你好,请问为什么我查了china-fzzy.com收录只剩一页了
我之前查了还很多的,谢谢!
最后一个问题的回答,
“我们有时就可以从信息检索转变到信息提供了”,在海量信息的今天,如何能将大量信息罗列给用户呢?是不是就是一个一个的网页、网页目录,然后用户使用收藏夹,或者订阅RSS?我觉得这就是等于将某类信息再进行专业化。从这次的对话中能感觉到研究者很强的理想主义,思想很超前,开阔我的思路。
因为信息非常海量,还是不太理解上面的“换句话说,我们会从信息检索转变到信息提供”,或者说是将继续保持信息检索和信息提供。