作者:搜索日志小组
四天前,一场不期而至的地震,给中国的互联网用户带来一次非典型的断网体验,大部分国外网站基本不能访问。我们已经习惯了通过邮件、即时通讯工具和全球的朋友交流,一时间我们和世界的联系似乎突然被切断了。
雅虎也被地震轻轻撞了一下腰,虽然我们的中文搜索引擎早已本地化不受影响,但是邮箱、雅虎通、相册等登录服务还是出现了短暂的访问问题。套用一句我们耳熟能详的话,那叫“险情就是命令,质量就是生命”,雅虎的工程师们在第一时间立即商讨出多种备选方案,并和雅虎全球的工程师紧急联系,协调方案的落实。我们在香港、台湾、新加坡、美国、韩国的工程师放弃了圣诞休假,和中国的同事一起,紧张工作了三天三夜,启动了应急方案。
......[查看全文]作者:王烜 产品总监
最近一周内,我面试了参加雅虎校园招聘并最终进入产品助理复试的七位同学。他们来自不同的院校,选修着不同的专业,但是他们身上都有着共同的特点:思维清晰,沟通能力强,对互联网有着极大的热情,有极强的进取心,在校期间都曾是校园社团的组织者或者活跃分子。和每个人的交谈都让我们感到兴奋和愉快,从他们身上,我看到了当今大学生的主流风貌。
......[查看全文]作者:范菲菲

2006年12月18日,雅虎知识堂阿拉丁寻找知识宝藏的活动上线了!
故事是这样的:很久很久以前,阿拉丁跟公主幸福地生活在一起。一千年以后,他开始怀念当初寻找宝藏的冒险生活,于是有一天,他偷偷地溜到了雅虎知识堂,开始了寻找知识宝藏之旅……
......[查看全文]作者:搜索日志小组
今早,台南地震的消息占据了各大媒体的头版头条。北京时间12月26日20时26分和34分,台湾南部地区发生7.2级和6.7级地震,由于这次地震距离大陆较远,仅广东、福建、江西、香港、澳门等地有震感。
正在为这次地震没有造成明显的破坏和人员伤亡感到欣慰的时候,又一条消息被报道。受强烈地震影响,中美海缆、亚太1号、亚太2号海缆、FLAG海缆、亚欧海缆、FNAL海缆等多条国际海底通信光缆发生中断,中断点在台湾以南15公里的海域,造成附近国家和地区的国际和地区性通信受到严重影响,这其中就包括雅虎在内的多家国外网站无法正常访问。
......[查看全文]作者:张崇 产品经理
很久以前看过一个帖子,大概说的是一个可爱mm的搜索记录:"关机","快关机!","怎么还不关机!!","TMD赶快给我关机!!!"。呵呵,当时是当作笑话一笑了之的,认为这样的东东纯粹是恶搞。直到我开始留意搜索引擎日志里面每天用户搜索的大量关键词,才知道这原来不是笑话。
比如我会在关键词日志中发现这样的例子:"10万韩元能折合多少人民币?"、"前年的农历十月十五是星期几?"、"湖南长沙到山东济宁的火车票价是多少",“从老河口至广州飞机场机票价格”等等.
也许你会说:这些都是搜索引擎的低端用户,真正的搜索高手是不会这么搜的。这个观点我不否认,但我想高端用户之所以不这么搜是因为他们熟悉搜索引擎,知道搜索引擎可能无法给出满意的答案,所以已经降低了对搜索框的期望。在我们也习惯了搜索用户的低期望时。看到类似"十万韩元能折合多少人民币"这样的原始搜索诉求,看到初生网民对搜索框的期望,总能给我们一些启发和反思。在这样的启发下,产生了Yahoo!捷径(Yahoo! Shortcuts)这样的产品。
作者:陈朝晖 雅虎美国工程师
搜索引擎索引的等概率随机采样:Ziv Bar-Yossef 等人的方法介绍
对于搜索引擎等概率随机采样的研究已经有了相当长的历史,具体的背景文献我们不准备在这里一一探讨。我们希望通过对Bar-Yossef等人最近工作的介绍,把一种比较客观、科学的测试方法推介给读者。我们也会探讨他们的方法对于中文索引的局限性和一些解决方案。

图3,一个简化的搜索引擎索引
图3给出了一个简化了的搜索引擎索引示例,假定关键字“news”将返回4个结果:www.cnn.com、news.google.com、www.foxnews.com和news.bbc.co.uk。
首先我们给出一组定义
......[查看全文]作者:李未
因为工作的关系,今天帮忙客串了一次嘉宾访谈主持人,访谈嘉宾是芙蓉姐姐。

我一直对网络上的红人不太感冒,总觉得这些人费尽脑汁想出一些搏人眼球的东西以求一举成名,比如芙蓉姐姐的S造型和充满自恋味道的诗作。今天有机会一见她的真容,潜意识里就有少许“聚众围观”的想法。
跟娱乐频道同事交流的时候听说芙蓉现在已经很有艺人风范,身边有四个全职助理,今天来访谈提出三个条件:1 车接车送、2 到一楼迎接、3 安排化妆师,当然这三个条件都没能满足。不过,她还是来了。
......[查看全文]作者:陈朝晖 雅虎美国工程师
背景知识:搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。
首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页。搜索引擎需要根据算法从抓取的网页当中取其精华,去其糟粕,挑选出有价值的网页进行索引。因此,对用户而言,搜索引擎的索引量大小才更有意义。
其次,无限制增大索引量并不一定能保证搜索质量的提升。一方面,在全面性指标中,除索引量外,还需要考虑到收录网页的质量和不同类型网页的分布。另一方面,搜索引擎的质量指标体系要保证四方面的均衡发展,不是依靠单个指标的突破就可以改善的。目前包括雅虎中国在内的主流中文搜索引擎的网页索引量都在20亿量级,基本上可以满足用户的日常查询需求。
然而,由于从外部无法直接测算出搜索引擎网页索引量的绝对值大小,很多搜索引擎服务商喜欢对外夸大自己的收录网页数,作为市场噱头。从1998年开始,Krishna Bharat和Andrei Broder就开始研究,如何通过第三方来客观比较不同搜索引擎索引量的大小。8年后,在今年5月份的WWW2006大会上,来自以色列的Ziv Bar-Yossef和Maxim Gurevich由于这方面的出色研究成果夺得了大会唯一的最佳论文奖。他们的研究算出了主流英文搜索引擎的索引量相对大小:雅虎是Google的1.28倍,Google是MSN的1.36倍。他们是如何算出这些数字的呢?下面我们将为搜索引擎爱好者介绍这个算法,以及探讨在中文搜索引擎上是如何应用的。
......[查看全文]作者:雅虎社区产品小组
混雅虎社区的朋友都知道,每个人都有自己的积分,当然,积分是越多越好。不过也总有人问“这些积分是做什么用的呢?现在这个问题有了答案,细心的你一定已经发现了,在社区的个人资料中增加了“级别”一项,可以看到不同的分数段被授予了不同的头衔。今后通过头衔就可以充分显示大家在雅虎社区的资历了~!头衔越高,威信自然也就越高啦!

级别、头衔及晋级标准的具体划分如下:
第11级:神仙 (154400[含]以上)
第10级:圣人 (76600分--153399分之间)
第 9级:大腕儿 (38200分---76599分之间)
第 8级:腕儿 (19000分---38199分之间)
第 7级:行家 (9400分---18999分之间)
第 6级:精英骨干 (4600分---9399分之间)
第 5级:上进青年 (2200分---4599分之间)
第 4级:三好生 (1000分---2199分之间)
第 3级:小红花 (400分---999分之间)
第 2级:入学了 (100分---399分之间)
第 1级:新来的 (99分以下)
现在,大家能猜出这篇文章标题的意思了么?哈!我们在这里先提前预祝“新来的”早日“入学”,“三好生”早日成为“精英骨干”,“行家”早日成“腕”儿,成“仙”儿!!
......[查看全文]作者:搜索日志小组
可能很多朋友都像木木一样,注意到最近搜索日志的更新速度明显加快了。是的,我们可以悄悄透漏给大家一点小秘密:雅虎的产品改进和新产品推出速度会越来越快,当然也会越来越多,这其中不用说也包括了搜索日志啊。
最近,细心的朋友应该已经发现了,我们对搜索日志做了一些小改动,增加了Flickr的图片共享功能(当然,我们知道很多教育网的朋友不能访问Flickr,相信我们很快就能找到一个更好的解决方案),与大家分享雅虎公司和员工的一些有意思的事件,哈!
在文章显示方面,除了最新的一篇文章显示全文,我们将其他的文章都只显示摘要,减少长度,方便大家更快地找到自己感兴趣的文章!有一点需要和大家说明的是,您在写评论时邮件地址我们改成了必填项,这样做是希望在有问题或者评论十分精彩的时候可以跟您有进一步的沟通。
......[查看全文]作者:呆马 一个普通用户
按照常规,这篇文章的“标准署名”应该是 “刘林岚 图片搜索产品经理”。不过呢,这次我想从一个普通用户的角度跟您聊聊我自己使用图片搜索中的一个小故事。所以就采用了这样一个署名。
老婆说我优点不多,在为数不多的优点之中,“会找头像”是其中之一。老婆朋友多,爱网聊,还经常根据最近的心情和喜好更换聊天头像。每到这时候,我的作用就发挥出来了。比如老婆有些天狂爱机器猫,让我帮她找机器猫的聊天头像,我就能通过图片搜索找到一堆能做头像的图来让她挑选。
说来容易,这事情做起来可远没么简单。现在的图片搜索,大都按照相关性排序,可是头像是要考虑大小的,所以我经常不得不翻N多页,发现一个就保存一个……老婆又三天两头就要换头像,所以这个工作可算是耗时耗力,还经常因为数量不够遭到老婆痛扁。
但是在新版的雅虎图片搜索中,这一切变得简单起来。
和别的图片搜索引擎不一样的是,新雅虎图片搜索框可以专门搜索“聊天头像”!
......[查看全文]作者:张勤 产品总监
Web2.0时代的到来,会给搜索引擎带来什么?我认为最重要的是提供了一种新的内容来源,即用户创造的内容(User Generated Content,以下简称UGC)。
UGC具有一种社区特有的网络效应(Network Effect)。在美国,很多网站的增长很快,就是充分发挥了社区网站的这种特定效应。网络效应体现在,当加入社区的用户越多,贡献的内容越多,每个用户得到效益也越高;而且,当社区用户数和内容量达到一个关键数量(Critical Mass)的拐点后,网站用户数和内容数增长的加速度都会逐渐变大,直至最终趋缓。
对于搜索引擎而言,UGC不是传统意义上简单的一篇帖子,或者写的一篇博客,它至少包括两部分内容:首先是社会化媒体(Social Media,此处媒体是广义的概念),你会上传自己的照片,或者一段DV视频。其次,当用户在创建这个内容的同时,也会给搜索引擎提供很多新的辅助数据,也就是常说的元数据(Meta Data),这些都会被搜索引擎所利用。
......[查看全文]作者:张克军 用户体验部
美国雅虎前端工程师Hedger Wang在感恩节那天来到北京。这位原雅虎奇摩的第一位Web Developer,非常慷慨的与我们分享了他丰富的经验。现身说法,比空洞的理论更有感染力,我们发现现在遇到的很多问题也都是他曾经遇到过的。美国雅虎里面Web Developer是一个更帖近用户的前端工程师角色,他们负责把UI和产品功能逻辑整合起来,并增强产品易用性和交互体验。
在他的信息架构(Information Architecture)培训中讲到,像雅虎几百人在一起做产品,内部更需要速度和效率,更需要团队的协同和专业化。以往的开发流程是单线程的,产品经理向设计师提出设计需求,设计师开始设计然后和产品经理反复讨论并定稿,再交给Web Developer转成HTML模板,之后,将模板发给前端工程师开发,前端工程师需要后端提供数据,再将需求提给后端工程师。这时候,Web Developer只能祈祷别把本来写得挺标准的模板破坏。于是,每启动一个项目,哪怕是功能很类似的项目,都要走一遍这样的流程。显然,做法不是高效的,而且在每个环节上都很容易出问题,就像玩多米诺骨牌,任何一个小牌倒了就都白费了。
“Bottom Up Approach”,对!Web开发由下而上实现才是合理的。产品经理在现有系统和现有技术的基础上,策划产品,细化产品流程,最终确定产品都具有哪些功能。这些做好之后,前端工程师就可以开工了。比如,所有页面都有一个登录模块,直接写成这样就可以了:
......[查看全文]作者:周畅 搜索编辑
在岁月的长河里,我们总会遗忘很多事情。每当时间如指缝间的流水般从身边悄悄消逝,留给我们的就只剩下一段段记忆。因此,我们要学会收藏,收藏某些记忆。今天,披着淡淡蓝色,版面素雅的新版收藏+带着你我的记忆,在这即将告别的2006年的冬天与我们相约。
有人收藏文化,有人收藏艺术,而收藏2006带给我们的不仅仅是收藏,是让更多的人来分享我们收藏的快乐。无论你喜爱美食和音乐,还是美女和数码,或者是个善于用爱情感动他人的blogger,都来收藏2006年里我们热爱的,珍藏的,心底的感动吧。
收藏+就好像一个记忆的宝瓶,不仅为你提供无限大的收藏空间供大家分享,还可以在我们这次的收藏2006活动里获得精美的礼物,更重要的是,在你分享的同时,还会在无限大的知识海洋中获取更多的宝藏,让我们每一次搜寻,总能发现那些美丽的彩色贝壳。那就快从现在开始跟我一起来一次简单的"收藏记忆,与你分享"的快乐之旅吧。
......[查看全文]