雅虎搜索日志 雅虎搜索日志
搜索

翻过来轻松自在

作者:高兴 产品经理

茫茫的文字海洋,一只乌龟无所适从、忘而止步,这时一只小鱼出现,飞起一脚,乌龟被踢翻,像冲浪板似的在文字海洋里自由驰骋,真是“翻过来轻松自在”啊。上面小故事只是我们借用站内广告内容的一段调侃,真正想说说的是我们在7月25日推出的“雅虎翻译”产品— “宝贝鱼(Babel fish)”。

宝贝鱼的名字来源于道格拉斯•亚当斯的小说《银河系漫游指南》(不了解这个小说?那么看看这里的介绍吧~),小说中的Babel fish是个神奇的小东西,把它放到耳朵里就能听懂外星人说的话。真是一鱼在手,走遍寰宇啊。我们的翻译工具虽然不能翻译外星文字,但是却提供了10余种语言文字的互译功能。

......[查看全文]
发表于:2006年07月28日 12:12 | 全文 | 评论(16)| 引用通告(1)| 添加到雅虎收藏+

俞士汶教授谈中文语言处理(二)

作者:俞士汶 北大教授 客座博客

3、中文分词技术当前面临的主要挑战是什么?互联网的发展和计算能力的提升对其发展有何帮助?

与理论探讨、算法设计、演示系统开发不同,互联网搜索引擎技术要求词语切分技术具有实战能力。在互联网上应用时,歧义切分(交叉歧义和组合歧义)的消解技术仍会碰到解决不了的难题。现在最棘手的可能是“新词”问题。“新词”可定义为词典或训练语料中没有的词。新词种类很多,人名、地名、机构名、商品名等实体名称必然不断有新的出现,简称或缩略语也是,比这些更难对付的是新出现的普通词语。“新词”识别和歧义切分消解有时也会纠结在一起。

......[查看全文]
发表于:2006年07月27日 11:20 | 全文 | 评论(1)| 引用通告(0)| 添加到雅虎收藏+

俞士汶教授谈中文语言处理(一)

作者:俞士汶 北大教授 客座博客

编者按:我们多次前往北大计算语言学研究所和俞士汶教授进行了分词方面的技术交流,俞教授的谈话让我们受益匪浅。我们特意对俞教授进行了访谈,希望读到此文的搜索爱好者,也能和我们一起分享分词知识、探讨搜索未来。


......[查看全文]
发表于:2006年07月26日 11:40 | 全文 | 评论(1)| 引用通告(0)| 添加到雅虎收藏+

中文分词和搜索引擎(三)

作者:Winter 工程师

中文分词和搜索引擎
中文分词除了在索引结构上影响搜索引擎以外,还会如何影响搜索引擎?

除了搜索引擎的索引过程需要用到分词以外,所有的搜索之前也需要用到分词。有些人误认为"短语搜索"(即两端加上引号的搜索方式,搜索引擎基本都支持这种方式,查看搜索引擎帮助)是直接拿字符串去匹配不用分词,因为结果看上去好像是字符串匹配的结果。其实不然,短语搜索同样需要用分词,只不过在结果中需要位置连续等严格限制。当位置连续时,在显示摘要的时候,会让你感觉只是用字符串匹配。

......[查看全文]
发表于:2006年07月24日 9:32 | 全文 | 评论(0)| 引用通告(0)| 添加到雅虎收藏+

中文分词和搜索引擎(二)

作者:Winter 工程师

中文分词的算法

中文分词技术的研究,已经有几十年的历史了,在20世纪80年代,我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位,不是一件很容易的事情。

如何进行分词?对于程序员来说,最容易想到的办法是,用一个大词典,把所有的词都存入词典中,扫描输入的文本,查找所有可能的词,然后看哪个词可以做为输出。例如:


输入文本: 我是学生
词: 我/是/学生


......[查看全文]
发表于:2006年07月21日 9:53 | 全文 | 评论(8)| 引用通告(1)| 添加到雅虎收藏+

中文分词和搜索引擎(一)

作者:Winter 工程师

搜索引擎,上网的人基本上都不陌生了,CNNIC的第17次《互联网调查报告》显示,使用搜索引擎服务的网民,仅次于电子邮件。中文分词,估计了解的人并不多,毕竟太技术,太底层。但中文分词是中文搜索引擎系统中非常重要的模块,这里之所以强调是中文搜索引擎,是针对英文搜索引擎来讲,因为对于英文来说,空格代表词和词之间的分隔,也就不存在分词问题。和中文搜索引擎类似还有日文、韩文、泰文搜索引擎等,都需要处理分词问题。

......[查看全文]
发表于:2006年07月20日 9:18 | 全文 | 评论(2)| 引用通告(0)| 添加到雅虎收藏+

Taglines:一条流过记忆的河

作者:张勤 产品总监

Web2.0应用的普及和标签(Tag)的出现使得网友可以自由标注各种类型的文档,无论是照片(Flickr),网址(收藏+),还是DV短片(Youtube)。大量的标签日积月累,如果对其进行挖掘,必然会有很多有趣的发现。最简单的方法就是以时间为单位,通过观察网友的标签,发现整个网络社区关注兴趣的变化。这个想法促成了雅虎研究院几位研究人员的一项有趣的研究。

......[查看全文]
发表于:2006年07月18日 10:13 | 全文 | 评论(2)| 引用通告(1)| 添加到雅虎收藏+

搜索有问题,请看帮助中心

作者:丛锡兴 产品助理

很多细心的用户已经发现,雅虎网页搜索的帮助中心改版了。这是我们在对用户反馈问题的长期研究基础上做出的调整,新的帮助中心改变了老版本内容少、分类不明确的问题,将原来的两大类十几条信息,扩充到四大类43条信息:

1、搜索入门:面对互联网的初级用户,介绍雅虎搜索的基本功能、用法;
2、搜索教程:介绍了相对“搜索入门”更高级、更具体的搜索技巧;
3、常见问题:用户在使用搜索引擎时会遇到的问题;
4、站长专区:网站站长所关心的问题,从如何抓取到如何删除结果等等;

searchhelp-small.jpg

通过用户的来信,我们发现不少网友是初次接触搜索引擎,渴望了解更多的搜索技巧,比如:如何选择查询词如何使用高级搜索等等。新版本的帮助中心总结了这些搜索技巧,来指导用户更好的使用我们的搜索引擎。

实际上,很多长期上网的朋友,也不见得能掌握所有的搜索技巧。在帮助中心的制作过程中,我也学习到了很多。举个例子吧:我经常到天空软件站下载软件,但是如果从天空软件的首页进去,然后进行站内搜索,或者按照目录进行查找,至少要浏览4~5个页面才可以找到自己想要的内容。特别是天空软件站的页面访问起来很慢,导致这样的查找很费时间。但是利用雅虎网页搜索的 “site:”命令就可以事半功倍,比如要找“超级兔子”,只要在搜索框里输入“超级兔子 site:skycn.com”,搜索结果就可以返回“超级兔子”在天空软件的各个下载页面。更多搜索技巧,可以参考帮助中心“搜索教程”中的“高级搜索语法”。

帮助中心服务的另一类重要用户,是网站的站长。很多站长会关心自己的网站在雅虎的搜索排名如何,或者不希望自己的网站被过多的抓取等等,这些问题都可以在帮助中心的“站长专区”里面找到答案。此外,站长长期反映的网站收录问题现在也有了解决之道,只要通过网站登陆页面就可以自动向雅虎搜索引擎提交自己的网站供蜘蛛来抓取。

帮助中心上线只是一个新的开始,我们将不断收集和整理大家的反馈和意见,来完善这个小小的知识库。也欢迎各路搜索高手们给我们投稿,把你使用雅虎搜索的技巧分享给更多的网友。

......[查看全文]
发表于:2006年07月13日 16:26 | 全文 | 评论(7)| 引用通告(0)| 添加到雅虎收藏+

收藏随心,网址随身

作者:张月 产品经理

Del.icio.us(美味书签)是雅虎在去年10月份收购的社会化书签服务网站,它的创始人Joshua Schachter在谈到建立网站的初衷时曾说过:“我解决了一个我遇到的问题,那么同时就解决了每个人都可能遇到的同样问题”。Del.icio.us正是出于这样简单而质朴的目的(提供随时随地可以使用的在线书签服务)而诞生的。在其创始团队追求最佳用户体验的不懈努力下,终于成为社会化书签产品中名副其实的NO.1。

......[查看全文]
发表于:2006年07月11日 17:15 | 全文 | 评论(35)| 引用通告(3)| 添加到雅虎收藏+

地震的独立日——图片搜索结果页整容

作者:林杰 产品经理

7月4日美国独立日,上午11点40分,我和前端工程师一同坐在屏幕前,紧张地等待着图片结果页最后一个小Bug的fix……(什么?你不知道啥叫Bug?汗~~~)谁也不会想到,待会儿我们会遇到一次地震,虽然很小……

地震了,地震了~~这个楼层所有的工程师,本该泰山崩于前而面不改色的硬汉们,全都站了起来,10秒钟之后,他们的脸上会是什么表情?我的工程师似乎也慌了,他神奇的挪动鼠标,在“发布”的链接上按了一下。

......[查看全文]
发表于:2006年07月10日 9:48 | 全文 | 评论(11)| 引用通告(0)| 添加到雅虎收藏+

如何控制Yahoo! Slurp蜘蛛的抓取频度

作者:车东 产品经理

上周末豆瓣的阿北给我电话:最近你们雅虎的蜘蛛(Yahoo! Slurp)对豆瓣网的抓取频度非常高,导致服务器的速度有些慢,如何才能让Slurp降低抓取频度呢?

我首先想到的建议是在网站的robots.txt中增加Crawl-delay: 设置,这个设置是目前Slurp独有的,用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒。

剩下的问题就是Crawl-delay的值该设置多大,这个要看网站自身可以承受的负载,假设你希望Slurp每10秒来访问一次,这个设置就是:

User-agent: *
Crawl-delay: 10

......[查看全文]
发表于:2006年07月06日 9:58 | 全文 | 评论(10)| 引用通告(3)| 添加到雅虎收藏+

搜索WWW 2006

作者:搜索日志小组

在互联网上,所有的网站都以“www”开头,那么如果搜一下“www”,搜索引擎返回的结果会是什么呢?答案很有趣,Google 会把你带到... 雅虎的首页:) 而雅虎搜索的第一条结果则会返回万维网联盟World Wide Web Consortium (W3C)的官方网站,它是著名的WWW大会的组织者。WWW大会始于1994年,是全球互联网创新者们每年聚集一堂探讨互联网未来的盛会。

wwwtitlelogo.gif

......[查看全文]
发表于:2006年07月04日 9:44 | 全文 | 评论(9)| 引用通告(2)| 添加到雅虎收藏+
Copyright © 2007 Yahoo.com.cn 版权所有 不得转载  使用须知  京ICP证000022号