雅虎搜索日志 雅虎搜索日志
搜索

如何控制Yahoo! Slurp蜘蛛的抓取频度

作者:车东 产品经理

上周末豆瓣的阿北给我电话:最近你们雅虎的蜘蛛(Yahoo! Slurp)对豆瓣网的抓取频度非常高,导致服务器的速度有些慢,如何才能让Slurp降低抓取频度呢?

我首先想到的建议是在网站的robots.txt中增加Crawl-delay: 设置,这个设置是目前Slurp独有的,用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒。

剩下的问题就是Crawl-delay的值该设置多大,这个要看网站自身可以承受的负载,假设你希望Slurp每10秒来访问一次,这个设置就是:

User-agent: *
Crawl-delay: 10

我推荐使用 User-agent: * 万一有其他引擎逐步也支持这个配置呢,而不支持这个配置的引擎也会跳过这句。

可实际上我从自己网站的日志中看到:Slurp的压力却不止10秒一次,原因是这样:雅虎美国和雅虎中国有2套蜘蛛在运行,因此实际的访问可能是这样:

1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China
2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp
1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China

每个蜘蛛都是遵循Crawl-delay间隔的,因此为了进一步降低Slurp压力,希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。

但是实际上我看到的雅虎的蜘蛛是分布在很多台服务器上的:而多个服务器集群之间也是不相互协调同一网站的抓取频度的

1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China
2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp
1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China
1.1.1.2 30/Jun/2006:00:00:13 Yahoo! Slurp China
1.1.1.1 30/Jun/2006:00:00:23 Yahoo! Slurp China
1.1.1.2 30/Jun/2006:00:00:27 Yahoo! Slurp China

我统计了一下:Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。

给豆瓣推荐的Crawl-delay: 100 平均2.5秒访问一次,应该没有问题了。

另外,雅虎搜索的帮助中心刚刚改版,专门增加了站长专区,可以去看看。

注:我查了一下Slurp的意思,就是咂吧嘴的声音,发音听着很像在吃面条吧?

发表于:2006年07月06日 9:58 | 全文 | 评论(29) | 引用通告(3)| 添加到雅虎收藏+

网友评论

呵呵。。学到东东....
还有一个问题就是网络日志url怎么看,谢谢?

发布者:辉仔 - 2010年06月30日 23:34

呵呵,我今天到空间日志看了,雅虎有来哦,谢谢光临。http://www.8821.info/

发布者:池州SEO - 2010年05月28日 15:31

碰到同样问题, http://www.2lengzi.cn

发布者:疯雨 - 2010年05月10日 14:26

要是都能支持就好了
http://www.7c2c.com

发布者:要是都能支持就好了 - 2010年04月30日 23:34

www.bnnet.cn

发布者:feng - 2010年04月21日 14:12

http://www.fcseo.com试试效果

发布者:fcseo - 2010年01月15日 16:53

学习下,不错
http://www.119s.com/
http://www.112r.com/

发布者:119 - 2009年12月14日 3:16

顶。写的太好了

发布者:google排名 - 2009年12月13日 11:35

脚印

不错,希望更多的人来这里

http://www.6kh.net

http://www.qtseo.net

发布者:tina - 2009年10月08日 12:27

留名

不错的地方

http://www.52-j.com

http://www.35998.net

发布者:alen - 2009年10月08日 12:27

这个功能不错
http://www.axsw.com.cn
http://www.qtseo.com

发布者:alen - 2009年10月08日 12:25

没有搜索框的搜索
http://www.ta6678.cn
http://www.xxlsc.cn

发布者:tina - 2009年10月08日 12:17

已经转载

发布者:seog - 2009年05月02日 22:59

http://seo-dic.com.cn/archives/1172
晕,不能贴地址么

发布者:美丽星点 - 2008年10月15日 16:06

<a href="http://seo-dic.com.cn/archives/1172">搜索想说爱你很容易 如何控制搜索引擎的行为 </a>,美丽星点收集的,有你们博客里的内容也,嘻嘻

发布者:美丽星点 - 2008年10月15日 16:04

嗯,有学习到东西,robots这个东西设置以后确实对我的站的服务器负荷减少了

发布者:在洋之舟 - 2008年08月07日 9:02

现在最不会的就是SEO,一点都不会,谁会呀,不优化可怎么嫩提高收录了

发布者:小菜 - 2008年05月03日 6:01

我是垃圾我怕谁?

发布者:我是垃圾我怕谁? - 2008年04月01日 10:38

为什么我网站SO不到多少内容呢,还有robots.txt这个文件是要传到服务器上的吗

发布者:阿Q在线www.rqline.cn - 2008年03月16日 17:49

快受不了,yahoo!slurp已经严重干扰偶论坛的运行,每周内必有几天游客暴增,检查ip均为雅虎中国,偶已经从后台封掉了雅虎,现在准备用robots.txt来完全禁止掉yahoo。

发布者:某bbs管理员 - 2007年04月30日 1:18

請問可不可以改成 META 標籤方式呈現

发布者:Eden - 2007年02月10日 17:48

你好.我想问一下,我的网站是半个月前提交的,每天都看见IIS日志里有雅虎的蜘蛛爬网页,但一直到现在yahoo.cn用site:www.xkxz.com也查不到我的站点信息,而选中全部语言可以看到首页被收录,其他很多信息都不是我本站的信息,这是怎么回事??

发布者:凌云 - 2006年12月19日 12:03

不错的功能

发布者:最新更新 - 2006年12月04日 16:22

雅虎中国服务器群来的频率太高了,高峰时一秒内来三次,真象是攻击行为,不知道有没有更好的法,如指定时间段来访。nc2000.net

发布者:nc2000.net - 2006年08月05日 9:31

那雅虎针对不同的网站的更新频率也不一样吧!不一样的依据又是什么呢?还请指教哦!

发布者:慕以 - 2006年07月07日 9:33

恩 又学到了一些.

看来关键是要统计一下分布式crawler的个数来加倍delay了
不过对于不支持这项设置的crawler还是没办法

发布者:BunnyQ - 2006年07月06日 13:49

改了设置不是马上生效吧?
应该也有个刷新时间值,应该是下次采集开始才更新频度值.

但如果40多个爬虫恰好都在同一个时间段内采集,即便每只间隔100秒,40只先后脚的来爬,到最后一只爬完后,第一只的间隔时间又到了,造成的压力就有DDOS的效果了,不过这可能是最"理想"状态下才会发生的.

发布者:RainChen - 2006年07月06日 12:08

终于见到传说中的雅虎大牛车东露面了,沙发一个!

发布者:慕泥黑 - 2006年07月06日 11:26

修改完了可以验证一下 robots.txt 是否有效

http://tool.motoricerca.info/robots-checker.phtml

发布者:Fenng - 2006年07月06日 10:59

发表评论

名称
电子邮件地址(为了更好的解决您的问题,请填写邮箱地址,谢谢)

您的网络日志URL(可选)

评论
 

引用通告

此项的引用通告URL是:
http://ysearchblog.cn/cgi-bin/yblog/mt-tb.cgi/133
引用此项的网络日志
Copyright © 2008 Yahoo.com.cn 版权所有 不得转载  使用须知  京ICP证000022号