作者:车东 产品经理
上周末豆瓣的阿北给我电话:最近你们雅虎的蜘蛛(Yahoo! Slurp)对豆瓣网的抓取频度非常高,导致服务器的速度有些慢,如何才能让Slurp降低抓取频度呢?
我首先想到的建议是在网站的robots.txt中增加Crawl-delay: 设置,这个设置是目前Slurp独有的,用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒。
剩下的问题就是Crawl-delay的值该设置多大,这个要看网站自身可以承受的负载,假设你希望Slurp每10秒来访问一次,这个设置就是:
User-agent: *
Crawl-delay: 10
我推荐使用 User-agent: * 万一有其他引擎逐步也支持这个配置呢,而不支持这个配置的引擎也会跳过这句。
可实际上我从自己网站的日志中看到:Slurp的压力却不止10秒一次,原因是这样:雅虎美国和雅虎中国有2套蜘蛛在运行,因此实际的访问可能是这样:
1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China
2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp
1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China
每个蜘蛛都是遵循Crawl-delay间隔的,因此为了进一步降低Slurp压力,希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。
但是实际上我看到的雅虎的蜘蛛是分布在很多台服务器上的:而多个服务器集群之间也是不相互协调同一网站的抓取频度的
1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China
2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp
1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China
1.1.1.2 30/Jun/2006:00:00:13 Yahoo! Slurp China
1.1.1.1 30/Jun/2006:00:00:23 Yahoo! Slurp China
1.1.1.2 30/Jun/2006:00:00:27 Yahoo! Slurp China
我统计了一下:Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。
给豆瓣推荐的Crawl-delay: 100 平均2.5秒访问一次,应该没有问题了。
另外,雅虎搜索的帮助中心刚刚改版,专门增加了站长专区,可以去看看。
注:我查了一下Slurp的意思,就是咂吧嘴的声音,发音听着很像在吃面条吧?
呵呵。。学到东东....
还有一个问题就是网络日志url怎么看,谢谢?
呵呵,我今天到空间日志看了,雅虎有来哦,谢谢光临。http://www.8821.info/
发布者:池州SEO - 2010年05月28日 15:31碰到同样问题, http://www.2lengzi.cn
发布者:疯雨 - 2010年05月10日 14:26要是都能支持就好了
http://www.7c2c.com
www.bnnet.cn
发布者:feng - 2010年04月21日 14:12顶。写的太好了
发布者:google排名 - 2009年12月13日 11:35没有搜索框的搜索
http://www.ta6678.cn
http://www.xxlsc.cn
已经转载
发布者:seog - 2009年05月02日 22:59http://seo-dic.com.cn/archives/1172
晕,不能贴地址么
<a href="http://seo-dic.com.cn/archives/1172">搜索想说爱你很容易 如何控制搜索引擎的行为 </a>,美丽星点收集的,有你们博客里的内容也,嘻嘻
发布者:美丽星点 - 2008年10月15日 16:04嗯,有学习到东西,robots这个东西设置以后确实对我的站的服务器负荷减少了
发布者:在洋之舟 - 2008年08月07日 9:02现在最不会的就是SEO,一点都不会,谁会呀,不优化可怎么嫩提高收录了
发布者:小菜 - 2008年05月03日 6:01我是垃圾我怕谁?
发布者:我是垃圾我怕谁? - 2008年04月01日 10:38为什么我网站SO不到多少内容呢,还有robots.txt这个文件是要传到服务器上的吗
发布者:阿Q在线www.rqline.cn - 2008年03月16日 17:49快受不了,yahoo!slurp已经严重干扰偶论坛的运行,每周内必有几天游客暴增,检查ip均为雅虎中国,偶已经从后台封掉了雅虎,现在准备用robots.txt来完全禁止掉yahoo。
发布者:某bbs管理员 - 2007年04月30日 1:18請問可不可以改成 META 標籤方式呈現
发布者:Eden - 2007年02月10日 17:48你好.我想问一下,我的网站是半个月前提交的,每天都看见IIS日志里有雅虎的蜘蛛爬网页,但一直到现在yahoo.cn用site:www.xkxz.com也查不到我的站点信息,而选中全部语言可以看到首页被收录,其他很多信息都不是我本站的信息,这是怎么回事??
发布者:凌云 - 2006年12月19日 12:03不错的功能
发布者:最新更新 - 2006年12月04日 16:22雅虎中国服务器群来的频率太高了,高峰时一秒内来三次,真象是攻击行为,不知道有没有更好的法,如指定时间段来访。nc2000.net
发布者:nc2000.net - 2006年08月05日 9:31那雅虎针对不同的网站的更新频率也不一样吧!不一样的依据又是什么呢?还请指教哦!
发布者:慕以 - 2006年07月07日 9:33恩 又学到了一些.
看来关键是要统计一下分布式crawler的个数来加倍delay了
不过对于不支持这项设置的crawler还是没办法
改了设置不是马上生效吧?
应该也有个刷新时间值,应该是下次采集开始才更新频度值.
但如果40多个爬虫恰好都在同一个时间段内采集,即便每只间隔100秒,40只先后脚的来爬,到最后一只爬完后,第一只的间隔时间又到了,造成的压力就有DDOS的效果了,不过这可能是最"理想"状态下才会发生的.
发布者:RainChen - 2006年07月06日 12:08终于见到传说中的雅虎大牛车东露面了,沙发一个!
发布者:慕泥黑 - 2006年07月06日 11:26修改完了可以验证一下 robots.txt 是否有效
发布者:Fenng - 2006年07月06日 10:59