建站咨询:

建站业务咨询 预约上门 400-666-5826

公司动态| 关于魔狐狸| 魔狐狸建站学堂

魔狐狸科技有限公司
营销型网站建设专家
我们不仅仅做网站,更懂得网络营销
  • 10年网站建设经验
    10年网站建设经验
  • 服务客户超2000家
    服务客户超2000家
  • 超20人后台服务团队
    超20人后台服务团队
  • 超强网络营销策划能力
    超强网络营销策划能力
您所在位置:首页 > 建站知识 > 行业新闻

使用nginx限制蜘蛛的频繁抓取

来源:魔狐狸官网 发布时间:2015-12-08 09:57:27

上周玩客被百度蜘蛛给盯上了,百度蜘蛛对玩客的抓取频率增加了5倍。百度蜘蛛抓取量骤增,导致服务器负载很高。最终用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,多余的抓取请求返回503。

   nginx的配置:

   #全局配置

   limit_req_zone      $anti_spider    zone=anti_spider:60m    rate=200r/m;

   #某个server中

    limit_req zone=anti_spider burst=5 nodelay;

    if ($http_user_agent ~* “baiduspider”) {

       set $anti_spider $http_user_agent;

    }

   参数说明:

   指令linit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。

   指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。

   指令limit_req 中的 nodelay 表示当已经达到burst值时,再来新请求时,直接返回503

   IF部分用于判断是否是百度蜘蛛的user agent。如果是,就对变量$anti_spider赋值。这样就做到了只对百度蜘蛛进行限制了。

   详细的参数说明,可以查看官方文档。

   http://nginx.org/en/docs/http/ngx_http_limit_req_module.html#limit_req_zone

   这个模块对请求的限制采用了漏桶算法。

   漏桶算法详见 http://baike.baidu.com/view/2054741.htm

   相关代码请查看nginx源码文件 src/http/modules/ngx_http_limit_req_module.c

   代码的核心部分是ngx_http_limit_req_lookup 方法。


提示:手机触屏可一键拨号,电话:400-666-5826

 

 

联系方式
工作时间:8:00-19:00
咨询电话:400-666-5826
客服邮箱:service@mohuli.com
 
魔狐狸-微信
服务项目
网站建设 网络营销 域名注册 主机租用
企业邮箱 商标注册 网站托管 400电话
建站学堂 建站知识 模板中心 案例展示

© 2008-2016    魔狐狸备案豫公网安备 41010302000002号   豫ICP备15024447号   

魔狐狸-网站报价 网站报价


400-666-5826

魔狐狸二维码

微信扫码,了解更多