VirMach教程:nginx反爬虫禁止一些无用User Agent抓取网站

VirMach教程:nginx反爬虫禁止一些无用User Agent抓取网站

扫码添加渲大师小管家,免费领取渲染插件、素材、模型、教程合集大礼包!

尽管现在VPS的可选品牌很多。但VirMach这家美国主机商还是非常受欢迎的。性能稳定。价格低廉是他们的优势。故而在国内是有口皆碑的。nginx环境是最受欢迎的WEB服务器。网络上的爬虫非常多。有对网站收录有益的。比如百度蜘蛛(Baiduspider)。也有不但不遵守robots规则对服务器造成压力。还不能为网站带来流量的无用爬虫。

为了禁止垃圾User Agent爬虫抓取网站。达到节省宽带和节省资源的目的。就得想办法禁止垃圾User Agent爬虫来抓取自己的网站了。这里小编就给大家分享下NGINX下是如何实现禁止无用User Agent抓取网站的。

在/usr/local/nginx/conf/rewrite目录下新建agent_deny.conf文件【lnmp默认目录】。内容如下:

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ “FeedDemon|JikeSpider|Indy Library|Alexa
Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft
URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports
Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$”
) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

然后再需要使用的网站配置文件中加入如下内容:

include agent_deny.conf;

好了后。重启下你的nginx即可。nginx下就禁止了无用User Agent抓取网站内容了。

分享到 :
相关推荐

高防服务器托管的机房有哪几点要求(高防服务器托管的机房有哪几点要求)

随着移动终端。云计算等新一代信息技术的发展和应用。越来越多的企业将业务从传统数据中心...

香港免费vps试用要注意哪些问题(香港免费vps试用要注意哪些问题呢)

亿速云yisu是正规的老牌提供商。提供yisu亿速云主机。yisu高防服务[&hel...

国内云主机试用为什么不能远程连接(国内云主机试用为什么不能远程连接网络)

国内云主机试用不能远程连接的原因有:1。本地网络不通。无法远程连接国内云主机;2。账...

高防服务器防御DDoS攻击的原理有哪些(高防服务器防御ddos攻击的原理有哪些)

高防服务器防御DDoS攻击的原理有:1。采用高性能网络设备;2。避免使用NAT;3。...

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注