搜索引擎目前有很多,百花齐放,良莠不齐。
部分搜索引擎抓取页面感觉就是失控的野马,不遵循规则,此类搜索引擎需要禁止。

禁止部分搜索引擎有三个好处:
1 降低服务器带宽
2 减轻服务器压力
3 减少私密信息泄露(部分搜索引擎不遵循robots协议)

先说第三点,robots协议。

引用
robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。


你可以管理你的robots.txt,比如声明禁止这些搜索引擎:
User-agent: EasouSpider
Disallow: /

User-agent: YisouSpider
Disallow: /


这个其实就是道德规范,在日志里发现,部分被自定义协议禁止的地址,也有搜索引擎抓取,那这个就是不道德的搜索引擎。
这个我发现两个 EasouSpider 和 YisouSpider。

由此我们需要禁止这些搜索引擎抓取页面,可以在php判断user-agent,或者nginx判断:

if ( $http_user_agent ~ "YisouSpider|EasouSpider" ) {
  access_log off;
  return 403;
}


这个问题解决后,也就是相应解决了前面1和2了。


原创内容如转载请注明:来自 阿权的书房
收藏本文到网摘
Biological Science Writing Services Homepage Email
2020/07/03 12:06
Biological science assignment writing service seekers have been on the rise lately since most learners need biological science writing services, biology research paper services and biological science essay writing services.
短信平台 Homepage Email
2013/10/09 11:23
不要把搜索搜索引擎都禁止了哦!
分页: 1/1 第一页 1 最后页
发表评论
AD
表情
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
打开HTML 打开UBB 打开表情 隐藏
昵称   密码   游客无需密码
网址   电邮   [注册]
               

 

阅读推荐

服务器相关推荐

开发相关推荐

应用软件推荐