博客
nginx
1 篇文章
有意思的 nginx 访问日志检查
本文讨论了对访问日志的检查,特别是对百度和谷歌的爬虫行为的对比分析。作者通过分析nginx访问日志,发现以下有趣现象: 1. 百度爬虫:访问记录中没有请求robots.txt,且爬虫种类单一。 2. 谷歌爬虫:访问记录显示多种爬虫,包括针对移动设备的爬虫,且首条请求是读取robots.txt。 作者对百度的robots遵循问题表示无奈,而对谷歌的多样化爬虫行为感到惊讶,尤其是其移动设备爬虫的User-Agent表现。
1 篇文章
本文讨论了对访问日志的检查,特别是对百度和谷歌的爬虫行为的对比分析。作者通过分析nginx访问日志,发现以下有趣现象: 1. 百度爬虫:访问记录中没有请求robots.txt,且爬虫种类单一。 2. 谷歌爬虫:访问记录显示多种爬虫,包括针对移动设备的爬虫,且首条请求是读取robots.txt。 作者对百度的robots遵循问题表示无奈,而对谷歌的多样化爬虫行为感到惊讶,尤其是其移动设备爬虫的User-Agent表现。