几个资源消耗比较高的爬虫包括:
dotbot
SemrushBot
MJ12bot 一些版权方会使用这家的爬虫来批量检查网站中是否包含侵犯版权的文件
SMTBot
对于这些爬虫建议直接在 robots.txt 中屏蔽掉它们,目前复查日志发现至少它们确实是遵守 robots.txt 规则的
User-agent: dotbot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: SMTBot
Disallow: /
via:http://suo.im/5PR4VX
上一篇:
Chrome 扩展(插件)官方文档中文翻译版下一篇:
一个浏览器书签管理插件:Bookmarks clean up