近期通过网站的访问日志经常会看到一个AhrefsBot的蜘蛛来频繁访问网站,通过查询得知AhrefsBot/7.0 是 Ahrefs 的网络爬虫的用户代理(User Agent),专门用于扫描和索引网页,为 Ahrefs 的 SEO 工具(如关键词分析、外链检测等)提供数据支持。但是这个蜘蛛只是扫描数据并不能为网站带来什么实际的效果而且经常占用大量的网络资源。因为它既不是搜索引擎那样抓取数据能够帮助站长带来流量,而是一个检测外链的工具仅仅是帮助别人分析外链而已。
关于 AhrefsBot 的作用讲解:
- 作用抓取网页内容,用于分析网站的外链情况、关键词排名、SEO 健康状况等。为 Ahrefs 的数据库(如 Site Explorer、Keywords Explorer)提供数据。
- 版本号7.0 表示当前爬虫的版本(不同版本可能优化了抓取速度或规则)。
- 是否遵守规则?默认遵循网站的 robots.txt 协议。如果发现它频繁抓取或影响服务器性能,可以限制或屏蔽。
如何控制 AhrefsBot 的抓取?
允许抓取
无需特别设置,只要 robots.txt
中没有禁止即可。
屏蔽 AhrefsBot
方法 1:通过 robots.txt 禁止。在网站根目录的 robots.txt 中添加:
User-agent: AhrefsBot
Disallow: /
方法 2:通过服务器配置屏蔽(如 Nginx/Apache)示例(Nginx 规则):
if ($http_user_agent ~* "AhrefsBot") {
return 403;
}
- AhrefsBot 抓取太频繁,影响服务器怎么办?在 robots.txt 中增加 Crawl-delay 指令(但 AhrefsBot 不一定完全遵守)。直接屏蔽或联系 Ahrefs 官方调整抓取频率。
- AhrefsBot 和 Googlebot 有什么区别?Googlebot 为搜索引擎索引服务,而 AhrefsBot 主要为 SEO 分析工具收集数据(不直接影响搜索排名)。
如果需要进一步优化 AhrefsBot 的访问,可以检查服务器日志分析它的抓取行为!