AI公司不断开发新爬虫绕过阻拦网站运营跟不上-中关村在线

AI公司不断开发新爬虫绕过阻拦网站运营跟不上

海是天的倒影

原创

07-30

在互联网发展的早期，为了解决机器人/爬虫访问网站的问题，一种不成文的协议应运而生——“robot.txt”文件。这个文件中包含了哪些用户可以访问你的网站的信息。通常情况下，该协议主要针对搜索引擎开放，并希望通过这种方式增加流量。然而，现在一家名为Anthropic的AI公司正在打破这一约定。

许多网站为了保护自己的权益试图阻止Anthropic AI公司的爬虫抓取其内部资源。然而，随着该公司不断开发新的爬虫工具并实时更新“robot.txt”，那些来不及更新该文件的网站便成为了被利用的对象。

根据Dark Visitors运营者在接受采访时所说，在帮助其他网站更新"robot.txt"期间他发现现状非常混乱。他表示：“代理生态系统变化迅速，因此网站所有者几乎不可能手动跟上。”

具体来说，关于 Anthropic 公司而言，在 "robot.txt" 文件中添加了 "ANTHROPIC-AI" 和 "CLAUDE-WEB" 两个用于测试目的的爬虫即可解除了限制。然而，如今活跃度最高的爬虫却是“CLAUDEBOT”，因此这些网站并没有阻止它。

此外，“ robot.txt ”文件中有数百个与之类似的拦截列表也未能成功阻止 Anthropic 公司的行为。

网络行业从业者们认为面对 AI 公司的这种行为，积极屏蔽这类机器人/爬虫才是解决问题的关键。StackAware 首席执行官 Walter Haydock 表示支持在 "robot.txt" 中加入大量的可能需要屏蔽的对象，并认为：“如果它们最终不存在，那么防止它们就没有意义。”他还指出，“ robot.txt ”文件实际上只是一个互联网上的约定俗成规则，“对于大多数公司来说，这种情况发生的可能性很低，但我预计创作者会将他们的内容转移到付费观看以防止无限制地抓取。”

展开全文