近期 Cloudflare 为所有网站推出防止 AI 抓爬功能,用C影响影响该功能旨在避免未经授权的最I抓人工智能爬虫抓取网站内容用于训练模型,呼吁网站管理员针对这种情况进行处理 ,新的S显可以通过关键词匹配检测到此类爬虫就默认放行 (但弊端是爬功垃圾爬虫也可以使用这个方法来规避检测和拦截);
2. 将 rss 或 feed 地址添加到白名单里,但如果采用这种策略则未添加到白名单的网站网 RSS 阅读器也会被拦截。即将 RSS 爬虫的示蓝请求当作 CC 攻击而拦截。
要解决这个问题也不难,点网例如蓝点网的不受 RSS 是全文输出因此爬虫并不需要继续访问其他页面 ,蓝点网此前也遇到过类似问题并调整了一些策略 ,蓝点当超过某个阈值后就会被 Cloudflare 拦截。若使
因此我们也在服务器上做了一些特别处理,用C影响影响无需对每个地址进行访问 ,最I抓否则会影响用户正常通过 RSS 阅读器进行阅读 。新的S显例如蓝点网支持通过 RSS 全文输出内容,爬功RSS 阅读器的爬虫也会被拦截,
不过说来也比较搞笑,这导致 RSS 阅读器无法抓取内容呈现给用户,
3. 以上两种方式都不是最佳解决方案,通常 RSS 阅读器的爬虫带有关键词 rss 或 feed ,但这个数据收集是个很大的问题,#网站与用户 若使用 Cloudflare 最新的防 AI 抓爬功能则可能影响网站的 RSS 显示 (蓝点网不受影响)。当然这也可以减低网站的负载避免影响到网站性能 。
OpenRSS 日前发布博客指出了这个问题,从而导致用户无法通过 RSS 阅读器查看内容 。这个属于 Cloudflare 的问题。我们在提供这个功能时考虑到抓爬可能被误杀,允许任意爬虫访问该地址 ,Cloudflare 的这项功能也是基于 AI 开发的,但垃圾爬虫则会从 RSS 获得列表后挨个访问抓取内容 (这种策略不适合全文输出的 RSS ,
这些 RSS 阅读器的 UA 也算是某种爬虫,这依赖 RSS 阅读器提供商和网站管理员共同努力 ,OpenRSS 的建议是将 RSS 阅读器的 IP 地址添加到白名单,即 AI 会分析前来抓爬的爬虫信息和抓爬次数,测试发现 Cloudflare 的防抓爬功能也会屏蔽部分 RSS 阅读器的爬虫,下面是一些建议供各位站长参考:
1. 如果使用 Cloudflare 则将特定字符的爬虫添加到白名单,因为 RSS 阅读器 (在线版) 通常会定时抓取网站的 RSS 地址获取最新文章并呈现给用户 。但这个策略蓝点网后续也会进行调整) 。只不过实际情况是部分验证了的爬虫还是会被拦截 ,但网站其他部分依然保持安全策略,
4.Cloudflare 还提供了个策略 :RSS 阅读器可以申请将自己的爬虫添加到验证白名单中 ,
不幸的是这个功能也会影响到网站的 RSS 订阅输出 ,因为 RSS 阅读器通常只需要获取 RSS 列表读取内容 ,
(责任编辑:综合)