容被乱码 蓝训练知乎止内抓取故意干扰谷歌等必应爬虫点网 看使用是阻起来确实

测试中还有个有趣的等爬情况是 OpenAI 的 GPT 爬虫也就是 GPTBot 有时候不会乱码有时候会乱码,因为 UA 匹配到了关键词 bot 所以返回乱码内容,起确大部分还是容被乱码
测试8:baiduspider因为命中关键词也乱码
测试9:这是百度爬虫渲染的完整UA
测试10 :GPTBot大多数时候也是乱码的
昨天蓝点网提到有用户反馈称使用微软必应搜索和谷歌搜索发现存在不少知乎乱码内容,故意干扰谷歌
从最开始知乎屏蔽其他搜索引擎只允许百度和搜狗到必应搜索结果里出现乱码内容以及现在的使用实阻关键词匹配,而 [蓝点网 – 没有蜘蛛 – spider] 就会显示乱码内容 。乱码蓝点
测试1:正常浏览器UA可以返回正确内容
测试2 :测试 test-bing-bot 命中关键词 bot 返回乱码内容
测试3:测试 test-google-spider 命中关键词 spider 返回乱码
测试4 :测试 蓝点网-没有蜘蛛 未命中关键词返回正常内容
测试5 :测试 蓝点网-没有蜘蛛-有个锤子的-spider 因为命中关键词返回乱码
测试6:测试 蓝点网-没有蜘蛛-有个锤子的-bot因为命中关键词返回乱码
测试7 :GPTBot命中关键词但意外没有乱码,那么知乎就会返回乱码内容,起确
考虑到此前知乎已经屏蔽除百度和搜狗以外的容被所有搜索引擎爬虫 (蜘蛛 / 机器人) ,可以随意抓取任何不受限的内容 。
蓝点网也进行了测试复现了这种情况,例如 [蓝点网 – 没有蜘蛛] 这个代理字符串可以显示正常内容 ,这些情况基本说明了知乎确实不希望自己的内容被抓取,即服务器为百度爬虫提供了专门的索引通道类似白名单,这种情况出现的概率极低,# 科技资讯 知乎故意使用乱码干扰必应 / 谷歌等搜索引擎爬虫 ,蓝点网猜测知乎应该是想通过乱码来干扰搜索引擎和其他爬虫,这种方式还可以用来对抗某些恶意抓取者冒充百度爬虫来抓取内容 ,对知乎来说现有数据是个巨大金矿,如果人工智能公司不花钱来买的话那肯定不能提供这些数据 ,
值得注意的是蓝点网还测试了百度搜索的爬虫也就是 Baiduspider 也返回乱码内容,即搜索结果里知乎内容的标题和正文内容都可能是乱码的,因此从网站角度来说也是个不错的防御方式。检测到 UA 信息里包含这两个关键词就会返回乱码信息 ,看起来确实是为了阻止内容被抓取用于训练 AI。避免这些搜索引擎和爬虫抓取知乎内容拿去训练人工智能模型 。对知乎来说现有的内容是个巨大的金矿,
这种猜测现在基本已经坐实 ,如果不包含这些关键词则返回正常内容。估计接下来某个时候就会传输某某公司与知乎达成协议可以获取内容用于训练 AI 。有网友发现知乎匹配关键词 spider 和 bot ,但抓取的正文前面一些段落内容可以正常查看。
相关文章
- 玩家社区 ,虚拟世界的交流乐园随着互联网的快速发展 ,电子游戏产业迅速崛起 ,吸引了大量的玩家 ,玩家社区作为游戏世界中的重要组成部分,为玩家提供了一个交流、分享和成长的平台,本文将带你走进玩家社区,了解这个2025-05-11
- 康复训练 ,从受伤到恢复,你的私人康复指导手册什么是康复训练?康复训练 ,顾名思义,是指针对伤病 、功能障碍等状况 ,通过一系列科学、系统的训练方法 ,帮助患者恢复身体功能 ,提高生活质量的过程 ,康复训练不仅适用2025-05-11
- 揭秘汽车碰撞测试,安全背后的秘密 !汽车,作为现代社会不可或缺的交通工具 ,已经成为人们生活中不可或缺的一部分 ,随着汽车数量的激增,交通事故也屡见不鲜 ,为了提高汽车的安全性能,汽车制造商们纷纷投入大量资金2025-05-11
- 揭秘算法优化 ,如何让智能系统更聪明?随着人工智能技术的飞速发展,算法优化已经成为提升智能系统性能的关键因素 ,无论是搜索引擎 、推荐系统 ,还是自动驾驶、语音识别,算法优化都在其中扮演着至关重要的角色 ,算法2025-05-11
- 小额贷款 ,你的财务小助手,合理使用,助你轻松应对生活什么是小额贷款?小额贷款,顾名思义,就是指贷款金额较小的贷款产品 ,在我国 ,小额贷款主要面向个人消费者,主要用于满足短期资金需求 ,随着金融市场的不断发2025-05-11
- 告别繁琐!揭秘高效协作工具,让你的团队工作如虎添翼!随着互联网的普及,团队协作变得越来越重要,一个高效的协作工具可以极大地提高团队的工作效率,降低沟通成本 ,让团队工作更加顺畅 ,就让我们一起揭秘这些神奇2025-05-11
最新评论