滚动资讯

当前位置：财经 > 财经人物 > 正文内容

OpenAI爬虫狂潮致小公司网站宕机，CEO无奈：数据被“吸干”还得自掏腰包？

时间：2025-01-12 12:32:49 来源：量子位编辑：快讯团队 发表评论无障碍通道

近日，一家仅有7人团队的初创企业Triplegangers遭遇了意想不到的困境，其公司网站突然崩溃，无法正常访问。紧急排查后，CEO和员工们惊讶地发现，导致这一问题的竟是OpenAI的GPTBot爬虫。

GPTBot，作为OpenAI早年推出的一款工具，旨在自动抓取互联网上的数据。然而，Triplegangers的网站却成为了这款工具的“攻击”目标。CEO透露，他们的网站拥有超过65000种产品，每种产品都有一个页面，且每个页面至少包含三张图片。OpenAI的GPTBot在短时间内发送了大量服务器请求，试图下载所有内容，包括数十万张照片及其详细描述。

经过深入分析上周的服务器日志，Triplegangers团队发现，OpenAI使用了超过600个IP地址进行数据抓取。这一行为不仅导致了网站的宕机，还引发了大量的CPU使用和数据下载活动，使得网站在AWS云计算服务上的资源消耗剧增，从而大幅增加了运营成本。

Triplegangers的CEO无奈表示，这基本上就是一场DDoS攻击。尽管Triplegangers的网站上有明确的服务条款，禁止未经许可的AI抓取图片，但显然这并没有起到任何作用。更重要的是，Triplegangers没有正确配置Robot.txt文件，这是告诉搜索引擎网站在索引网络时不要爬取哪些内容的关键文件。

Triplegangers的遭遇并非个例。此前，另一家公司Game UI Database也遭遇了类似的困境。其网站因OpenAI的爬虫行为而几乎瘫痪，每秒被查询2次，导致网站加载速度变慢，用户频繁遭遇502错误。数字产品工作室Planetary的创始人也曾表示，他们为客户重新设计的网站上线后，因Anthropic的爬虫行为导致客户云成本翻倍。

据了解，Triplegangers的7名成员花费了十多年的时间，打造了号称最大“人类数字孪生”的数据库。该网站包含从实际人类模型扫描的3D图像文件，且照片带有详细的标签，涵盖种族、年龄、纹身与疤痕、各种体型等信息。这对于需要数字化再现真实人类特征的3D艺术家、游戏制作者等具有重要价值。

然而，尽管Triplegangers的数据质量极高，但他们却没有正确配置Robot.txt文件来阻止OpenAI的GPTBot爬虫。CEO表示，如果一个网站没有正确配置Robot.txt文件，那么OpenAI和其他公司会认为他们可以随心所欲地抓取内容。这不是一个可选的系统，而是一个必须面对的现实。

截至本周三，Triplegangers已经按照要求配置了正确的Robot.txt文件，并设置了Cloudflare账户来阻止其他AI爬虫。然而，CEO仍然有一个悬而未决的困惑——不知道OpenAI已经从他们的网站中爬取了哪些数据，也联系不上OpenAI。他深表担忧地表示，如果不是GPTBot“贪婪”到让他们的网站宕机，他们可能还不知道它一直在爬取他们的数据。

来自数字广告公司DoubleVerify的一份新研究显示，AI爬虫在2024年导致“一般无效流量”增加了86%。AI公司，尤其是大模型公司，之所以如此疯狂地“吸食”网络上的数据，是因为他们太缺用来训练的高质量数据了。有研究估计，到2032年全球可用的AI训练数据可能就会耗尽，因此AI公司加快了数据收集的速度。

Triplegangers的遭遇引发了网友们的广泛讨论。有人认为GPTBot的做法并不是抓取，更像是“偷窃”的委婉说法。也有网友表示，自从阻止了大公司的批量AI爬虫后，省下了一大笔钱。这一事件再次提醒了在线企业，要想防止大公司未经允许爬虫，必须主动、积极地去查找问题并采取相应的措施。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

西安加盟业主殷淑红：从200万投资失败到加盟张亮麻辣烫月入数万，她仅靠这三个词

从黑龙江到西安，从工程投资失败到餐饮成功，从迷茫无助到信心满满，来自黑龙江的殷淑红走出了一条逆袭之路。作为一位经历过200万元投资失败的创业者，她用不到两年时间让自己的张亮麻辣烫门店实现月入数万。这位性格爽朗、说话带着浓郁东北口音的女老板，依靠的并非什

05-12

百度AI开发者大会亮点：李彦宏力推两大模型降成本，多款AI应用齐亮相

04-25

惠伦晶体实控人遭立案调查，前任董事长赵积清去年业绩已连亏三年

04-25

百度Create大会：李彦宏揭秘两大新模型，力推AI应用新纪元

04-25

百度Create大会：李彦宏力推两大AI新模型，助力开发者拥抱MCP新时代

04-25

贾跃亭重返FF联席CEO，股权激励收益半数将用于偿还国内债务

04-25

谷歌一季度净赚345亿，CEO透露AI已助力完成超三成内部代码

04-25

基金圈大动作！先锋基金高层换血，年内新发基金规模突破3000亿

04-25

李彦宏揭秘百度AI新突破：大模型降价，AI应用爆发在即！

04-25

李彦宏在2025百度AI大会：文心大模型4.5 Turbo等新品震撼发布！

04-25

董明珠拒用海归引争议，大V“留几手”放话：不道歉不买格力产品

04-25

AI教育新纪元：精准学打造超拟人老师Agent，4月销售额近亿

04-25

董明珠炮轰小米汽车背后：格力钛的安全真相究竟如何？

04-25

百度AI价格战再升级，李彦宏：模型再强，无应用则无价！

04-25

中国海油董事长汪东进卸任，油气增储上产七年计划成果如何？

04-25

点击查看更多 +

全站最新

苹果命名体系大变革：iPhone迎来时间印记，18或成绝响？

朱迅景区英勇救人成典范，获聘文旅大使，见义勇为应受赞

中学生登顶珠峰能否保送清北？清华回应：无此计划

朱迅甘孜救人获赞誉，新晋文旅大使身份引关注！

朱迅甘孜救人后获新荣誉，文旅大使身份助力圣洁甘孜走向世界！

刘若英执导新剧陷抄袭争议，出品方力证原创，导演生涯面临考验

热门内容

西安加盟业主殷淑红：从200万投资失败到加盟张亮麻辣烫月入数万，她仅靠这三个词

本栏最新

百度AI开发者大会亮点：李彦宏力推两大模型降成本，多款AI应用齐亮相

惠伦晶体实控人遭立案调查，前任董事长赵积清去年业绩已连亏三年

百度Create大会：李彦宏揭秘两大新模型，力推AI应用新纪元

百度Create大会：李彦宏力推两大AI新模型，助力开发者拥抱MCP新时代

贾跃亭重返FF联席CEO，股权激励收益半数将用于偿还国内债务

基金圈大动作！先锋基金高层换血，年内新发基金规模突破3000亿

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.