【ITBEAR科技资讯】8月1日消息,Reddit的CEO史蒂夫・霍夫曼近日公开表示,微软等公司若希望继续获取Reddit网站的数据,将需要支付费用。Reddit此前已经与谷歌和OpenAI达成了相关协议。
霍夫曼强调,如果没有这些明确的协议,Reddit将无法掌控或知悉其数据如何被使用,这使得他们不得不屏蔽那些不接受数据使用条款的公司。他特别提到了微软、Anthropic和Perplexity三家公司,批评他们拒绝进行谈判,并称对这些公司的封锁“极其繁琐”。
据ITBEAR科技资讯了解,近几个月来,Reddit在反爬虫方面采取了更为严格的措施。7月初,Reddit对其robots.txt文件进行了更新,以此屏蔽未经许可的网络爬虫。随后,用户们发现,Reddit的内容仅在谷歌搜索结果中显示,而在其他搜索引擎如Bing上则无法找到。
霍夫曼指责微软在未经授权的情况下,利用Reddit的数据进行AI训练,并在Bing搜索结果中整合Reddit的内容,甚至通过Bing API将这些数据出售给其他搜索引擎。他还对微软AI负责人穆斯塔法・苏莱曼之前的言论进行了回应,苏莱曼曾称互联网上的公共数据为“免费软件”。霍夫曼表示,微软等公司的真实立场是认为互联网上的所有内容都可以供他们无偿使用。
对于Reddit内容从Bing搜索结果中消失一事,微软搜索主管乔迪・里巴斯在社交平台上指出,这是因为Reddit屏蔽了Bing的爬虫,同时偏袒另一家搜索引擎,这对Bing以及基于Bing的搜索引擎构成了竞争上的不利影响。微软发言人凯特琳・劳尔顿也声明,公司尊重那些不希望其内容被用于生成式AI模型的网站意愿。
霍夫曼以OpenAI的SearchGPT为例,说明了付费协议的重要性。今年初,Reddit与OpenAI达成了协议,允许SearchGPT展示Reddit的内容。Reddit的发言人蒂姆・拉特施密特澄清,目前签订的所有内容许可协议均不涉及数据的独家使用权。
Reddit的这种付费要求与传统媒体出版商的做法相似,他们也期望从允许其内容用于生成式AI中获得经济回报。霍夫曼认为,搜索引擎的传统价值交换方式已经转变,搜索、摘要和训练正在逐步融合,单纯依赖爬取内容以换取流量的模式已变得模糊不清。