出版商瞄准常见爬虫,争夺 AI 训练数据

Enhancing business success through smarter korea database management discussions.
Post Reply
nusaiba129
Posts: 616
Joined: Tue Dec 24, 2024 3:55 am

出版商瞄准常见爬虫,争夺 AI 训练数据

Post by nusaiba129 »

2024 年 6 月 15 日

经过
Pace数字新闻

丹麦媒体要求非营利性网络档案馆 Common Crawl 从过去的数据集中删除其 柬埔寨电报号码 文章的副本并立即停止抓取其网站。这一要求是在人们对 OpenAI 等人工智能公司使用受版权保护的材料的方式日益愤怒之际提出的。

Common Crawl 计划遵从周一首次发布的请求。执行董事 Rich Skrenta 表示,该组织“没有能力”在法庭上与媒体公司和出版商抗争。

丹麦版权联盟 (DRA) 是一个代表丹麦版权持有者的协会,它牵头发起了这项活动。它代表四家媒体提出了这一请求,包括 Berlingske Media 和日报 Jyllands-Posten。去年,《纽约时报》在起诉 OpenAI 未经许可使用其作品之前,也向 Common Crawl提出了类似的请求。《纽约时报》在其投诉中强调,Common Crawl 的数据是 GPT-3 中“权重最高的数据集”。

DRA 内容保护和执行主管 Thomas Heldrup 表示,这项新举措受到了《纽约时报》的启发。Heldrup 说:“Common Crawl 的独特之处在于,我们看到许多大型人工智能公司都在使用他们的数据。”他认为 Common Crawl 的数据对试图与人工智能巨头谈判的媒体公司构成了威胁。

尽管 Common Crawl 对于许多基于文本的生成式 AI 工具的开发至关重要,但它的设计并未考虑到 AI。这家总部位于旧金山的组织成立于 2007 年,在 AI 热潮之前以其作为研究工具的价值而闻名。Mozilla 基金会的数据分析师 Stefan Baack 最近发布了一份关于 Common Crawl 在 AI 训练中的作用的报告,他表示:“Common Crawl 陷入了版权和生成式 AI 的冲突之中。多年来,它只是一个几乎无人知晓的小众项目。”
Post Reply