出版商瞄准常见爬虫，争夺 AI 训练数据

nusaiba129 · Post by **nusaiba129** » Mon Feb 17, 2025 3:47 am

2024 年 6 月 15 日

经过
Pace数字新闻

丹麦媒体要求非营利性网络档案馆 Common Crawl 从过去的数据集中删除其柬埔寨电报号码文章的副本并立即停止抓取其网站。这一要求是在人们对 OpenAI 等人工智能公司使用受版权保护的材料的方式日益愤怒之际提出的。

Common Crawl 计划遵从周一首次发布的请求。执行董事 Rich Skrenta 表示，该组织“没有能力”在法庭上与媒体公司和出版商抗争。

丹麦版权联盟 (DRA) 是一个代表丹麦版权持有者的协会，它牵头发起了这项活动。它代表四家媒体提出了这一请求，包括 Berlingske Media 和日报 Jyllands-Posten。去年，《纽约时报》在起诉 OpenAI 未经许可使用其作品之前，也向 Common Crawl提出了类似的请求。《纽约时报》在其投诉中强调，Common Crawl 的数据是 GPT-3 中“权重最高的数据集”。

DRA 内容保护和执行主管 Thomas Heldrup 表示，这项新举措受到了《纽约时报》的启发。Heldrup 说：“Common Crawl 的独特之处在于，我们看到许多大型人工智能公司都在使用他们的数据。”他认为 Common Crawl 的数据对试图与人工智能巨头谈判的媒体公司构成了威胁。

尽管 Common Crawl 对于许多基于文本的生成式 AI 工具的开发至关重要，但它的设计并未考虑到 AI。这家总部位于旧金山的组织成立于 2007 年，在 AI 热潮之前以其作为研究工具的价值而闻名。Mozilla 基金会的数据分析师 Stefan Baack 最近发布了一份关于 Common Crawl 在 AI 训练中的作用的报告，他表示：“Common Crawl 陷入了版权和生成式 AI 的冲突之中。多年来，它只是一个几乎无人知晓的小众项目。”