破AI语料版权乱象 22家机构共建人工智能高质量语料库

中新网深圳5月24日电 (记者索有为)无序爬取、盗版拆解、侵权商用……这是长期困扰人工智能行业的语料侵权乱象。人工智能高质量语料库建设共建单位启动会议23日在深圳举行，首批22家出版、传媒、版权、科技领域权威单位联合签署《人工智能高质量语料库建设公约》，确立“先授权、后使用”的原则，向AI语料侵权顽疾正式亮剑。

当前国内人工智能产业加速落地，大模型对优质知识语料需求呈爆发式增长。但行业长期存在野蛮生长现象：不少AI大模型直接网络爬取原创内容、拆解正版出版物、盗用图文音视频资源用于模型训练，既严重侵害内容创作方与出版机构合法权益，也因语料来源杂乱、内容失准，造成大模型输出谬误频出、逻辑失真、幻觉严重等问题，更暗藏数据安全与文化安全潜在风险。版权确权难、授权难、维权难成为制约行业高质量发展的核心痛点。

本文系作者原创发布，未经许可，禁止转载。

破AI语料版权乱象 22家机构共建人工智能高质量语料库

最新文章

推荐标签