首页 › 看美国 › 科技记者专栏 › 程帆

小说用于训练ChatGPT OpenAI遭罚30亿(图)

发表：2023-07-08 20:58

手机版正体打赏 0个留言打印特大大中小

ChatGPT
OpenAI研发的ChatGPT需要接受大量的文本资料训练，才能够根据书面提示自动生成文本。（图片来源: LIONEL BONAVENTURE/AFP via Getty Images）

【看中国2023年7月8日讯】（看中国记者程帆编译综合报道）人工智能研究实验所OpenAI因利用大量网络数据，训练ChatGPT聊天机器人，近日被多人提诉，并面临30亿美元以上的罚金，微软公司也在被告之列。

侵犯作家版权

据CNBC的报导，知名小说作家崔布雷（Paul Tremblay）和阿瓦德（Mona Awad）7月5日在旧金山联邦法院起诉OpenAI，指控该机构在未经许可的情况下，拿了他们上千本书籍数据用来训练AI工具，侵犯了作者的版权。

诉状中引用了ChatGPT生成的部分摘要，尽管出现了一些错误，但聊天机器人对原告作品的摘要大多是“非常准确的”。两位作家认为，“ChatGPT保留了训练资料集中特定作品的知识”，即精准的摘要只有在使用这些小说对生成式AI模型进行训练时，“才有可能”生成。

据悉，崔布雷被盗用的作品有“世界尽头的小屋”（The Cabin at the End of the World），阿瓦德则著有“兔子”（Bunny）和“看一个胖女孩的13种方式”（13 Ways of Looking at aFat Girl）等。

由OpenAI研发的ChatGPT需要接受大量的文本资料训练，才能够根据书面提示自动生成文本。它比硅谷科技企业过去的聊天机器人更加先进且具创造力，也因此获得了微软等企业的资助。

尽管该机构未透露过训练ChatGPT过程中确切使用哪些资料，但表示通常在网络上抓取资料，包括使用档案图书和维基百科等。

目前，尚不清楚OpenAI如何回应法庭。

16位匿名者状告OpenAI

事实上，上月底，OpenAI与其合作伙伴微软公司被16位匿名人士指控称，系统性地从网上书籍、文章和发帖中收集了3000亿个单词。“OpenAI这么做是秘密进行的，并没有按照适用法律的要求注册为一家数据经纪商。”

除此之外，被告的两家公司还通过AI工具“搜索、存储、跟踪、共享和披露”了数百万人的讯息，包括产品、账户、邮件、支付信息、交易记录、聊天日志、cookie等其他在线活动。这些信息反映了人们的“爱好、宗教信仰、政治观点、投票记录、团体成员身份、性取向及工作经历、家庭照片、朋友等数据。”

在这份长达157页诉状中称，“就个人信息而言，被告未能将其从被训练模型中全部过滤掉，使得上百万人蒙受着信息立即或以其他方式向世界各地陌生人披露的风险。”

《华盛顿邮报》的报导称，不仅直接使用ChatGPT会使信息被泄露，那些集成了ChatGPT应用程序的用户也遭到波及，例如使用Snapchat、Stripe、Spotify、Microsoft Teams和Slack的用户，也存在信息被泄露的风险。

原告认为，“被告为获取丰厚的利润，没有考量其行为所带来的安全隐患。”为此，他们向微软和OpenAI索赔30亿美元。加州旧金山联邦法院现正在受理此案。

来源:看中国

【诚征荣誉会员】溪流能够汇成大海，小善可以成就大爱。我们向全球华人诚意征集万名荣誉会员：每位荣誉会员每年只需支付一份订阅费用，成为《看中国》网站的荣誉会员，就可以助力我们突破审查与封锁，向至少10000位中国大陆同胞奉上独立真实的关键资讯，在危难时刻向他们发出预警，救他们于大瘟疫与其它社会危难之中。