“盗窃”而来的 3000 亿单词？ChatGPT 摊上事了，遭索赔 30 亿美元！

2016年10月19日，英国剑桥大学理论物理学教授 Stephen Hawking 曾预言:“强大 AI 的崛起，可能将是人类遇到的最好的事情，也可能是最坏的事情。”

此后7年还不到，Stephen Hawking 教授的预言似乎就“成真”了:在近半年的 ChatGPT 热潮下，很多人看见了它的强悍和优势，但同时也有越来越多人开始担心 AI 时代下的隐私保护——于是，近来凭借 ChatGPT 和 GPT-4风头正盛的 OpenAI 和微软，突然就被告了。

上周，16位匿名人士决定起诉微软和 OpenAI，称这两家公司基于 ChatGPT 的 AI 产品在未获得同意或提供充分通知的情况下，收集并泄露了他们的个人信息，要求索赔30亿美元。

(资料图)

“盗窃”而来的3000亿单词?

根据这16人提交给加利福尼亚州旧金山联邦法院、长达157页的诉讼书显示，OpenAI 和微软被指控违反了《电子通讯隐私法》，即无视获取 AI 模型数据的合法途径，选择在不付费的情况下收集数据。

“尽管存在购买和使用个人信息的既定程序，但被告（OpenAI 和微软）还是采取了不同的方式:盗窃。”

在最初 ChatGPT 刚爆火的时候，OpenAI 就曾介绍过 ChatGPT 的强大功能，来自大规模预训练——它有3000亿单词的语料库预训练。但原告称，OpenAI 从互联网上的书籍、文章和发帖中所获取的3000亿字内容，远远超过其合理授权的范围。

具体来说，这16人指控JbEALivOVQOpenAI 和微软通过其 AI 产品“收集、存储、跟踪、共享和披露”数百万人的个人信息，并且获得的信息范围很广，包括产品细节、账户信息、姓名、联系方式、登录凭证、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、Cookie、搜索记录和其他在线活动等等。

原告坚称，在“从全球数百万毫无戒心的消费者那里非法收集个人资料”后，微软和 OpenAI 将其嵌入至他们的 AI 模型中，这才创造出了现在的 ChatGPT 等 AI 产品:

▶ “OpenAI 大规模使用窃取并盗用个人信息，以此创造了强大且利润丰厚的 AI 产品，并不顾风险地将其对外发布。”

▶“OpenAl 的技术价值已高达到数百亿美元，而且其进入每一个公共和私营行业的范围还在继续迅速扩大。由于对被盗、盗用数据的培训，这些产品才达到了如今的复杂程度。”

除了指控 OpenAI “盗窃”数百万互联网用户的个人隐私，诉讼书中还强调了 OpenAI 和微软之间的密切合作关系:“微软对 OpenAl 持续投资，并在其多个平台上都引入了 ChatGPT，强调其与 OpenAl 合作的深度。通过这些投资，微软还获得了独家使用整个 OpenAI 代码库的权利。”

很少提到 AI 的具体伤害案例

整整157页诉讼书中，引用了大量媒体报道和学术论文，反复强调了原告对 AI 模型发展下道德规范的担忧。不过据了解，其中并没有提到多少 AI 对人类的具体伤害案例。

例如，在提到2019年 OpenAI 重组为一家“有限营利企业”时，诉讼书表示 “OpenAI 放弃了最初的目标和原则，选择以牺牲隐私安全和道德为代价来追求利润”，并由此推断 OpenAI 加大了从互联网上“秘密获取”大量个人数据的力度，而不通知这些数据的所有者或用户。

此外，在指控 OpenAI 无视隐私法的同时，文件引用了 OpenAI 首席执行官 Sam Altman 的一句发言:“AI 很可能会导致世界末日，但与此同时，也会出现伟大的公司。”而基于这句话，诉讼书表示:“被告对隐私法的漠视，与他们对人类潜在灾难性风险的漠视不相上下。”

总体而言，在这份157页的诉讼书中，微软和 OpenAI 被指控违反了《电子隐私通信法》，即在没有获得授权的情况下使用私人信息以求牟利。同时，因为插件拦截互动数据，微软和 OpenAI也违反了《计算机欺诈和滥用法》。

基于以上，考虑到被“盗取”数据的群体应该有数百万人，原告向微软和 OpenAI 提出了30亿美元的索赔。

微软和 OpenAI 并未回应

截至目前，微软和 OpenAI 都没有对这份指控作出回应，而网友对于这起诉讼的讨论早已泛滥。

部分人对于 OpenAI 如何“窃取”并利用个人数据的方式感到好奇，外媒 Firstpost 解释道:“如果你在最近几十年里一直在网上活跃，你的数据就很可能被纳入 OpenAI 的数据集。因此，OpenAI 语言模型产生的任何输出，如果用于盈利，其中就可能包含通过无声搜刮而获得的你的数据片段。”

对此，起诉 OpenAI 的律师事务所方面也进行了补充:用户的个人数据“最初并不是打算编程客栈给大型语言模型使用的”，所有信息都是 OpenAI 自己去大规模获取的。

至于这场诉讼的最终结果，目前来看应该并不确定。互联网的基础设施很复杂，在线平台与用户有自己的条款和协议，即使用户向这些平台贡献内容，数据所有权也通常属于平台本身而非用户。

对于这个说法，知识产权律师 Katherine Gardner 也是认同的:当用户将内容上传到社交媒体或任何其他网站时，他们通常会授予平台以各种方式使用其内容，因此普通用户可能很难要求因在训练模型中使用其数据而获得相应的补偿。