2023年发生了一件在科技圈引起轩然大波的事件,主角是韩国三星电子。三星电子作为全球半导体行业的巨头,他们掌握着大量关于芯片设计、制造工艺、封装技术、良率控制等方面的核心机密。三星有一个内部使用的人工智能工具平台,员工可以使用类似ChatGPT这样的生成式AI工具来辅助日常的技术工作和研发讨论,但公司内部的信息安全政策对输入AI工具的内容有严格的限制——敏感数据和机密信息严禁输入——因为这些大语言模型在接收用户输入的同时会把输入数据收集起来用作模型训练的素材。

然而政策归政策,员工的实际操作完全是另一回事。三星电子在2023年爆出了一系列严重的数据泄露事件,原因就是多名员工把高度机密的公司内部信息输入到了ChatGPT中。这些员工输入的内容包括:半导体制造工艺中涉及的具体参数和配方、生产设备和材料供应链的详细价格信息、会议记录中讨论的技术路线和产品规划内容,甚至还有人把研发中的源代码直接粘贴到ChatGPT的对话窗口中,要求AI帮忙检查错误或者优化代码。这些人这么做的目的五花八门:有人觉得ChatGPT写代码效率高想让它帮自己打工,有人想用它来快速总结会议纪要,有人只是单纯想测试一下AI的能力。但不管出发点是什么,他们输入的内容都被ChatGPT的服务器完整接收并且按照OpenAI的数据使用政策被用于模型的训练和优化。

三星是怎么发现这个问题的呢?并不是通过什么技术监测手段发现数据已经流出的,而是公司内部在进行合规审查时,通过分析员工对AI平台的使用日志和网络流量记录,发现有大量涉及公司核心技术的数据正被频繁地发送到ChatGPT的API接口。这个发现让三星电子的信息安全团队非常紧张,立刻启动了应急响应,全面限制了对ChatGPT等外部AI工具的访问权限。但那些已经发送出去的数据呢?当你把数据输入ChatGPT之后,它的服务器会记录并处理这些输入,按照OpenAI当时的数据使用规则,输入的内容会作为改进模型的数据集被使用。你没有办法让OpenAI把这些已经进入训练数据池的信息全部删除撤回——它们变成了模型权重中的一部分,变成了公共训练语料中的知识片段。

泄密的链路看起来就是几个普通的操作:三星员工在日常工作中打开了ChatGPT的网页或者通过API接口与服务端建立了连接,把工作中涉及的半导体工艺参数、供应链价格、研发代码等内容直接粘贴到了ChatGPT的对话界面并按下了发送键。这些内容没有经过任何脱敏和加密处理就通过互联网传输到了OpenAI的服务器,成为被处理的训练数据。而且这些数据一旦进入了大型语言模型的训练集,它们就会在模型中形成某种程度的"记忆",当未来其他用户以不同的提示提问时,模型生成的回答有可能包含甚至是被讨论当时输入的那些信息片段。也就是说三星的核心机密可能在未来从ChatGPT的对话中流传出来,被三星的竞争对手或者其他任何人获取到。

三星随后发布内部公告,对员工提出了严厉警告,全面修订了使用外部AI工具的规范。公司层面也着手研发自己的私有化部署的AI工具,这样就能保证数据留存在自己的基础设施之内。但是已经发生的泄密是无法挽回的,教训非常深刻。这个案例的警示意义适用于所有使用AI工具的企业。在这个大模型技术快速普及的时代,每一位员工都需要明确知道:你输入到公共AI工具里的每一行字,都可能变成AI训练素材的一部分。你觉得只是让AI帮你看一段代码、帮你分析一个数据趋势、帮你写一个会议总结,但AI并不知道哪些是你的私人信息、哪些是你公司的核心机密。边界是你自己划的。在把任何工作内容输入AI之前,都应该先问自己一个问题:这个信息如果出现在竞争对手的屏幕上,对我来说会是什么后果?如果答案是"不能接受",那就不要输入。企业需要从管理制度和技术管控两个层面尽快建立关于AI工具使用的安全规范,同时也要投入资源部署企业内部版本的AI工具,这是一个应对趋势不可逆的必由之路。