早在11年前,扎克伯格以190亿美元的价格收购WhatsApp,从而确保了后续Meta社交帝国的固若金汤。然而在11年后,当Meta的AI业务有了掉队的征兆时,扎克伯格故技重施,豪掷148亿美元买下了人工智能数据标注公司Scale AI的49%股份,试图在这一轮AI竞赛中实现后发先至。
然而就在Meta与Scale AI的交易落地后,事情的发展开始超出他们的预料。OpenAI公司发言人在当地时间6月18日向彭博社方面证实,在Meta与Scale AI达成交易后,OpenAI将逐步停止与Scale AI的合作,并切断与这家数据供应商的联系。
无独有偶,路透社在6月16日的相关报道就曾显示,谷歌正计划结束与Scale AI的合作关系。作为Scale AI最大的客户之一,谷歌原定于今年向其支付2亿美元来获得AI训练数据,但目前他们拟终止合作、选择向Scale AI的竞争对手寻求合作。对此,数据标注公司Labelbox联合创始人马努·夏尔马公开表示,该公司将从Scale AI流失的客户处“创造数亿美元的新收入”。
作为一家以数据标注为核心业务的AI基础设施公司,被Meta纳入麾下的Scale AI注定会与OpenAI、谷歌分道扬镳。正如AI编程初创企业Windsurf在被OpenAI以30亿美元价格收购后,随即就遭遇了Anthropic削减其Claude 3.x模型的调用配额,而Anthropic给出的回应“优化长期合作伙伴的模型容量分配”,也被外界一致认为是托词,真正的原因是其不愿意看到Windsurf为OpenAI所用。
相比AI编程工具,作为目前AI大模型三驾马车之一的数据,显然还要敏感得多。毕竟Scale AI提供的数据标注、清洗工作相当于是大模型训练的基础,而Scale AI改姓Meta,OpenAI、谷歌等公司自然就会担忧给予Scale AI的订单,会泄露自己未来AI战略的方向,所以他们如今的反应也就很好理解了。
不得不说,Meta收购Scale AI可谓是一石二鸟。当下AI行业的一大特点就是“有多少人工、就有多少智能”,由于数据是AI大模型的基础,它的原理可以总结为在海量数据的基础上进行预训练,再辅以监督微调带来的性能改进,而AI大模型之所以比以往的AI产品表现得更聪明,就是因为数据规模更大。
当下AI行业最大的问题,就在于Common Crawl、The Pile等开源且质量有保障的数据集已经被使用完毕。除了公开优质数据被挖掘殆尽之外,即使是算法仿真出来的合成数据,同样也需要有足够的自然数据来作为基础,并且AI大模型过于依赖合成数据还可能会直接“崩溃”。
这时候像Scale AI这类提供数据清洗、数据标注服务的公司,就成为了新的数据来源。在Meta收购Scale AI后,相当于有了一个稳定的高质量数据供给,进而可以帮助Llama模型继续进化。可是在友商的视角下,Scale AI成为Meta的“家人”带来的后果可就太恐怖了。
当Scale AI失去中立者的角色,自然就无法与他们的客户形成互信。再加上预训练数据泄露、导致自家AI业务发展方向被提前曝光,其实还只是小问题,OpenAI与谷歌真正害怕的是数据投毒攻击(Data Poisoning Attack),即向AI大模型投放被污染的有害数据,进而导致模型性能下降。
不同于通过发现漏洞、再编写代码的传统网络攻击,针对AI大模型的数据投毒攻击其实更难防备。目前数据投毒攻击的目标,主要是用于训练机器学习的数学能力,并非是在训练模型的参数中找到问题的关联性,而是要通过修改训练数据,就将这些关联性植入到模型中。
根据AI安全研究人员的说法,只需要“毒害”不到0.7%数据就可以完全绕过AI厂商的防御,导致输出内容的准确率大幅下降。
那么问题就来了,过去几年的时间里,为何极少出现数据投毒攻击的成功案例呢?这是因为攻击者必须能够访问AI大模型的训练管线,然后才可以分发中毒模型。
例如被起诉要赔偿800万元的字节跳动前实习生,他之所以能成功对字节跳动的AI模型投毒,源于其AI Lab的实习生权限与正式员工差异不大。毕竟“堡垒总是从内部被攻破”的,作为数据供应商的Scale AI一旦从源头就提供有毒的数据,OpenAI和谷歌的AI大模型训练节奏就势必会受到影响。
如果与字节跳动的前实习生一样,Scale AI一旦无规律地污染数据,就必然会导致OpenAI、谷歌的大模型训练效果忽高忽低、非常不稳定,并且始终无法产生预期的训练结果。更为致命的是这种攻击其实相当难分辨,即便是此前字节跳动排查不专业的前实习生,也花了差不多两个月才查明真相。
可是对于如今时间就是金钱的AI赛道来说,AI大模型训练进程被拖延显然是OpenAI和谷歌无法接受的事情。看到这里,可能有的朋友会问,Scale AI被Meta收购后真的会做出危害OpenAI、谷歌等合作伙伴的事情吗?只能说千万不要高估这一批看起来高大上的互联网巨头的节操,特别是还有剑桥分析丑闻前科的Meta。
因此为了防患于未然,OpenAI和谷歌当然也不愿意去赌一赌Scale AI被Meta收购后,还是否依然能保持中立。