Skip to content Skip to sidebar Skip to footer

为何大模型纷纷开源?马斯克公布价值3140亿美元的Grok参数

特斯拉CEO埃隆·马斯克(Elon Musk)向大模型领域投下一枚重磅炸弹。

北京时间3月18日凌晨,马斯克旗下的大模型公司xAI在其官网宣布开源了具有3140亿参数的大模型Grok-1,同时公开了该模型的权重和网络架构。

这是目前参数量最庞大的开源模型,此前备受关注的Meta开源的Llama 2拥有700亿参数。在其GitHub页面上,官方提示,由于Grok模型规模巨大,需要配备足够GPU和内存的机器才能顺利运行。

大模型厂商纷纷加入开源潮流。

据xAI官方发布的公告介绍,Grok-1是一款由xAI从头开始训练的混合专家(MoE)模型。目前开源的是其2023年10月的原始基础模态,尚未经过任何任务微调,这意味着该模型尚未针对特定应用进行优化。

xAI遵循Apache 2.0许可证开源了Grok-1的权重和架构。Apache 2.0许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。

马斯克一直是开源的坚定支持者,对OpenAI闭源的商业路径表示不满。几周前,他向法院提起诉讼,指控OpenAI及其CEO奥尔特曼(Sam Altman)违反合同,要求该公司恢复开源。马斯克在诉讼中表示,OpenAI违背了公司初始协议,即开发技术以造福人类而不是追求利润。他指责OpenAI与科技巨头微软的合作损害了该公司最初致力于公开和通用人工智能(AGI)的目标。

马斯克于2023年成立xAI,旨在防止人工智能领域的垄断现象。随后,xAI推出了Grok大语言模型。

Grok开源后,ChatGPT官方账号在评论区亮相,马斯克发表正面回应:“告诉我们更多关于OpenAI‘开放’的部分”。

与以OpenAI为代表的闭源路径相反,越来越多的大模型厂商选择开源。在3月18日,国内创企潞晨科技的Colossal-AI团队宣布,全面开源Open-Sora模型参数和所有训练细节。Open-Sora是一个类似Sora架构的视频生成模型,采用了当前热门的Diffusion Transformer(DiT)架构。

潞晨科技成立于2021年7月,创始人尤洋是加州伯克利大学博士、新加坡国立大学计算机系的校长青年教授。

潞晨科技在官方发文中介绍了团队使用低成本方法复现Sora的过程。在复现过程中,团队共使用了64块H800进行训练。第二阶段训练总共耗费了2808 GPU小时,约合7000美元,而第三阶段训练耗费了1920 GPU小时,约4500美元。成功将Open-Sora的复现成本控制在了1万美元左右。

关于技术细节,官方提到,在代码仓库中提供了方便的视频数据预处理脚本,以降低Sora复现的门槛和复杂度。这些脚本包括公开视频数据集下载、将长视频按镜头连续性分割为短视频片段以及使用开源大语言模型LLaVA生成精细的提示词。团队提供的批量视频标题生成代码可以用两张显卡在3秒内标注一个视频,并且质量接近于GPT-4V。最终得到的视频/文本对可以直接用于训练。

2023年7月,Meta公司公布了最新的开源大型模型Llama 2,其中包括70亿、130亿和700亿参数三种类型,并宣布可以免费用于商业或研究。当时,Meta公司明确表示,开放的方法是当今人工智能模型发展的正确方式,尤其是在技术迅速发展的生成领域。通过公开提供人工智能模型,他们可以让每个人受益。

最近一次具有较大影响力的开源行动是谷歌公司在2月22日宣布推出开源模型系列Gemma,其中包括Gemma 2B和Gemma 7B,并且模型权重也一并开源,并允许商业用途。

倒带到半年多前的2023年5月,一份谷歌公司内部文件在网上曝光并引发了热议。这份内部文件指出,开源大型模型的迅速发展正在侵蚀OpenAI和谷歌等公司的市场份额。文件认为,除非改变闭源立场,否则开源替代品最终将使这两家公司黯然失色。

“虽然我们的模型在质量方面仍稍稍领先,但(闭源和开源模型之间)的差距正在以惊人的速度缩小。”文件写道。外界证实了该内部文件的真实性,而文件的原作者是谷歌高级软件工程师Luke Sernau。

开源模式的不断演进已经威胁到一些闭源模型的生存。文件指出,开源大型模型的许多创新都源于Meta LLaMA模型的泄露,但Meta公司反过来成为了这一过程的明显受益者——他们几乎相当于获得了全球范围内的免费劳动力,“生态系统的价值难以言喻。”

“开源的最终目的是实现商业化。”大型模型领域的开源趋势将促进和推动该行业的商业化发展,快速迭代、快速试错、共同创造和分享风险,对于该生态系统而言只有好处,没有坏处,“开源只会越来越兴旺,不会向闭源方向发展。”

在Llama 2开源时,Meta公司CEO马克·扎克伯格曾对其进行了支持,称Llama 2是大型模型的“下一代”产品。他表示,开源推动了创新,因为它让更多开发者能够使用新技术。同时,软件开源意味着更多人可以审查并识别并修复可能存在的问题,从而提高了安全性。“我相信,如果生态系统更加开放,将会释放更多的进步,这也是我们开源Llama 2的原因。”

然而,在开源的同时,一些厂商并没有完全放弃闭源的道路。来自法国的Mistral AI最初是以开源起家的,其开源的Mistral 7B曾被誉为最优秀的7B模型之一,该初创公司甚至被称为“欧洲的OpenAI”。然而,最近,Mistral AI发布了性能最强大的旗舰模型Mistral Large,虽然性能可与GPT-4媲美,但并没有选择开源。其CEO阿瑟·门斯(Arthur Mensch)公开表示,未来他们仍将坚持开源理念,但同时也将推出性能最强大的闭源模型来参与商业竞争。

马斯克此次再次开源了目前参数量最大的Grok模型,再次引发了大型模型领域的争论。到底是闭源还是开源的路线更胜一筹?这一问题尚无定论。对于科技界而言,正如OpenAI公司CEO奥尔特曼在3月18日凌晨的推文所说,“这是人类历史上最有趣的一年,除了未来的所有年份。”

Leave a comment