特斯拉CEO埃隆·马斯克(Elon Musk)向大模型领域投下一枚重磅炸弹。
北京时间3月18日凌晨,马斯克旗下的大模型公司xAI在其官网宣布开源了具有3140亿参数的大模型Grok-1,同时公开了该模型的权重和网络架构。
这是目前参数量最庞大的开源模型,此前备受关注的Meta开源的Llama 2拥有700亿参数。在其GitHub页面上,官方提示,由于Grok模型规模巨大,需要配备足够GPU和内存的机器才能顺利运行。
大模型厂商纷纷加入开源潮流。
据xAI官方发布的公告介绍,Grok-1是一款由xAI从头开始训练的混合专家(MoE)模型。目前开源的是其2023年10月的原始基础模态,尚未经过任何任务微调,这意味着该模型尚未针对特定应用进行优化。
xAI遵循Apache 2.0许可证开源了Grok-1的权重和架构。Apache 2.0许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。
马斯克一直是开源的坚定支持者,对OpenAI闭源的商业路径表示不满。几周前,他向法院提起诉讼,指控OpenAI及其CEO奥尔特曼(Sam Altman)违反合同,要求该公司恢复开源。马斯克在诉讼中表示,OpenAI违背了公司初始协议,即开发技术以造福人类而不是追求利润。他指责OpenAI与科技巨头微软的合作损害了该公司最初致力于公开和通用人工智能(AGI)的目标。
马斯克于2023年成立xAI,旨在防止人工智能领域的垄断现象。随后,xAI推出了Grok大语言模型。
Grok开源后,ChatGPT官方账号在评论区亮相,马斯克发表正面回应:“告诉我们更多关于OpenAI‘开放’的部分”。
与以OpenAI为代表的闭源路径相反,越来越多的大模型厂商选择开源。在3月18日,国内创企潞晨科技的Colossal-AI团队宣布,全面开源Open-Sora模型参数和所有训练细节。Open-Sora是一个类似Sora架构的视频生成模型,采用了当前热门的Diffusion Transformer(DiT)架构。
潞晨科技成立于2021年7月,创始人尤洋是加州伯克利大学博士、新加坡国立大学计算机系的校长青年教授。
潞晨科技在官方发文中介绍了团队使用低成本方法复现Sora的过程。在复现过程中,团队共使用了64块H800进行训练。第二阶段训练总共耗费了2808 GPU小时,约合7000美元,而第三阶段训练耗费了1920 GPU小时,约4500美元。成功将Open-Sora的复现成本控制在了1万美元左右。
关于技术细节,官方提到,在代码仓库中提供了方便的视频数据预处理脚本,以降低Sora复现的门槛和复杂度。这些脚本包括公开视频数据集下载、将长视频按镜头连续性分割为短视频片段以及使用开源大语言模型LLaVA生成精细的提示词。团队提供的批量视频标题生成代码可以用两张显卡在3秒内标注一个视频,并且质量接近于GPT-4V。最终得到的视频/文本对可以直接用于训练。
2023年7月,Meta公司公布了最新的开源大型模型Llama 2,其中包括70亿、130亿和700亿参数三种类型,并宣布可以免费用于商业或研究。当时,Meta公司明确表示,开放的方法是当今人工智能模型发展的正确方式,尤其是在技术迅速发展的生成领域。通过公开提供人工智能模型,他们可以让每个人受益。
最近一次具有较大影响力的开源行动是谷歌公司在2月22日宣布推出开源模型系列Gemma,其中包括Gemma 2B和Gemma 7B,并且模型权重也一并开源,并允许商业用途。
倒带到半年多前的2023年5月,一份谷歌公司内部文件在网上曝光并引发了热议。这份内部文件指出,开源大型模型的迅速发展正在侵蚀OpenAI和谷歌等公司的市场份额。文件认为,除非改变闭源立场,否则开源替代品最终将使这两家公司黯然失色。
“虽然我们的模型在质量方面仍稍稍领先,但(闭源和开源模型之间)的差距正在以惊人的速度缩小。”文件写道。外界证实了该内部文件的真实性,而文件的原作者是谷歌高级软件工程师Luke Sernau。
开源模式的不断演进已经威胁到一些闭源模型的生存。文件指出,开源大型模型的许多创新都源于Meta LLaMA模型的泄露,但Meta公司反过来成为了这一过程的明显受益者——他们几乎相当于获得了全球范围内的免费劳动力,“生态系统的价值难以言喻。”
“开源的最终目的是实现商业化。”大型模型领域的开源趋势将促进和推动该行业的商业化发展,快速迭代、快速试错、共同创造和分享风险,对于该生态系统而言只有好处,没有坏处,“开源只会越来越兴旺,不会向闭源方向发展。”
在Llama 2开源时,Meta公司CEO马克·扎克伯格曾对其进行了支持,称Llama 2是大型模型的“下一代”产品。他表示,开源推动了创新,因为它让更多开发者能够使用新技术。同时,软件开源意味着更多人可以审查并识别并修复可能存在的问题,从而提高了安全性。“我相信,如果生态系统更加开放,将会释放更多的进步,这也是我们开源Llama 2的原因。”
然而,在开源的同时,一些厂商并没有完全放弃闭源的道路。来自法国的Mistral AI最初是以开源起家的,其开源的Mistral 7B曾被誉为最优秀的7B模型之一,该初创公司甚至被称为“欧洲的OpenAI”。然而,最近,Mistral AI发布了性能最强大的旗舰模型Mistral Large,虽然性能可与GPT-4媲美,但并没有选择开源。其CEO阿瑟·门斯(Arthur Mensch)公开表示,未来他们仍将坚持开源理念,但同时也将推出性能最强大的闭源模型来参与商业竞争。
马斯克此次再次开源了目前参数量最大的Grok模型,再次引发了大型模型领域的争论。到底是闭源还是开源的路线更胜一筹?这一问题尚无定论。对于科技界而言,正如OpenAI公司CEO奥尔特曼在3月18日凌晨的推文所说,“这是人类历史上最有趣的一年,除了未来的所有年份。”
https://aimodel.it/wp-content/uploads/2022/11/1484233511-1-192.mp4视频来源:B站UP 玩AI的小曾
近年来,随着技术的飞速发展,数字生命成为社会热议的焦点。然而,与大众对其活灵活现、虚实难辨的印象不同,数字生命的多样性决定了其丰富多彩的形态。
究竟什么是数字生命?
如果说生命在于延续和变化,那么数字生命或许早在20世纪末就已诞生。这些能够自主进化和自我复制的计算机程序可能与我们当下的想象相去甚远,但正是这种以“进化”和“复制”为设计目标的程序奠定了数字生命概念的基础。
随着计算能力的提升,人工智能技术不断突破,AI模型已能准确模拟人物身份并与使用者交互。AI模型对外界信息做出反应,并通过学习不断提高自我认知能力,已接近数字生命的定义。利用AI模拟人格已成网络社区的潮流,越来越多的人选择在社交媒体上分享由AI生成的数字形象,甚至尝试与其对话。数字人格、虚拟人也逐渐成为数字生命的代名词。
网络的普及赋予每个使用者数字身份,我们在网络中交流时也在某种程度上被数字化。当虚拟与现实的边界变得模糊,数字生命不再独立于现实生命,人们同时拥有现实生命和数字生命。这种数字生命不一定以具体的形象呈现,而是由个人在数字世界中的全部投射构成,数字身份是其初级表现。
数字生命的核心在于与外界的交互,它可以是在传播过程中不断自我复制和进化的程序,也可以是能与人无障碍交流的AI和机器人,还可以是互联网空间的虚拟人。
数字生命将带来怎样的变革?
数字生命具有与现实生命不同的特性。以AI模型为例,虽然其尚不能实现完全的独立思考、自我进化和复制,但已表现出远超人类的知识储备和分析能力。AI模型不受寿命、健康因素影响,可以连续从事某项工作,结合网络技术更能突破物理空间的限制,具有广泛的应用潜力。数字虚拟人在公益事业和服务行业中有着广泛的应用前景,它们不仅能精确分析用户的表情和语言表达,还能提供全面多样的解决方案,甚至生成声音、图片、视频以帮助用户理解。
数字生命正在改变人类的知识交流和生产模式。尽管科幻电影中实现意识永存的数字生命仍遥不可及,但通过完整的数据记录模拟出数字人已不再难事。个人信息的记录实际上是对自然生命的数字化,这些数据又可用于重建虚拟人格。 我们应该关注什么?
数字生命的实现并不意味着人类社会要全部生活在数字世界中。除了畅想数字生命给社会带来的利益外,同样重要的是关注数字生命对现实社会的影响。
数字生命可能替代人类发挥一些社会职能。虚拟数字人引发的伦理恐慌源自机器在知识储备和分析能力上的优势。在多数生产活动和娱乐中,机器有取代人类的潜力。然而,机器不一定遵守人类的伦理。如果不能建立可靠的数字伦理规范,数字生命的发展可能失控,伦理恐慌和岗位替代甚至会威胁到社会的稳定运行。
数字生命的发展关系到现实个体的自由和权利。治理监督框架是平衡社会利益、凝聚社会共识、建立公众信任的必然选择。数据企业等几项关键技术的开发者需要受到监管,因为对数据采集、利用等行为的监管尤为重要。数字生命的探索必须在安全红线内进行。法律制度必须发挥作用,道德准则的内化并不意味着风险的消除,社会仍需要法律工具来维持共识、保障权利。
另一个需要关注的问题是数字生命的维护成本过高。数字生命的维持依赖于算力,而算力又依赖于设备和电力基础设施等。例如,AlphaGo在一场围棋比赛中消耗的能量远远大于人类棋手,同时还需要大量的处理器和数据硬盘。
在当前的法律框架下,数字生命还不具备承担法律责任的主体地位。因此,除了伦理方面的考虑,其不具备承担责任的可能性也是一大障碍。一般认为,创造数字生命的人就是对其负责的人,如程序开发者、AI使用者、数字身份的控制者等。如果机器输出错误或无法理解的内容,则应要求开发者和维护人员尽快修复,而不是命令机器“立即改正”。然而,新一代AI模型表现出一定的逃避人类提问的倾向,这可能与模型试图节约算力资源有关。但一旦模型具有自主选择逃避人类提问的能力,并且脱离了开发者的控制,AI是否具备法律人格的问题就会受到挑战。
人工智能、机器人和元宇宙等领域相当于数字生命的“头脑、身体和世界”。这三项关键技术的发展方向几乎决定了未来数字社会的格局。如果数字生命仅存在于人类创造的虚拟空间,那么它的未来将一片迷茫。因此,数字生命必须与外界交互,这可以通过现实的机器人身体或连接互联网的数据接口实现。只有在这个基础上,数字生命才能满足自身的算力需求并跟进对世界的认知,从而有望实现长远发展并对现实社会产生更大的积极意义。