谷歌大模型迟到的开源战略
Gemma 包括两种权重规模的模型:Gemma 2B 与 Gemma 7B,每种规模都有预训练与指令微调版本。同时,谷歌还推出了一系列工具,旨在支持开发者创新,促进合作,并指导如何负责任地使用 Gemma 模型。 在人工智能领域,谷歌可以算是开源的鼻祖。今天几乎所有的大语言模型,都基于谷歌在 2017 年发布的 Transformer 论文;谷歌的发布的 BERT、T5,都是最早的一批开源 AI 模型。 然而,自从 OpenAI 在 2022 年底发布闭源的 ChatGPT,谷歌也开始转向闭源策略。
此后,开源大模型被 Meta 的Llama 主导,后来被称为“欧洲版 OpenAI”的法国开源大模型公司 Mistral AI 走红,其 MoE 模型也被众多 AI 公司追捧。 无论在闭源还是开源领域,有世界上最前沿技术储备与人才储备的谷歌,都没能确立绝对的领先地位。 如今,闭源与开源双线作战,这是谷歌的妙手、本手还是俗手?
一、谷歌被迫开源?
谷歌开源大模型的发布时间,比 Meta 的 Llama 晚了整整一年。 对此,出门问问创始人李志飞表示:“相比于去年上半年就开源,现在可能要花数倍的努力进行模型的差异化以及推广的投入、才有可能在众多开源模型中脱颖而出。” 同时,李志飞认为谷歌的开源力度也不够,还是被动防御和扭扭捏捏的应对之策,不是进攻。“比如说,开个7B的模型实在是太小儿科了,一点杀伤力都没有。应该直接开源一个超越市场上所有开源的至少 100B 的模型、1M 的超长上下文、完善的推理 infra 方案、外加送一定的 cloud credit。是的,再不歇斯底里 Google 真的就晚了。
面对 OpenAI 的强力竞争,只有杀敌一千、自损一千五。” 李志飞感觉,谷歌觉得自己还是 AI 王者,放不下高贵的头颅,很多发布都有点不痛不痒,还是沿着过去研发驱动的老路而不是产品和竞争驱动,比如说不停发论文、取新名字(多模态相关模型过去半年就发了 Palme、rt-2、Gemini、VideoPoet、W.A.L.T 等等)、发布的模型又完整度不够,感觉就没有一个绝对能打的产品。谷歌可能要意识到在公众眼中,他在 AI 领域已经是廉颇老矣溃不成军,经常起大早赶晚集(比如说这次 Sora 借鉴的 ViT、ViViT、NaVit、MAGVit 等核心组件技术都是它家写的论文)。
如果您需要相关服务,可以找天津天迅达科技有限公司,我们的业务有Web开发、iOS APP、Android APP、微信开发、HTML5开发等,天迅达——您身边的App个性化定制专家!
另一位 AI 专家——微博新技术研发负责人张俊林认为,谷歌重返开源赛场,这是个大好事,但很明显是被迫的。 大模型到底要做开源还是闭源? 张俊林的判断是,如果是做当前最强大的大模型,目前看还是要拼模型规模,这方面开源模型相对闭源模型处于明显劣势,短期内难以追上 GPT-4 或 GPT-4V。而且这种类型的大模型,即使是开源,也只能仰仗谷歌或者 Meta 这种财大气粗的大公司,主要是太消耗资源了,一般人玩不起。
国内这方面阿里千问系列做得比较好,肯把比较大规模的模型开源出来,当然肯定不是最好的,不过这也很难得了。 而在开源领域,张俊林的判断是应该把主要精力放在开发并开源出性能足够强的“小规模大模型”上(SLLM,Small Large Language Model),因此谷歌的开源策略是非常合理的。 目前看,作出强大的 SLLM 并没有太多技巧,主要是把模型压小的基础上,大量增加训练数据的规模,数据质量方面则是增加数学、代码等数据来提升模型的推理能力。
比如 Gemma 7B 用 6 万亿 Token 数据,外界猜测 Mistral 7B 使用了 7 万亿 Token 数据,两者也应该大量采用了增强推理能力的训练数据。 所以 SLLM 模型的性能天花板目前也没有到头,只要有更多更高质量的数据,就能持续提升 SLLM 模型的效果,仍然有很大空间。 张俊林相信,2024 年开源 SLLM 会有黑马出现。
二、大模型打压链
Gemma 在全球范围内开放使用。该模型的关键细节如下: 发布了两种权重规模的模型:Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。 新的 Responsible Generative AI Toolkit 为使用 Gemma 创建更安全的 AI 应用程序提供指导和必备工具。 通过原生 Keras 3.0 为所有主要框架(JAX、PyTorch 和 TensorFlow)提供推理和监督微调(SFT)的工具链。 上手即用 Colab 和 Kaggle notebooks,以及与 Hugging Face、MaxText 和 NVIDIA NeMo 等受欢迎的工具集成,让开始使用 Gemma 变得简单容易。 经过预训练和指令微调的 Gemma 模型可以在笔记本电脑、工作站或 Google Cloud 上运行,并可轻松部署在 Vertex AI 和 Google Kubernetes Engine(GKE)上。
基于多个 AI 硬件平台进行优化,其中包括 NVIDIA GPUs 和 Google Cloud TPUs。 使用条款允许所有组织(无论规模大小)负责任地进行商用和分发。
Gemma 是开源领域一股不可忽视的力量。根据谷歌给出的数据,性能超越 Llama 2。 至此,大模型开源形成三巨头局面:谷歌 Gemma、Meta LLama 和欧洲的 Mistral。 张俊林认为,大模型巨头混战形成了打压链局面:OpenAI 处于链条顶端,主要打压对手是有潜力追上它的竞争对手:谷歌和 Anthropic,Mistral 估计也正在被列入 OpenAI 的打压列表中。打压链条为:OpenAI→Google &Anthropic & Mistral→ Meta→其它大模型公司。
比如,谷歌上周发布的 Gemini 1.5 Pro 就是一个有代表性的案例,本身模型实例很强大,但在宣发策略上被 Sora 打到哑火;前年年底发布的 ChatGPT 也是临时赶工出来打压 Anthropic 的 Claude 模型的。 谷歌开源 Gemma 很明显是针对 Meta 和 Mistral 而来。张俊林据此推测,Meta 的 LLama 3 很快就要发布了,或者Mistral 最近会有新品发布。
以上所有设计图和部分文字均来自网络,如有侵权,请call我删除,感谢~
天津天迅达科技有限公司经过多年来对APP、小程序、以及网站建设的探索,已经帮助每一个客户快速开发出属于自己的APP、小程序、网站,是万千企业之选。
- 数字孪生:现实世界的身外化身 2024-12-06
- 微信公众号全面“今日头条化”,自媒体将迎来“第二春”? 2024-12-04
- 优质长视频的破圈效应 2024-12-05
- 奶茶行业的裂变营销 2024-12-03
- 浅浅分享下支付产品经理如何写全局性的需求文档以及工作流程 2024-12-02
- “麦学”爆红:一场精心策划的营销盛宴 2024-11-29
- 如果遇到麦琳式的领导,怎么办? 2024-11-28