首页 > 行业资讯 > 资讯动态

谷歌大模型迟到的开源战略

日期：2024-03-12 　作者：小天　来源：www.txunda.com 　人气：681

Gemma 包括两种权重规模的模型：Gemma 2B 与 Gemma 7B，每种规模都有预训练与指令微调版本。同时，谷歌还推出了一系列工具，旨在支持开发者创新，促进合作，并指导如何负责任地使用 Gemma 模型。在人工智能领域，谷歌可以算是开源的鼻祖。今天几乎所有的大语言模型，都基于谷歌在 2017 年发布的 Transformer 论文；谷歌的发布的 BERT、T5，都是最早的一批开源 AI 模型。然而，自从 OpenAI 在 2022 年底发布闭源的 ChatGPT，谷歌也开始转向闭源策略。

此后，开源大模型被 Meta 的Llama 主导，后来被称为“欧洲版 OpenAI”的法国开源大模型公司 Mistral AI 走红，其 MoE 模型也被众多 AI 公司追捧。无论在闭源还是开源领域，有世界上最前沿技术储备与人才储备的谷歌，都没能确立绝对的领先地位。如今，闭源与开源双线作战，这是谷歌的妙手、本手还是俗手？

一、谷歌被迫开源？

谷歌开源大模型的发布时间，比 Meta 的 Llama 晚了整整一年。对此，出门问问创始人李志飞表示：“相比于去年上半年就开源，现在可能要花数倍的努力进行模型的差异化以及推广的投入、才有可能在众多开源模型中脱颖而出。” 同时，李志飞认为谷歌的开源力度也不够，还是被动防御和扭扭捏捏的应对之策，不是进攻。“比如说，开个7B的模型实在是太小儿科了，一点杀伤力都没有。应该直接开源一个超越市场上所有开源的至少 100B 的模型、1M 的超长上下文、完善的推理 infra 方案、外加送一定的 cloud credit。是的，再不歇斯底里 Google 真的就晚了。

面对 OpenAI 的强力竞争，只有杀敌一千、自损一千五。” 李志飞感觉，谷歌觉得自己还是 AI 王者，放不下高贵的头颅，很多发布都有点不痛不痒，还是沿着过去研发驱动的老路而不是产品和竞争驱动，比如说不停发论文、取新名字（多模态相关模型过去半年就发了 Palme、rt-2、Gemini、VideoPoet、W.A.L.T 等等）、发布的模型又完整度不够，感觉就没有一个绝对能打的产品。谷歌可能要意识到在公众眼中，他在 AI 领域已经是廉颇老矣溃不成军，经常起大早赶晚集（比如说这次 Sora 借鉴的 ViT、ViViT、NaVit、MAGVit 等核心组件技术都是它家写的论文）。

如果您需要相关服务，可以找天津天迅达科技有限公司，我们的业务有Web开发、iOS APP、Android APP、微信开发、HTML5开发等，天迅达——您身边的App个性化定制专家！

另一位 AI 专家——微博新技术研发负责人张俊林认为，谷歌重返开源赛场，这是个大好事，但很明显是被迫的。大模型到底要做开源还是闭源？张俊林的判断是，如果是做当前最强大的大模型，目前看还是要拼模型规模，这方面开源模型相对闭源模型处于明显劣势，短期内难以追上 GPT-4 或 GPT-4V。而且这种类型的大模型，即使是开源，也只能仰仗谷歌或者 Meta 这种财大气粗的大公司，主要是太消耗资源了，一般人玩不起。

国内这方面阿里千问系列做得比较好，肯把比较大规模的模型开源出来，当然肯定不是最好的，不过这也很难得了。而在开源领域，张俊林的判断是应该把主要精力放在开发并开源出性能足够强的“小规模大模型”上（SLLM，Small Large Language Model），因此谷歌的开源策略是非常合理的。目前看，作出强大的 SLLM 并没有太多技巧，主要是把模型压小的基础上，大量增加训练数据的规模，数据质量方面则是增加数学、代码等数据来提升模型的推理能力。

比如 Gemma 7B 用 6 万亿 Token 数据，外界猜测 Mistral 7B 使用了 7 万亿 Token 数据，两者也应该大量采用了增强推理能力的训练数据。所以 SLLM 模型的性能天花板目前也没有到头，只要有更多更高质量的数据，就能持续提升 SLLM 模型的效果，仍然有很大空间。张俊林相信，2024 年开源 SLLM 会有黑马出现。

二、大模型打压链

Gemma 在全球范围内开放使用。该模型的关键细节如下：发布了两种权重规模的模型：Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。新的 Responsible Generative AI Toolkit 为使用 Gemma 创建更安全的 AI 应用程序提供指导和必备工具。通过原生 Keras 3.0 为所有主要框架（JAX、PyTorch 和 TensorFlow）提供推理和监督微调（SFT）的工具链。上手即用 Colab 和 Kaggle notebooks，以及与 Hugging Face、MaxText 和 NVIDIA NeMo 等受欢迎的工具集成，让开始使用 Gemma 变得简单容易。经过预训练和指令微调的 Gemma 模型可以在笔记本电脑、工作站或 Google Cloud 上运行，并可轻松部署在 Vertex AI 和 Google Kubernetes Engine（GKE）上。

基于多个 AI 硬件平台进行优化，其中包括 NVIDIA GPUs 和 Google Cloud TPUs。使用条款允许所有组织（无论规模大小）负责任地进行商用和分发。

Gemma 是开源领域一股不可忽视的力量。根据谷歌给出的数据，性能超越 Llama 2。至此，大模型开源形成三巨头局面：谷歌 Gemma、Meta LLama 和欧洲的 Mistral。张俊林认为，大模型巨头混战形成了打压链局面：OpenAI 处于链条顶端，主要打压对手是有潜力追上它的竞争对手：谷歌和 Anthropic，Mistral 估计也正在被列入 OpenAI 的打压列表中。打压链条为：OpenAI→Google &Anthropic & Mistral→ Meta→其它大模型公司。

比如，谷歌上周发布的 Gemini 1.5 Pro 就是一个有代表性的案例，本身模型实例很强大，但在宣发策略上被 Sora 打到哑火；前年年底发布的 ChatGPT 也是临时赶工出来打压 Anthropic 的 Claude 模型的。谷歌开源 Gemma 很明显是针对 Meta 和 Mistral 而来。张俊林据此推测，Meta 的 LLama 3 很快就要发布了，或者Mistral 最近会有新品发布。

以上所有设计图和部分文字均来自网络，如有侵权，请call我删除，感谢~

天津天迅达科技有限公司经过多年来对APP、小程序、以及网站建设的探索，已经帮助每一个客户快速开发出属于自己的APP、小程序、网站，是万千企业之选。

标签：天迅达科技天津APP开发天津网站建设网站建设