国产大模型,摸着OpenAI过河

日期:2023-12-28  作者:小天  来源:www.txunda.com  人气:561

01 “文心一言”对线“GPT-4” 文心一言在发布会上相对出彩的展示,莫过于多模态生成。在发布会上,李彦宏先是让文心一言为2023智能交通大会生成了一张海报,然后又让其撰写了一段关于智能交通的文字,并让其用四川话读出来. 多模态输入,则需要大模型真正“长出眼睛”读懂图片意思,需要在预训练阶段就将图片和图片标注信息放入训练数据中。

如果您需要相关服务,可以找天津天迅达科技有限公司,我们的业务有Web开发、iOS APP、Android APP、微信开发、HTML5开发等,天迅达——您身边的App个性化定制专家!

比如这次GPT-4令人惊艳的强大,就表现在图片理解上。给到一个物理题的照片,GPT-4能够读懂题目然后解答。 GPT-4还能识别图片中的幽默部分,比如给GPT-4一个长相奇怪的充电器的图片,问为什么这很可笑?GPT-4能回答说,因为VGA线充iPhone。但无论怎么说,从GPT-4到文心一言都在说明李彦宏的那句话,“多模态是生成式AI一个明确的发展趋势。” 其中,人类反馈强化学习是目前大模型训练中普遍应用到的技术,ChatGPT能够在GPT-3的基础上产生质变,成为跨时代的产品,很大程度上依赖于此。这些技术中具有百度特色的主要是知识增强、检索增强和对话增强技术。 

其中,知识增强主要包含知识内化和知识外用两部分,知识内化又包括语义学习和数据构造,知识外用则包含知识推理和提示构架。这些技术又都基于百度的知识图谱。所谓知识图谱是一个宏大的数据模型,是指一个由世间万物构成的“实体”以及他们之间的“关系”构建起来的庞大“知识”网络。

 由于这都是此前积累的能力,因此这次文心一言的发布,不像是百度研发了一个新产品和新技术,更像是百度将之前所有的工作打包,以文心一言的方式整合输出。所以,我们会在文心一言里看到文心一格的图片生成,会看到已经在百家号应用的自动图文转视频的功能。 就像李彦宏提到的一样,“从某种意义上说,我们已经为此准备了多年,十几年前就开始投入AI研究,2019年就推出了文心大语言模型,今天的文心一言是过去多年努力的延续。” 

02 摸着OpenAI过河,让“涌现现象”更有效率发生 虽然除了OpenAI,其他的公司目前都是others,但大家都在摸着GPT过河,在寻找更优质的模型方案。中国公司也一直在积极探索相应大模型的研发和应用,并总结出了许多“中国经验”。什么样的模型是一个好模型?模型真的是越大越好吗?

 要回答这个问题,得先理解,ChatGPT和GPT-4能表现出类人的图片和语言理解能力,就是因为“涌现现象”,说得通俗一点,就是“开窍了”。 涌现现象,是指在当大模型的数规模达到一定程度时,其解决问题的能力就会发生突变。大模型能力的提升,很大程度上依赖于这种涌现能力,也就是“大力出奇迹”。 达观数据董事长CEO陈运文认为,当下的千亿参数模型可能只发挥了百亿模型的理论效果,一些参数可能被浪费了。换句话说,千亿规模的大模型其实是可以压缩,并做得更小的。

 Meta在这方面就曾做过尝试,2023年Meta推出百亿规模的模型LLaMA,虽然参数规模只有百亿,不到GPT-3的十分之一,但通过实验显示在下游任务中的表现好于GPT-3等千亿规模的模型。这其中的关键在于,Meta使用了1.4万亿Token,是GPT-3的近4.7倍。所以陈运文也认为,“整体来看尽管模型的参数规模越大越好,但性价比更高的参数规模方案仍然值得探索。” 除了将“大”模型做“小”更利于产业落地之外,通过更新指令学习方法,用更小的样本获得更好的学习效果也是目前国内在探索的方向。

做这样的探索也和目前中文产业面临的客观环境有关。一方面,中文数据在整个互联网中的占比本身就比较小,仅有5%左右。另一方面,即使数量庞大的英文数据在模型爆炸的今天也面临着即将被耗尽的问题。

以上所有设计图和部分文字均来自网络,如有侵权,请call我删除,感谢~

天津天迅达科技有限公司经过多年来对APP小程序、以及网站建设的探索,已经帮助每一个客户快速开发出属于自己的APP小程序网站,是万千企业之选。

标签:天迅达科技 天津APP开发 天津网站建设 网站建设