王海峰:文心一言用户规模、日均调用量均已达2亿

4月16日,王海以“创造未来”为主题的峰文Create 2024百度AI开发者大会在深圳国际会展中心成功举办。百度首席技术官王海峰以“技术筑基,用户已达亿星河璀璨”为题,规模发表演讲,日均解读了智能体、调用代码、量均多模型等多项文心大模型的王海关键技术和最新进展。

自去年3月16日发布知识增强大语言模型文心一言以来,峰文百度不断迭代升级文心大模型,用户已达亿技术创新不断,规模从知识增强、日均检索增强,调用进一步发展出知识点增强;基于更大的量均算力、更多的王海数据和更强的算法,依托飞桨平台,从文心3.0、3.5,到4.0,文心大模型能力愈加强大,效果和性能全面提升。

王海峰表示,智能体是重要的发展方向,会带来更多的应用爆发。智能体是在基础模型上,进一步进行思考增强训练,包括思考过程的有监督精调、行为决策的偏好学习、结果反思的增强学习,进而得到思考模型。智能体的思考模型像人一样,会阅读说明书,学习工具的使用方法,进而可以调用工具来完成任务。

王海峰解读了智能体的思考过程,演示了智能体如何经过思考调用工具。在文心大模型4.0工具版上,提问“我要到大湾区出差一周。想了解一下天气变化,好决定带什么衣服。请帮我查一下未来一周北京和深圳的温度,告诉我出差应该带什么衣服,并整理成表格。”智能体就像人一样,通过思考、规划,把用户需求拆解成多个子任务,首先调用“高级联网”工具来查询天气信息,然后调用“代码解释器”画温度趋势图,根据未来一周的天气情况,选择了合适的衣物,最后对结果进行思考、确认,并自动汇总成一个表格。

从万亿级训练数据中,文心大模型既学到了自然语言的能力,也学到了代码能力,打通从思考到执行的过程。基于文心大模型的这两种能力,百度开发了代码智能体和智能代码助手。王海峰表示:“代码智能体,让大家都能做之前只有程序员才能做的事,人人都可以成为程序员;智能代码助手,则帮助专业的程序员更高效地写出更好的代码,可以说是程序员的AI同侪。”

代码智能体是在“用模型写代码让复杂的任务变简单”,思考模型加上代码解释器,构成了代码智能体。首先,思考模型理解用户需求,经过思考,把完成任务的指令和相关信息整合成提示,输入给代码解释器;然后,代码解释器根据提示,把自然语言表达的用户需求翻译成代码并执行,得到执行结果或者调试信息;接着,思考模型对代码解释器的执行结果进行反思确认,如果正确,就把结果返回给用户,不正确就继续进行自主迭代更新。

大会现场,王海峰进一步透露,在模型效果不断提升的基础上,百度进一步构建了上下文增强、私域知识增强、流程无缝集成等能力。

王海峰现场还分享了多模型技术。他表示,在大模型应用落地过程中,效果,效率和成本都很重要。在实际应用中,需要从场景需求出发,选择最适合的模型。一方面,是高效低成本的模型生产;另一方面,是多模型推理。高效低成本模型生产方面,百度研制了大小模型协同的训练机制,可以有效进行知识继承,高效生产高质量小模型,也可以利用小模型实现对比增强,帮助大模型的训练。同时,建设了种子模型矩阵,数据提质与增强机制,以及从预训练、精调对齐、模型压缩到推理部署的配套工具链。高效低成本模型生产机制,助力应用速度更快、成本更低、效果更好。多模型推理方面,百度研制了基于反馈学习的端到端多模型推理技术,构建了智能路由模型,进行端到端反馈学习,充分发挥不同模型处理不同任务的能力,达到效果、效率和成本的最佳平衡。

王海峰现场公布,文心大模型4.0的效果持续提升,发布后的半年时间,又提升了52.5%。截至目前,飞桨文心生态已凝聚1295万开发者,服务24.4万家企事业单位,基于飞桨和文心创建89.5万个模型。文心一言累计用户规模已达2亿,日均调用量也达到了2亿。

最后,王海峰介绍了百度AI人才计划的最新进展,百度在2020年提出了5年为全社会培养500万AI人才,目前这一目标已提前达成。他表示,“未来,我们将继续投身人才培养,让人才的点点星光,汇成璀璨星河。智能时代,人人都是开发者,人人都是创造者,让我们一起,创造美好未来。”

扬子晚报/紫牛新闻记者  徐晓风