世纪平台账户登录线路:算法相对论|吴甜:AI大模型的落地关键是解决技术与应用场景间鸿沟
栏目:世纪注册动态 发布时间:2022-06-20
原标题:算法相对论|吴甜:AI大模型的落地关键是解决技术与应用场景间鸿沟世纪官网注册“今年是大模型的落地关键年。大模型历经了前几年的探索期、突破期,已经一定程度
网友提问:
世纪平台账户登录线路:算法相对论|吴甜:AI大模型的落地关键是解决技术与应用场景间鸿沟
优质回答:

原标题:算法相对论|吴甜:AI大模型的落地关键是解决技术与应用场景间鸿沟

世纪官网注册“今年是大模型的落地关键年。大模型历经了前几年的探索期、突破期,已经一定程度上到达推广期了。那么就会面对如何能够落地,如何能够在真实的应用场景中产生价值的问题。从应用落地角度,对于大模型落地来说,最关键要解决的问题就是这种前沿技术与真实应用场景之间的鸿沟,怎么能全方位匹配应用落地时的要求?这个是大模型今年要解决的核心问题。”近日,百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜在WAVE SUMMIT 2022深度学习开发者峰会上说道。

那么如何解决,如何推进呢?吴甜具体概括为三点。

一是建设大模型体系,而且这个体系能够与应用场景相衔接。二是配套平台、工具,降低应用门槛,能够全流程、端到端支持整个落地应用。三是需要有生态依托,包括应用生态、硬件生态的建设等。

在2022年春季的WAVE SUMMIT深度学习开发者峰会上,百度发布了十个大模型、首发行业大模型,及一系列工具与平台,包括大模型开发套件、大模型API、内嵌了大模型能力的EasyDL和BML开发平台,还有文心·旸谷社区。不了解其中逻辑便很容易觉得眼花缭乱,但理解上述三点就可以看明白百度在这方面的所有动作。

首发行业大模型:不求“通吃”,分层体系各司其职

展开全文

“在AI工业大生产阶段,深度学习技术的通用性越来越强,深度学习平台的标准化、自动化和模块化特征越来越显著,深度学习应用越来越广泛且深入,已经遍地开花。预训练大模型的兴起,使得人工智能的通用性进一步增强。大模型具有效果好、泛化性强、研发流程标准化程度高等特点,正在成为人工智能技术及应用的新基座。”百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰说道。

早在2021年5月的WAVE SUMMIT峰会上,吴甜谈到企业AI应用三阶段:一是“先行者探路阶段”,少量先行者在企业中引入新技术,做探索和原型验证;二是“工作坊应用阶段”,一些企业逐渐设立小团队,引入技术;三是“工业大生产阶段”,企业内部大规模人力等各项资源协同进行人工智能研发。

那么在这个AI工业大生产阶段,百度的思路不是建立一个大模型“通吃”所有问题,而是建设一个分层体系。飞桨文心大模型包含三类模型:基础大模型、任务大模型和行业大模型。这次发布的国内首个开放API调用的千亿大模型ERNIE 3.0 Zeus(宙斯)等10个大模型就分属于这三类。

基础大模型具有学习的数据、知识量大、参数规模大特点,通用性最高。但直接使用基础模型往往会与场景上苛刻的应用需求有一定差距,所以在通用模型基础上,百度增加了两类模型:任务大模型和行业大模型。

任务大模型主要面向特定任务,如NLP领域的信息抽取、对话、搜索等,以及视觉领域的商品图文搜索,文档图像理解等。

行业大模型则由通用文心大模型作为基础,在海量广泛数据中挖掘行业领域数据,并与行业中的头部企业或机构合作引入行业特色数据与知识。“主要用意是将通用基础大模型和行业深度的知识进行结合和学习。行业大模型的关键点在于会引入行业里特有的知识和特有的数据,以及和拥有深度行业专家Know-how认知的专家们,一起针对行业设计相应的预训练任务。这样的话,通用模型就真正变成对行业来说效果更适用的模型。”吴甜对澎湃新闻(www.thepaper.cn)表示。

吴甜介绍,在能源电力和金融领域,文心联合国家电网研发了知识增强的能源行业NLP大模型“国网-百度·文心”,联合浦发银行研发了知识增强的金融行业NLP大模型“浦发-百度·文心”。

可以从双方的发言理解这样的合作背后的价值。

以能源电力行业为例,吴甜认为,推进行业大模型更重要的是与国网专家们一起,引入电力业务积累的样本数据和特有知识,并且在训练中,结合双方在预训练算法和电力领域业务与算法的经验,设计电力领域实体判别、电力领域文档判别等算法作为预训练任务,让文心模型深入学习电力专业知识。

国家电网有限公司数字化工作部人工智能工作负责人蒋炜博士则表示,作为中央企业数字化转型的排头兵,国家电网公司联合百度公司共同打造行业级人工智能基础设施,探索研发电力人工智能联合大模型,不仅提升了传统电力专用模型的精度,而且大幅降低了研发门槛,实现了算力、数据、技术等资源的统筹优化。下一步,国家电网公司将继续深化双方技术合作,推动人工智能大模型在电力领域的技术攻关及应用探索,面向更典型的电力业务场景,构建更具电力特色的人工智能大模型。

同样地,浦发-百度·文心大模型基于文心进行行业数据挖掘,结合浦发场景积累的行业数据与知识,双方技术和业务专家可以合作设计针对性的财报领域判别、金融客服问答匹配等预训练任务。

除行业大模型外,此次还发布文心基础大模型和任务大模型共八个,包括:融合任务相关知识的千亿大模型ERNIE 3.0 Zeus,多任务视觉表征学习VIMER-UFO 2.0、商品图文搜索表征学习VIMER-UMS、文档图像表征学习VIMER-StrucTexT 2.0,语音-语言跨模态大模型ERNIE-SAT、地理-语言跨模态大模型ERNIE-GeoL,以及面向生物计算领域的化合物表征学习HELIX-GEM和蛋白质结构分析HELIX-Fold。

“好马配好鞍”:大模型的配套工具和平台

为了让大模型的价值在应用场景中充分发挥,降低使用门槛,百度配套建设了工具和平台。

大模型套件主要提供四方面的能力,如帮助开发者降低数据准备成本的多种数据预处理工具;同时,考虑大模型需要结合场景问题迁移学习,百度提供了多样化精调工具,包含对抗学习、小样本学习等多种精调方法,还包含提示(Prompt-tuning)等新型大模型精调工具。针对大模型真正落地部署成本高的问题,在文心大模型工具和平台中,配套了高性能部署方案以进行模型小型化,包括性能加速方案,同时预置60多个NLP、CV的基础任务。

文心大模型以及相关工具在飞桨企业版EasyDL、BML平台中均可使用。据百度透露,目前平台上已有1万多用户用到了预训练大模型,创建了超过3万任务,并应用到输电通路巡检、零部件瑕疵检测、农业病虫害识别、新闻资讯创作等大量场景中。在平台上,通过大模型机制进行AI应用模型的开发,数据标注量平均降低70%,效果平均提升10.7%。文心大模型还提供了直接的API调用方式,ERNIE 3.0 Zeus、PLATO、ERNIE-ViLG都可以供使用者通过API直接访问调用。

总体来看,飞桨文心大模型核心特色有两点:产业级和知识增强。

“产业级”一方面指文心的整个技术是在实际产业应用过程中打磨,另一方面,文心大模型在应用时建设了一系列配套能力,让行业更好用。比如怎样设计数据的标注、建议有多少数据、相应的迁移学习的方法等等。这些配套的工具和平台,包括新发布的大模型API、大模型开发套件、平台入口等,都是在提升真实应用的可行性。

“知识增强”则是与其他行业大模型相比,百度通过引入知识图谱,将数据与知识融合,目标在于让文心大模型的学习效率更高、可解释性更好。提升了大模型的通用性和泛化性,那么就可以降低开发难度、更少标注数据。

整体来说,不管是飞桨平台还是具体到飞桨模型库中的文心大模型,背后的理念都是降低AI使用门槛,提升技术通用性,加强技术及平台的标准化、自动化、模块化能力。

吴甜认为,开源、开放也是非常直接的门槛降低方式。因为AI的应用不仅仅是技术问题,更重要的是跟行业和场景相结合。并且通过开源开放,群智创新、深度协同的能力也能有显著提升,可以加速企业的智能化转型。“今天发布的10个大模型里面,有7个模型是开源的,开源是文心大模型一直在做的工作。”吴甜对澎湃新闻(www.thepaper.cn)谈到。

如何应对大模型的训练和推理挑战?

“作为深度学习技术工作者,我们清楚地认识到,AI大模型是深度学习技术的新突破,进一步增强了AI技术的通用性,带来了新的AI研发范式。对广大开发者来说,基于预训练大模型,可以更低成本、低门槛,面向场景研发更好用的AI模型。”吴甜说道。

文心大模型的训练、推理都依托深度学习平台的支撑,同时,大模型作为飞桨平台中产业级模型库的重要一员,成为了飞桨平台支持AI创新必不可少的能力。

大模型训练的挑战主要来自于“大”,模型参数规模巨大,且不同模型和算力平台特性的差异,给大模型训练带来现实的挑战。飞桨分布式架构统筹考虑这些差异性问题,用端到端自适应分布式架构,根据模型和算力平台的特点,自动选择并行策略,自动调优,高效执行,实现方案既具备通用性,又兼顾了高效性。其在并行训练策略上的创新即对异构硬件支持自适应并行训练,打造框架与算力、算法相结合三位一体的大模型训练解决方案,实现了端到端的极致性能优化。

相对训练而言,大模型推理面临更大的挑战。大模型的高效推理是实现大模型产业应用落地的关键所在。在大模型的落地部署层面,飞桨则推出针对大模型的压缩、推理、服务化全流程部署方案,帮助大模型更好落地。

其首先通过精度无损模型压缩技术让模型轻量化,然后通过自适应分布式推理技术,充分调动算力资源,比如千亿级模型,只有分布式推理才能跑得起来。最后通过大规模服务化部署,让大模型真正落成应用。整体方案通用且可扩展,能广泛支持不同种类的模型结构,实现高速推理,目前已支撑了如自然语言理解、对话、跨模态生成等大模型的实时在线应用。

这些努力都是为了让大模型更接近产业,落地在产业当中,而不仅仅是实验室技术。

截至目前,文心大模型已应用于工业、能源、教育、金融、通信、媒体等行业,例如工业领域的零部件质量检测、能源领域的输电线路巡检、教育行业的作文灵感激发、金融行业的合同信息抽取等等,真正帮助企业降本增效并激发创新。同时,文心大模型也全面应用于智能搜索、信息流、智能音箱等互联网产品,提升用户获取信息、知识和服务的效率和效果。

总体而言,吴甜给出支撑飞桨文心大模型产业落地的3个关键路径:搭建更适配场景需求的大模型体系,提供全流程支持应用落地的工具和方法,建设激发创新的开放生态。这个生态建设的一部分就是文心·旸谷社区,其目标在于让更多人零距离接触到AI大模型技术,激发创新与创意。