900字范文 > 硬核讲习 10名“悟道”核心成员剖析大模型

硬核讲习 10名“悟道”核心成员剖析大模型

时间：2023-08-30 01:05:03

近年来人工智能的发展，已经从“大炼模型”逐步迈向了“炼大模型”的阶段，通过设计先进的算法，整合尽可能多的数据，汇聚大量算力，集约化地训练大模型，供大量企业使用，这是必然趋势。

——黄铁军，智源研究院院长

作为以人工智能源头创新为使命的新型研究机构，智源研究院10月正式启动超大规模智能模型“悟道”项目，研发既博大又精深的超大规模训练模型，从更加本质的角度进一步探索通用人工智能。同时，构建大规模智能模型应用生态，推动相关机构和个人开发者基于模型研发各类新型智能应用，服务我国实体经济产业升级。

3月20日，北京智源人工智能研究院举办“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”，并发布了“悟道1.0”。

6月1日，在本次智源大会上，唐杰教授将代表整个悟道团队发布“悟道2.0”。而在此之前，来自悟道团队的10名核心成员（分别来自五个实验室）将从实战角度，为大家讲习“预训练大模型”的技术细节。

线上、线下皆免费报名！

详细议程如下：

会议时间：5月31日

会议地点：静宜厅

讲习班主席:

唐杰 - 清华大学，智源研究院副院长

刘知远 - 清华大学，智源青年科学家

1. 大规模预训练语言模型简介

议题简介：报告将系统介绍已有的预训练模型范式与特点。

讲习嘉宾：韩旭

韩旭，清华大学计算机科学与技术系博士生，导师为刘知远副教授，研究方向为自然语言处理、知识图谱、信息抽取、预训练语言模型。

2.大模型半精度训练

议题简介：半精度是高效训练大规模神经网络重要基础，报告将介绍对比现有的几种计算精度，并分析半精度使用过程中的注意事项。作为样例，报告将介绍基于torch的apex包使用方法，以及背后的半精度基本计算原理，包括分布式计算中的模型参数同步以及梯度回传过程中的损失缩放。

讲习嘉宾：张正彦

张正彦，清华大学计算机科学与技术系博士生，师从刘知远副教授。研究方向为预训练语言模型，曾以第一作者身份在ACL、EMNLP等国际知名会议发表多篇论文。

3.大规模预训练模型3D加速

议题简介：随着训练规模的增大，各种分布式训练框架被广泛运用在大规模预训练模型中。为了高效地训练大规模模型，目前主要采用了包括数据并行、模型并行、流水线并行等的并行策略。报告中将介绍和比较这些并行策略的特点，并介绍如划分策略等能够加速模型训练的技术。

讲习嘉宾：孙桢波

孙桢波，清华大学计算机科学与技术系博士生，师从陈文光教授，参与CPM训练工作。

4.FastMoE: 开源大规模分布式MoE训练框架

议题简介：MoE已经成为通往万亿参数大模型的重要工具。报告将介绍开源大规模分布式MoE训练框架FastMoE，并且着重介绍最新的FastMoE v0.2的一些特性。包括（1）全新的负载均衡模块，支持 NoisyGate、GShard、Swith Transformer 等负载均衡策略；（2）同时支持英伟达GPU平台和神威国产超算平台；（3）1.75万亿模型训练实战。

讲习嘉宾：裘捷中

裘捷中，清华大学计算机科学与技术系五年级博士生，导师为唐杰教授。他的研究兴趣主要包括图表示学习和大规模预训练。

5.P-tuning：用连续提示微调增强超大语言模型下游能力

议题简介：报告主要介绍在大模型时代如何利用连续提示微调的方法，提高预训练语言模型在知识探测和自然语言理解方面的能力。

讲习嘉宾：刘潇

刘潇，清华大学计算机系硕士生，师从唐杰教授，主要研究方向是机器学习、知识图谱和数据挖掘。

6.通用语言模型GLM的预训练与微调

议题简介：近年来已经存在各种类型的预训练架构，包括自编码模型（例如BERT），自回归模型（例如GPT）和编码器-解码器模型（例如T5）。另一方面，NLP任务本质上是不同的，三个主要类别是分类，无条件生成和有条件生成。但是，没有一个预训练框架在所有任务上都表现最佳，这给模型开发和选择带来了不便。我们提出了一种新的预训练框架GLM（General Language Model），它通过自回归填空训练来应对这一挑战。与以前的工作相比，我们的预训练框架具有三个主要优点：（1）由于改进了预训练-微调的一致性，在分类方面优于BERT类模型。（2）它自可以然地处理可变长度的填空，这对于许多下游任务至关重要。实验表面，在相同的预训练条件下，GLM在SuperGLUE自然语言理解基准上的性能大大优于BERT。（3）用一个单一的预训练模型，GLM可以在分类，无条件生成和有条件生成任务上表现良好。参数为BERT-Large的1.25倍的GLM在自然语言理解、有条件和无条件生成的同时达到了最佳性能，这证明了其对不同下游任务的通用性。

讲习嘉宾：杜政晓

杜政晓，清华大学计算机系博士生，师从唐杰教授，曾以第一作者身份在KDD、TKDE、SIGIR等国际知名会议和期刊发表多篇论文。

7.大规模多模态预训练

议题简介：近年来，基于多模态数据的语义理解与认知探索成为了人工智能领域的一个重要研究热点，旨在使计算机拥有针对多种模态数据的表示、计算与推理能力。即将发布的文澜2.0是首个中英文多模态双塔模型。文澜2.0在1.0的基础上进行了多方面改进：采用了更大的参数量和更多的数据；选择使用Multi-Grid Split池化方法来替换检测器，从而显著减少计算代价，并保持模型的细节捕捉能力；采用了高效的分布式多模态预训练框架，提出基于DeepSpeed的多模态预训练算法，最大化利用GPU和CPU，并最优地支持跨模态对比学习。

讲习嘉宾：高一钊

高一钊，中国人民大学高瓴人工智能学院博士生，师从卢志武教授；全面参与了悟道·文澜1.0和2.0的图文预训练工作。

8.CogView:文本到图像生成式预训练

议题简介：通用领域文本到图像的生成到目前为止一直是一个开放性问题，它需要强大的生成模型的和跨模态理解的能力。我们提出了一个40亿参数的Transformer模型和VQ-VAE图像分词器来解决这个问题。我们还展示了各种下游任务的微调策略，例如风格学习、超分辨率、文本图像自排序和时装设计，以及稳定预训练的方法（例如这些方法可以消除NaN损失）。CogView（零样本）在低分辨率MS COCO上取得了目前最好的Fréchet Inception Distance，优于以前基于GAN的模型和最近类似的工作DALL-E。

讲习嘉宾：丁铭

丁铭，清华大学计算机科学与技术系博士生，师从唐杰教授。研究方向为认知智能，曾以第一作者身份在NeurIPS、KDD、ACL、CIKM等国际知名会议发表多篇论文。

9.基于大规模预训练的中文对话系统

议题简介：随着对话语料规模和机器算力的增加，近年来出现了许多基于大规模预训练的对话模型，如 DialoGPT，Meena，Blender，Plato 等等，其在某些测试环境下可以达到接近人类的开放领域对话水平。报告将从数据、模型和演示三个方面介绍基于大规模预训练的中文对话系统的构造过程。

讲习嘉宾：周昊

周昊，清华大学计算机科学与技术系博士生，师从朱小燕教授。研究方向为知识驱动的对话生成，曾以第一作者身份在ACL、AAAI、IJCAI、WWW等国际知名会议发表多篇论文。

讲习嘉宾：柯沛

柯沛，清华大学计算机科学与技术系博士生，师从朱小燕教授。研究方向为可控自然语言生成，曾以第一作者身份在ACL、EMNLP等自然语言处理顶级会议上发表论文。

智源大会完整日程

- 点击阅读原文或长按图片，内行盛会，免费注册-

扫码加入「预训练」论坛交流群，参与相关话题讨论

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。