900字范文 > 一文带你搞清楚自动微分到底是什么？

一文带你搞清楚自动微分到底是什么？

时间：2019-03-13 14:28:58

相关推荐

一文带你搞清楚自动微分到底是什么？

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

一直以来，自动微分都在 DL 框架背后默默地运行着，本文希望探讨它到底是什么，通过 JAX，自动微分又能怎么用。

自动微分现在已经是深度学习框架的标配，我们写的任何模型都需要靠自动微分机制分配模型损失信息，从而更新模型。在广阔的科学世界中，自动微分也是必不可少的。说到底，大多数算法都是由基本数学运算与基本函数组建的。

在 ICLR 的一篇 Oral 论文中（满分 8/8/8），图宾根大学的研究者表示，目前深度学习框架中的自动微分模块只会计算批量数据反传梯度，但批量梯度的方差、海塞矩阵等其它量也很重要，它们可以在计算梯度的过程中快速算出来。

目前自动微分框架只计算出梯度，因此就限定了研究方向只能放在梯度下降变体之上，而不能做更广的探讨。为此，研究者构建了 BACKPACK，它建立在 PyTorch 之上，还扩展了自动微分与反向传播能获得的信息。

选自论文 BACKPACK，arXiv：1912.10985。

除此之外，Julia Computing 团队去年 7 月份也发表了一份论文，提出了可微编程系统，它能将自动微分内嵌于 Julia 语言，从而将其作为第一级的语言特性。由于广泛的科学计算和机器学习领域都需要线性代数的支持，因此这种可微编程能成为更加通用的一种模式。

从这些前沿研究可以清晰地感受到，自动微分越来越重要。

自动微分是什么

在数学与计算代数学中，自动微分也被称为微分算法或数值微分。它是一种数值计算的方式，用来计算因变量对某个自变量的导数。此外，它还是一种计算机程序，与我们手动计算微分的「分析法」不太一样。

自动微分基于一个事实，即每一个计算机程序，不论它有多么复杂，都是在执行加减乘除这一系列基本算数运算，以及指数、对数、三角函数这类初等函数运算。通过将链式求导法则应用到这些运算上，我们能以任意精度自动地计算导数，而且最多只比原始程序多一个常数级的运算。

一般而言会存在两种不同的自动微分模式，即前向累积梯度（前向模式）和反向累计梯度（反向模式）。前向累积会指定从内到外的链式法则遍历路径，即先计算 d_w1/d_x，再计算 d_w2/d_w1，最后计算 dy/dw_2。

反向梯度累积正好相反，它会先计算 dy/dw_2，然后计算 d_w2/d_w1，最后计算 d_w1/d_x。这是我们最为熟悉的反向传播模式，它非常符合「沿模型误差反向传播」这一直观思路。

如图所示，两种自动微分模式都在求 dy/dx，只不过根据链式法则展开的形式不太一样。

来一个实例：误差传播

在统计学上，由于变量含有误差，使得函数也含有误差，我们将其称之为误差传播。阐述这种关系的定律叫做误差传播定律。

先定义一个函数 q(x,y) ，我们想通过 q 传递 x 与 y 的不确定性信息，即 𝜎_x 与 𝜎_y。最直接的方式是随机采样 x 与 y，并计算 q 的值，然后查看它的分布。这就是「传播不确定性」这个概念的意义。

误差传播的积分公式可以是一个近似值， q(x,y) 的一般表达式可以写为：

如果我们定义一个特殊案例，即 q(x,y)=x±y，那么总不确定性可以写为：

对于特例 q(x,y)=xy 与 q(x,y)=x/y ，不确定性分别为 (σ_q/q)^2 = (σ_x/x)^2+(σ_y/y)^2 与 σ_q=(x/y)* sqrt((σ_x/x)^2+(σ_y/y)^2)。

我们可以尝试这些方法，并对比根据这些近似公式算出来的反传误差，以及实际发生的反传误差。

实战 JAX 自动微分

Jax 是谷歌开源的一个科学计算库，能对 Python 程序与 NumPy 运算执行自动微分，而且能够在 GPU 和 TPU 上运行，具有很高的性能。

如下先导入 JAX，然后用三行代码就能定义之前给出的反传不确定性度量。

fromjax*import*grad,jacfwdimportjax.numpy*as*npdeferror_prop_jax_gen(q,x,dx):jac=jacfwd(q)returnnp.sqrt(np.sum(np.power(jac(x)*dx,2)))

这里计算的反传梯度是根据 jax 完成的，后面的反传误差会直接通过公式计算，并对比两者。

1. 配置两个具有不确定性的观察值

我们需要使用 x 与 y 作为符号推理，但可以把它们都储存在数组 x 中，x[0]=x、x[1]=y。

x_=np.array([2.,3.])dx_=np.array([.1,.1])

2. 加减法

在 𝑞(𝑥,𝑦)=𝑥±𝑦 这一特例情况下，误差传播公式可以简化为

上图所示，通过误差传播公式计算出来的值与 JAX 计算出来的是一致地。

3. 乘除法

在 𝑞(𝑥,𝑦)=𝑥𝑦 与 𝑞(𝑥,𝑦)=𝑥/𝑦 这两种特例中，误差传播公式可以写为：

4. 幂

对于特例 𝑞(𝑥,𝑦)=𝑥^𝑚*𝑦^𝑛，传播公式可以表示为：

我们可以写成

JAX 的使用非常多样，甚至能直接使用它搭建神经网络。例如 JAXnet 框架，它是一个基于 JAX 的深度学习库，它的 API 提供了便利的模型搭建体验。比如说，以下代码就能建个神经网络：

fromjaxnetimport*net=Sequential(Dense(1024),relu,Dense(1024),relu,Dense(4),logsoftmax)

此外，不久之前，DeepMind 也发布了两个新库：在 Jax 上进行面向对象开发的 Haiku 和 Jax 上的强化学习库 RLax。JAX 这样的通用自动微分库也许能在更广泛的领域发挥作用。

好消息！

小白学视觉知识星球

开始面向外开放啦👇👇👇

下载1：OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2：Python视觉实战项目52讲在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。下载3：OpenCV实战项目20讲在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。交流群欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三+上海交大+视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。