首页 >> 正文

样本比例的期望值公式

来源：baiyundou.net 日期：2024-09-23

克雷西发自凹非寺

量子位 | 公众号 QbitAI

用剪枝的方式加速AI训练，也能实现无损操作了，只要三行代码就能完成！

今年的深度学习顶会ICLR上，新加坡国立大学尤洋教授团队的一项成果被收录为Oral论文。

利用这项技术，可以在没有损失的前提下，节约最高40%的训练成本。

这项成果叫做InfoBatch，采用的依然是修剪样本的加速方式。

但通过动态调整剪枝的内容，InfoBatch解决了加速带来的训练损失问题。

而且即插即用，不受架构限制，CNN网络和Transformer模型都能优化。

目前，该算法已经受到了多家云计算公司的关注。

那么，InfoBatch能实现怎样的加速效果呢？

无损降低40%训练成本

研究团队在多个数据集上开展的实验。都验证了InfoBatch的有效性。

这些实验涵盖的任务包括图像的分类、分割和生成，以及语言模型的指令微调等。

在图像分类任务上，研究团队使用CIFAR10和CIFAR100数据集训练了ResNet-18。

结果在30%、50%和70%的剪枝率下，InfoBatch的准确率都超越了随机剪枝和其他baseline方法，而且在30%的剪枝率下没有任何精度损失。

在剪枝率从30%增加到70%的过程中，InfoBatch的精度损失也显著低于其他方式。

使用ImageNet-1K数据集训练的ResNet-50时，在剪枝率为40%、epoch数量为90的条件下，InfoBatch可以实现UCB相同的训练时间，但拥有更高的准确率，甚至超越了全数据训练。

同时，ImageNet的额外（OverHead）时间成本显著低于其他方式，仅为0.0028小时，也就是10秒钟。

在训练Vit-Base（pre-train阶段300epoch，fine-tune阶段100epoch模型时，InfoBatch依然可以在24.8%的成本节约率下保持与全量训练相当的准确率。

跨架构测试比对结果还表明，面对不同的模型架构，InfoBatch表现出了较强的鲁棒性。

除此之外，InfoBatch还能兼容现有的优化器，在与不同优化器共同使用时都体现了良好的无损加速效果。

不仅是这些视觉任务，InfoBatch还可以应用于语言模型的监督微调。

在常识（MMLU）、推理（BBH、DROP）等能力没有明显损失，甚至编程能力（HumanEval）还有小幅提升的情况下，InfoBatch可以在DQ的基础上额外减少20%的时间消耗。

另外，根据作者最新更新，InfoBatch在检测任务（YOLOv8）上也取得了无损加速30%的效果，代码将会在github更新。

那么，InfoBatch是如何做到无损加速的呢？

动态调整剪枝内容

究其核心奥义，是无偏差的动态数据修剪。

为了消除传统剪枝方法梯度期望值方向偏差以及总更新量的减少的问题，InfoBatch采用了动态剪枝方式。

InfoBatch的前向传播过程中，维护了每个样本的分值（loss），并以均值为阈值，随机对一定比例的低分样本进行修剪。

同时，为了维护梯度更新期望，剩余的低分样本的梯度被相应放大。

通过这种方式，InfoBatch训练结果和原始数据训练结果的性能差距相比于之前方法得到了改善。

具体来看，在训练的前向过程中，InfoBatch会记录样本的损失值（loss）来作为样本分数，这样基本没有额外打分的开销。

对于首个epoch，InfoBatch初始化默认保留所有样本；之后的每个epoch开始前，InfoBatch会按照剪枝概率r来随机对分数小于平均值的样本进行剪枝。

概率的具体表达式如下：

对于分数小于均值但留下继续参与训练的样本，InfoBatch采用了重缩放方式，将对应梯度增大到了1/(1-r)，这使得整体更新接近于无偏。

此外，InfoBatch还采用了渐进式的修剪过程，在训练后期会使用完整的数据集。

这样做的原因是，虽然理论上的期望更新基本一致，上述的期望值实际包含时刻t的多次取值。

也就是说，如果一个样本在中间的某个轮次被剪枝，后续依旧大概率被训练到；但在剩余更新轮次不足时，这个概率会大幅下降，导致残余的梯度期望偏差。

因此，在最后的几个训练轮次中（通常是12.5%~17.5%左右），InfoBatch会采用完整的原始数据进行训练。

论文地址：

https://arxiv.org/abs/2303.04947

GitHub主页：

https://github.com/NUS-HPC-AI-Lab/InfoBatch

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"9acf86c63d4ed99c4","img_data":[{"flag":2,"img":[{"desc":"","height":881,"title":"","url":"https://p0.ssl.img.360kuai.com/t0127f0f59e2d20a9f8.jpg","width":1080},{"desc":"","height":"321","title":"","url":"https://p0.ssl.img.360kuai.com/t014d60353e5eceb346.jpg","width":"1080"},{"desc":"","height":828,"title":"","url":"https://p0.ssl.img.360kuai.com/t01248053b76aafb407.jpg","width":1044},{"desc":"","height":"314","title":"","url":"https://p0.ssl.img.360kuai.com/t0185387373d15e435e.jpg","width":"1036"},{"desc":"","height":"300","title":"","url":"https://p0.ssl.img.360kuai.com/t01842030c719d4b9ef.jpg","width":"562"},{"desc":"","height":"592","title":"","url":"https://p0.ssl.img.360kuai.com/t014b5a7b4cdb0b269f.jpg","width":"964"},{"desc":"","height":"222","title":"","url":"https://p0.ssl.img.360kuai.com/t01fdacc6f661f945bc.jpg","width":"724"},{"desc":"","height":"280","title":"","url":"https://p0.ssl.img.360kuai.com/t01c8c944edcd78ce34.jpg","width":"1080"},{"desc":"","height":"432","title":"","url":"https://p0.ssl.img.360kuai.com/t011b338275163f966a.jpg","width":"1288"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"pika","pub_time":1705560240000,"pure":"","rawurl":"http://zm.news.so.com/8f2e790cb19e52a48a5a08716f0b05e8","redirect":0,"rptid":"f762f7223125acc4","rss_ext":[],"s":"t","src":"量子位","tag":[],"title":"三行代码无损加速40%，尤洋团队AI训练加速器入选ICLR Oral论文

杭泥狡2673超几何分布的期望和方差公式推导.? -
鲍骅瑞17324994234 ______ 1、超几何分布的期望和方差公式推导. 2、二液慎衫项分布和超几何分布的期望和方差公式. 3、超几何分布的期望和方差公孝拿式高中. 4、超几何分布的期望和方差公式可以直接用吗.1.超几何分布的期望和方差公式:E(X)=(n*M)/N[其中x...

杭泥狡2673指数分布的期望和方差
鲍骅瑞17324994234 ______ 指数分布的期望和方差公式是E(X)=1/λ,D(X)=1/λ.在做题过程中注意以谁为参数,若以λ为参数,则是E(X)=1/λ,D(X)=1/λ².若以1/λ为参数,则E(X)=λ,D(X)=λ².方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量.概率论中方差用来度量随机变量和其数学期望之间的偏离程度.统计中的方差是每个样本值与全体样本值的平均数之差的平方值的平均数.

杭泥狡2673关于样本均值的数学期望和样本均值的方差在实际生活中的含义以下样本均值我用X - 来表示首先E(X - )=μ,D(X - )=1/n*σ^2这个式子的推导我是知道的,但是我仅... -
鲍骅瑞17324994234 ______[答案] 方差主要科学实验和工程上,比如不同实验条件下,样本【白鼠、炼钢的钢样等】与期望值的偏差等等,在炼钢的时候我们根据经验知道不同特性【硬度、弹性等】的钢与温度区间对应,这个区间可能几乎是一点,也可能是一个非常小的区间,我们...

杭泥狡2673高等数学:样本平均值的期望等于总体期望? -
鲍骅瑞17324994234 ______ 你理解得基本正确,但书上也没说错.注意这里说的“一个样本”换句话说就是“任意一组n个数据”.那么对于任意的这样一组数(一个样本),你能算出个平均值(X的一个可能取值),那这个所谓的X不就是个随机变量了么?所以有书中给的性质.

杭泥狡2673关于样本均值的数学期望和样本均值的方差的现实例子意义以下样本均值我用X - 来表示首先E(X - )=μ,D(X - )=1/n*σ^2这个式子的推导我是知道的,但是我仅仅只... -
鲍骅瑞17324994234 ______[答案] 以发给你了

杭泥狡2673二维正态分布的期望和方差公式
鲍骅瑞17324994234 ______ 二维正态分布的期望公式:数F(X)=1/(√2π)T,方差公式:f=T*E^h.二维正态分布,又名二维高斯分布(英语:Two-dimensionalGaussiandistribution,采用德国数学家卡尔·弗里德里希·高斯的名字冠名),是一个在数学、物理及工程等领域都非常重要的概率分布.在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一.它反映随机变量平均取值的大小.需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等.期望值是该变量输出值的平均数.期望值并不一定包含于变量的输出值集合里.

杭泥狡2673X服从标准正态分布,抽取容量为16的样本均值和样本方差,则样本均值的期望和样本方差的期望是多少?讲解 -
鲍骅瑞17324994234 ______ 对于标准正态分布的取样,样本均值的期望就是0,样本方差的期望有两种理解: 一种是样本内方差的期望,也就是标准差,是1 一种是样本间方差的期望,标准误,公式为: s.e. = s.d./根号n 对于本题,s.d.(标准差)=1,n=16,故s.e.(标准误)=0.25

（编辑：自媒体）