蝴蝶模型公式证明过程

首页 >> 正文

蝴蝶模型公式证明过程

来源：baiyundou.net 日期：2024-07-29

图片来源@视觉中国

文｜追问NextQuestion

活到老，学到老，人类可以在不断变化的环境中连续自适应地学习——在新的环境中不断吸收新知识，并根据不同的环境灵活调整自己的行为。模仿碳基生命的这一特性，针对连续学习（continual learning，CL）的机器学习算法的研究应运而生，并成为大家日益关注的焦点。

那么，什么是连续学习？相较于传统单任务的机器学习方法，连续学习旨在学习一系列任务，即在连续的信息流中，从不断改变的概率分布中学习和记住多个任务，并随着时间的推移，不断学习新知识，同时保留之前学到的知识。

然而，这个领域的技术发展并非一帆风顺，面临着许多难题。《庄子·秋水》中曾描述过一个这样的故事：战国时期，燕国有一少年听闻赵国都城邯郸人走路姿势异常优美，心向往之。遗憾的是，他在跟随邯郸人学步数月后，却把之前走路姿势忘记了，最后甚至都不会走路了，无奈只好爬回了燕国。有趣的是，这则寓言故事深蕴着当前连续学习模型的困境之一——灾难性遗忘（catastrophic forgetting），模型在学习新任务之后，由于参数更新对模型的干扰，会忘记如何解决旧任务。而对于机器学习技术而言，另一普遍关注的概念便是泛化误差（generalization error），这是衡量机器学习模型泛化能力的标准，用以评估训练好的模型对未知数据预测的准确性。泛化误差越小，说明模型的泛化能力越好。

尽管目前很多实验研究致力于解决连续学习中的灾难性遗忘问题，但是对连续学习的理论研究还十分有限。哪些因素与灾难性遗忘和泛化误差相关？它们如何明确地影响模型的连续学习能力？对此我们所知甚少。

近期，来自美国俄亥俄州立大学Ness Shroff教授团队的研究工作“Theory on Forgetting and Generalization of Continual Learning”或有望为这一问题提供详细的解答。他们从理论上解释了过度参数化（over parameterization）、任务相似性（task similarity）和任务排序（task ordering）对遗忘和泛化误差的影响，发现更多的模型参数、更低的噪声水平、更大的相邻任务间差异，有助于降低遗忘。同时，通过深度神经网络（DNN），他们在真实数据集上验证了该理论的可行性。

图注：论文封面，该论文于2023年2月刊登在ArXiv上

连续学习线性模型的构建

在经典的机器学习理论中，参数越多，模型越复杂，往往会带来不期望见到的过拟合。但以DNN为代表的深度学习模型则不然，其参数越多，模型训练效果越好。为了理解这一现象，作者更加关注在过参数化的情况下（p>n），连续学习模型的表现。文章首次定义了基于过参数化线性模型的连续学习模型，考量其在灾难性遗忘和泛化误差问题上的闭合解（定理1.1）。

定理1.1 当p≥n+2时，则：

T={1,…,T}代表任务序列；||w_i^∗ - w_j^∗||²表征任务i和j之间的相似性；p为模型实际参数的数量；n为模型需要的参数数量；r为过参数化的比例，r=1-n/p；σ为噪声水平；c_i,j =(1-r)(r^T-i-r^j-i+r^T-j)，其中1≤i≤j≤T；更多参数介绍详看原始文献和附录部分。

（9）式和（10）式分别为灾难性遗忘FT和泛化误差GT的数学表示。它们不仅描述了连续学习在线性模型中是如何工作的，还为其在一些真实的数据集和DNN中的应用提供指导。

连续学习中的鼎足三分

在上述数学模型的基础上，作者还研究了在连续学习过程中，过参数化、任务之间的相似程度和任务的训练顺序三个因素对灾难性遗忘和泛化误差的影响。

1）过参数化

· 更多的模型训练参数将有助于降低遗忘

如定理1.1所示，当表示参数数量的p趋近于0时，E[F_T]也将趋近于零。

· 噪声水平和（或）任务间相似度低的情况下，过参数化更好

为了比较过参数化和欠参数化时模型的性能，作者构建了与定理1.1类似的，在欠参数情况下的理论模型定理1.2。

定理1.2 当n≥p+2时，则：

如定理1.2所示，欠参数化的情况下，当噪声水平σ较大时，以及当训练的任务间区分度较大时，E[F_T]和E[G_T]都变大。相反，过参数化的情况下，当噪声水平σ较大时，以及当训练的任务间不太相似时，E[F_T]和E[G_T]都变小。这表明当噪声水平高和（或）训练任务相似性较低时，过参数化的情况可能比欠参数化的情况训练效果更好，即存在良性过拟合。

2）连续训练任务的相似性

· 泛化误差随着任务相似性的增加而降低，而遗忘则可能不会随之降低

如定理1.1所示，由于公式（10）中G2项的系数始终为正，所以当任务之间越相似，区分度越少时，泛化误差会相应降低。但是由于公式（9）中，F2项的系数并不总是为正，所以可能出现任务之间的相似性增加模型的遗忘性能也增加的情况。

3）任务训练顺序

· 在早期阶段将差异大的任务相邻训练，将有助于降低遗忘

为了找到连续学习中，任务的最优训练顺序。作者考虑了两种特殊情况。情况一，任务集由一个特殊的任务，和剩余其它完全一模一样的任务组成。情况二，任务集由数目相同的不同任务组成。通过对两种情况的比较分析得出：

首先，特殊的任务在训练时，应优先在前半段执行；

其次，相邻任务之间应差异较大；这些措施都将有助于降低连续学习模型的遗忘。但是，最小化的遗忘和最小化的泛化误差的最佳任务训练排序有时并不相同。

DNN对连续学习模型的验证

最后，为了验证上述推论的可靠性，作者使用DNN在真实数据集上进行实验。后续的实验结果明确地证实了，任务相似性对连续学习模型灾难性遗忘的非单调性影响。而关于任务排序影响的实验结果也与前面线性模型中的发现一致，即应在模型训练早期设置区分度较大的任务学习，并安排区分度较大任务相邻训练。

表1：使用TRGP和TRGP+两种任务策略在不同数据集中训练得到的准确性和反向迁移（用负值表示遗忘；值越大/正，表示知识反向迁移效果越好）结果

正向迁移：在学习新任务的过程中，利用以前的任务中学习到的经验来帮助新任务的知识学习。

反向迁移：在学习新任务的过程中，学习到的新知识，巩固了以前任务的知识学习。

PMNIST数据集：MNIST数据集是机器学习模型训练所使用的经典数据集，包含0-9这10个数字的手写样本，其中每个样本的输入是一个图像，标签是图像所代表的数字。PMNIST是基于MNIST数据集的变种，由10种不同的MNIST样本置换顺序的连续学习任务组成，可进行连续学习问题的评估。Split CIFAR-100数据集：CIFAR-100数据集也是机器学习模型训练所使用的经典数据集，包含100种分类任务，如蜜蜂、蝴蝶等。每类有600张彩色图像，其中500张作为训练集，100张作为测试集。同样，为了在该数据集上进行连续学习问题的评估，作者将CIFAR-100数据集等分为10组，每一组由10个完全不同的分类任务组成，重构了Split CIFAR-100连续学习数据集。

更有趣的是，作者发现，相较于赋以不同时间点学习的旧任务相同的权重（TRGP）的策略，赋以最近学习的旧任务更多的权重（TRGP+），可以更好地促进连续学习模型的知识正向迁移和反向迁移（表 1）。这些发现有望为后续连续学习策略的设计提供理论参考。

参考链接：

Lin, S., Ju, P., Liang, Y., & Shroff, N. (2023). Theory on Forgetting and Generalization of Continual Learning. ArXiv. /abs/2302.05836
韩亚楠, & Liu, Jianwei & Luo, Xiong-Lin. (2021). 连续学习研究进展. Journal of Computer Research and Development. 10.7544/issn1000-1239.2022.20201058.

","gnid":"981c76a90b1f1fcf2","img_data":[{"flag":2,"img":[]}],"original":0,"pat":"art_src_1,fts0,sts0","powerby":"pika","pub_time":1691638462000,"pure":"","rawurl":"http://zm.news.so.com/1d10e001d483c2da690d4e001f8c816b","redirect":0,"rptid":"a8930d22cd37ea55","rss_ext":[],"s":"t","src":"钛媒体APP","tag":[{"clk":"ktechnology_1:机器学习","k":"机器学习","u":""},{"clk":"ktechnology_1:人工智能","k":"人工智能","u":""}],"title":"人工智能如何克服遗忘困境？

沙和欢4035蝴蝶定理的内容及证明过程?这个定理是谁提出来的? -
冯文支15511799070 ______[答案] 蝴蝶定理自从学习几何画板以来,我一直在思索着这样一个问题:怎么才能把“蝴蝶定理”推广一下. 我想,能不能把“蝴蝶定理”中的圆由一个变为两个,相应的,还保持一种美妙的性质呢?如图I,是“蝴蝶定理”,有结论EP=PF;如图II,是“...

沙和欢4035蝴蝶模型的四大结论是什么? -
冯文支15511799070 ______ 蝴蝶模型的四大结论为: 1、相似图形,面积比等于对边比的平方也就是S1:旁镇S2=a^2/b^2. 2、S1:S2:S3:S4= a²:b²:ab:ab. 3、S3=S4. 4、AO:BO=(S1+S3):(S2+S4). 蝴蝶定理是一个平面几何中的重要定理,由于该定理的几何图形形...

沙和欢4035几何中的蝴蝶模型是什么原理?有什么特征? -
冯文支15511799070 ______[答案] 几何中的蝴蝶模型: 一.任意四边形中的比例关系. ①S1︰S2=S4︰S3 或者S1*S3=S2*S4 ②AO︰OC=(S1+S2)︰(S4+S3) 二.梯形中比例关系 ①S1︰S3=a2︰b2 ②S1︰S3︰S2︰S4= a2︰b2︰ab︰ab ; ③S的对应份数为(a+b)2

沙和欢4035求蝴蝶定理的证明方法.
冯文支15511799070 ______ 蝴蝶定理自从学习几何画板以来,我一直在思索着这样一个问题:怎么才能把“蝴蝶定理”推广一下. 我想,能不能把“蝴蝶定理”中的圆由一个变为两个,相应的,还保持一种美妙的性质呢?如图I,是“蝴蝶定理”,有结论EP=PF;如图II...

沙和欢4035能帮我写一下蝴蝶定理的证明过程吗定理内容:圆O中的弦PQ的中点M
冯文支15511799070 ______ 设弦AB的中点为M,过M 作弦CD,EF,连EC,DF交AB于G,H,则GM=GF.这是蝴蝶定理,下面证明. ※先给出一个关于面积的定理: △ABC的面积=(1/2)*AB*AC*...

沙和欢4035您好,看了您的蝴蝶定理的证明我想问个简单的问题,第一步三角相似的证明方法! -
冯文支15511799070 ______[答案] AB是圆的一条弦,中点记为S,圆心为O,过S作任意两条弦CD、EF,分别交圆于C、D、E、F,连接CF,ED分别交AB于点M、N,求证:MS=NS. 证明要点: 过O作OL⊥AD,OT⊥CF,垂足为L、T,连接ON,OM,OS,SL,ST 容易证明△ESD∽△CSF...

沙和欢4035蝴蝶定理的推广 -
冯文支15511799070 ______ 该定理实际上是射影几何中一个定理的特殊情况,有多种推广:M,作为圆内弦是不必要的,可以移到圆外.蝴蝶定理的圆外形式:如图,延长圆O中两条弦AB与CD交于一点M,过PM做OM垂线,垂线与CB和AD的延长线交于E、F,则可得...

沙和欢4035蝴蝶定理的简易推广 -
冯文支15511799070 ______ 自从学习几何画板以来,我一直在思索着这样一个问题:怎么才能把“蝴蝶定理”推广一下. 我想,能不能把“蝴蝶定理”中的圆由一个变为两个,相应的,还保持一种美妙的性质呢?如图I,是“蝴蝶定理...

沙和欢4035请问这道小学三年级奥数怎么做,详细的谢谢! -
冯文支15511799070 ______ 解:阴影部分面积=10*10÷2=50平方厘米理解(等换,利用等底等高)具体分析连接大正方形对角线;就能发现有两个等底等高的三角形;再利用等换法.

沙和欢4035蝴蝶定理的详细内容是什么?
冯文支15511799070 ______ 蝴蝶定理设AB是圆O的弦,M是AB的中点.过M作圆O的两弦CD、EF,CF、DE分别交AB于H、G.则MH=MG. 证明:过圆心O作AD与B牟垂线,垂足为S、T,连接OX,OY,OM.SM.MT. ∵△SMD∽△CMB,且SD=1/2ADBT=1/2BC, ∴DS/BT=DM/BM又∵∠D=∠B ∴△MSD∽△MTB,∠MSD=∠MTB ∴∠MSX=∠MTY;又∵O,S,X,M与O,T.Y.M均是四点共圆, ∴∠XOM=∠YOM ∵OM⊥PQ∴XM=YM

（编辑：自媒体）