首页 >>  正文

spss能做多年数据的回归

来源:baiyundou.net   日期:2024-08-25

今天SPSSPRO给会员朋友们分享的主题是《基于数据挖掘的电采暖电量预测及应用》,本文的作者是陈广宇,袁绍军,夏革非等,发表于《科技资讯》。
 

《科技资讯》是由北京市科学技术研究院主管的科技期刊,创刊于2003年。该期刊专注于报道高新技术动态,促进科技成果转化,内容涵盖新技术、材料、设备及工艺等。设有多个栏目,面向科研人员、教育机构和企业,提供学术交流平台,在学术界享有较高的声誉和影响力。

1.研究背景

在我们的日常生活中,电力的需求正随着社会的发展持续攀升,而如何提升能源的使用效率,已成为我们迫在眉睫的课题。为此,精确而高效的电力需求预测技术显得尤为重要,它不仅能够促进能源的合理利用,还能优化电网的运作状态,保障配电网络的经济和稳定运行,更为电网公司的策略规划和日常工作安排提供了有力的支持。
 

电量预测涉及到利用历史电量数据、天气状况等信息,通过分析其变化趋势来预测未来一段时间内的电量需求。这里,我们可以分为两大类方法:一是传统的预测技术,如时间序列和回归分析法;二是较为现代的方法,比如运用支持向量机、神经网络等机器学习技术。

我们分享一下在SPSSPRO上如何使用传统的统计分析方法以及机器学习方法进行用电量的预测。


2. 数据背景

数据集涵盖了从2015年1月1日到2020年10月6日的2016天时间范围内,某个地区居民的用电需求,以及在不同季节和天气条件下用电量的变化。数据集中我们需要研究的变量如下:

 

从数据集的变量我们可以看到,我们需要研究的因变量Y是电力需求量,其他因素都是自变量X。值得注意的是电力需求量可能收到零售价、气温这些数据集中已有的因素影响,也有可能受到天气(晴天、雨天、阴天等)、日照时长、季节等因素的影响。

是否需要考虑更多影响因素,受到我们选择的分析方法所影响,对于像时间序列分析(ARIMA) 这样的单序列模型,我们只需要有电力需求量这一因变量Y就可以分析和建模,而对于回归分析的话,则需要将相关产生影响的自变量X也纳入模型中。如果我们数据集中的自变量X并不能解释因变量Y的变化情况,那么建立的模型有效性会较低,从而导致我们无法作出准确的预测。下面我们对比一下不同分析方法的特点。

3.统计学VS机器学习

统计学方法提供了理论基础坚实、可解释性强且广泛适用的分析框架,特别适用于数据量较小且要求模型可解释性的情况。然而,它们在处理复杂非线性关系、大数据集和高维度特征方面可能显得能力有限,且对数据质量和预处理的要求较高。在实践中,结合使用统计学方法和机器学习技术往往能够更好地解决分析问题,平衡各自的优势和劣势。

4.灰色关联分析

4.1.概念

灰色关联分析通常用于处理不完全、不确定或不充分的信息。灰色关联分析通过测量序列之间的相似度,来识别它们之间的关系强度、关联度或影响程度。若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。它特别适用于样本数据量小和信息不完全的情况。

4.2.使用方法   

一般来讲,电力需求量具有明显的季节气候特性,受气温变化影响显著,而且具有较强的时序特征。在案例数据中,电量各影响因素之间的关系无法用固定的公式表示,变量之间关系呈灰态,是典型的灰色系统。 同时,电量与影响因素之间的关系是非线性的,因此平常的相关性分析方法并不适用。灰色关联分析从模糊的角度出发,分析影响因素与电量之间的关联性,对样本数据没有特殊的要求。相比于传统的相关性分析方法,灰色关联分析更适用于电采暖电量影响因素辨识,为建立电量预测模型打下基础。
 

接下来我们利用灰色关联分析求取各类影响因素与用电量之间的相关性,确定每一个因素与用电量之间的关联度,根据关联度大小选取特征指标。

 

4.3.分析过程

1.  确定分析数列,母序列为电力需求,其他因素是特征序列。

2.  数据归一化,由于不同变量之间单位不同,需要使用均值化方法统一量纲。

3.  计算关联系数。

4.  计算关联度,由于关联系数是比较序列与参考 序列在各个时刻的关联程度值,所以它不止一个。因此将各个时刻的关联系数取平均值,作为比较数列与参考数列间关联程度的数量表示。


4.4.分析结果

关联度表示各比较数列与参考数列之间的相似关 联程度,介于 0~1 之间。该值越大表示比较数列与参 考数列的关联度越高,意味着比较数列与参考数列之 间关系越紧密,相关性越高。


根据关联度大小将特征指标排序,分析指标对电 采暖电量的影响程度。在表中我们可以看到,各个影响因素与用电量之间的关联度都超过0.95,具有较强的关联关系,我们需要将全部数据集中的影响因素都纳入模型进行分析。值得注意的是,虽然我们认为这些因素都是跟因变量Y有灰色关联关系,但不代表这些因素可以全部解释因变量Y的变化情况。接下来我们分别是用统计学的回归分析以及机器学习方法来建立预测模型。

5.线性回归分析

5.1.概念

线性回归是用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
 

5.2.使用方法 

在灰色关联分析中,全部数据集中的自变量X都有比较强的灰色关联度,所以我们将全部变量都纳入线性回归分析模型中。

从分析结果来看,除了最高气温以外,其他自变量都是显著的,与灰色关联分析的结果较为一致。但模型预测的准确性指标R^2仅有0.136,预测效果较差,导致这个结果的主要原因可能有两个,第一是因变量Y和自变量X之间并非线性关系,第二是有其他更重要的因素影响用电量。针对第一个问题,我们可以尝试使用机器学习的方法进行模型拟合和预测。


6.机器学习 - XGboost回归

6.1.概念

XGBoost(Extreme Gradient Boosting)是一种高效的机器学习算法,基于梯度提升框架的优化实现,XGBoost在回归和分类问题上表现出色,可以被用于预测短期或长期的电力需求、负荷或价格。

6.2.使用方法

在SPSSPRO上,即使是复杂的机器学习算法,也可以通过简单的拖拉拽操作,将我们需要研究的变量放在合适的变量选择框中即可,使用方法与线性回归的基本一致。
 

在机器学习的算法中,我们需要选择的参数比较多,常见的有以下几个:

1.  数据洗牌,对于有序数据,我们选择否。

2.  训练占比,选择训练集和测试机的比例,我们将一部份(默认70%)数据作为训练集,训练出来的模型再用于测试集的预测,由于测试集我们已经知道因变量Y的值,所以通过对比模型生成的结果,以及原始数据中测试机的因变量Y的结果,即可知道我们模型的准确性。

3.  树算法参数,更深入的模型应用,我们可以调整算法参数,例如基学习器的种类和数量,学习吕、样本采样率等等,通过仔细调整算法参数,可以进一步提高模型的准确性。
6.3.分析结果 

在机器学习中,我们关注的结果更多是模型的准确性(性能),没有统计分析中的假设以及前提条件,所以我们重点是通过调整变量和参数,不断提升有效性指标例,从而能获得准确的预测结果。

从模型评估结果可以看到,训练集中模型的拟合效果较好(R^2为0.959),而测试集的拟合效果较差(R^2为0.406),这种典型问题称为“过拟合”。

● 过拟合(Overfitting)

指的是模型在训练集上表现得非常好,几乎能够完美地预测或解释数据,但在未见过的测试集上表现很差。这意味着模型可能过度学习了训练数据中的噪声和细节,而不是捕捉到了数据的真实潜在规律。过拟合导致模型泛化能力差,即模型不能很好地适应新数据。

● 优化方向
 

1.  改变模型

XGboost是梯度提升方法,另外SPSSPRO中还提供了更为决策树、神经网络、支持向量机等机器学习方法,对比使用不同模型的预测准确性并选择合适的模型。
 

2.  调整参数

通过调整模型复杂度、学习速率、采样方式等等,经过对比测试,看能否有效的提高在测试集上的准确性,值得注意的是机器学习算法本身具有随机性,所以即使参数一致,多次运算也会产生变化,我们要区分清楚变化是由参数引起的,还是随机性引起的。
 

3.  特征工程(调整变量)

特征工程是机器学习中的一个关键过程,涉及使用领域知识选择、修改和构建适用于创建有效模型的特征。例如从原始数据中选择最相关的特征,减少模型的复杂性,提高模型的性能;创建新的特征,以揭示数据中的重要信息或模式;将特征转换为更适合模型的形式。常见的转换包括归一化、标准化、对数转换和箱型转换等。
 

提高模型性能的方法并非一蹴而就,随着我们对分析场景的深入理解,进行有效的特征工程,选择合适的模型,可以逐步提升模型性能,进而对研究问题由更加深入的洞察,并且将结果应用于实践,提高我们的用电效率,降低成本。
 

参考:

【1】数据集来自国家公开的数据库kaggle


以上文章来源于SPSSPRO,作者SPSSPRO  

北京天演融智软件有限公司(科学软件网)是SPSSPRO在中国的授权经销商,为中国的软件用户提供优质的软件销售和培训服务。

","gnid":"9fc862d12de050abb","img_data":[{"flag":2,"img":[{"desc":"","height":"383","title":"","url":"https://p0.ssl.img.360kuai.com/t01b2c2b515e587db29.png","width":"900"},{"desc":"","height":"137","title":"","url":"https://p0.ssl.img.360kuai.com/t0196541997e804a1f8.jpg","width":"480"},{"desc":"","height":384,"title":"","url":"https://p0.ssl.img.360kuai.com/t01e9231a69150f71f9.jpg","width":1080},{"desc":"","height":399,"title":"","url":"https://p0.ssl.img.360kuai.com/t0150e529e727f51fb8.jpg","width":585},{"desc":"","height":"1418","title":"","url":"https://p0.ssl.img.360kuai.com/t0153e3a8da115a3270.png","width":"1080"},{"desc":"","height":"1139","title":"","url":"https://p0.ssl.img.360kuai.com/t017b4a1ca10195643c.png","width":"1080"},{"desc":"","height":"485","title":"","url":"https://p0.ssl.img.360kuai.com/t01a78e63ec73626d35.png","width":"1080"},{"desc":"","height":"1060","title":"","url":"https://p0.ssl.img.360kuai.com/t01722ff55ec4de949b.png","width":"1080"},{"desc":"","height":"986","title":"","url":"https://p0.ssl.img.360kuai.com/t0123966bcfa2cfe667.png","width":"1006"},{"desc":"","height":"271","title":"","url":"https://p0.ssl.img.360kuai.com/t0125d898f8d25c966e.png","width":"1080"}]}],"original":0,"pat":"art_src_0,fts0,sts0","powerby":"pika","pub_time":1712652558000,"pure":"","rawurl":"http://zm.news.so.com/3c3b521375a0997659bb1e681ccba640","redirect":0,"rptid":"872f51a5c237f9fa","rss_ext":[],"s":"t","src":"天演融智","tag":[],"title":"基于SPSSPRO的消费侧电力需求预测

白疫非737SPSS数据输入,我要做一个KMO分析,选了30家公司3年6个相同的指标 -
尚辉月13063794432 ______ 因子分析1输入数据.2点Analyze 下拉菜单,选Data Reduction 下的Factor .3打开Factor Analysis后,将数据变量逐个选中进入Variables 对话框中.4单击主对话框中的Descriptive按扭,打开Factor Analysis: Descriptives子对话框,在Statistics...

白疫非737一个因变量,多个自变量,有多年连续数据,怎样进行相关性分析?用spss,一年数据的我会做.连续四 -
尚辉月13063794432 ______ 这个做线性回归linear regression就可以了 我替别人做这类的数据分析蛮多的

白疫非737SPSS 19.0,自变量是一个财务指标,然后底下有分别三年的数据,要怎么在spss里面输入才可以算回归? -
尚辉月13063794432 ______ 录入数据很简单,按列录入即可 我经常帮别人做这类的数据分析的

白疫非737spss做多元线性回归分析,解释变量的数据是多个年份的,如果去探究 被解释与解释变量的关系, -
尚辉月13063794432 ______ 多个年份数据重叠多行就好,以及回归分析如果不懂理论,那还是使用网spss软件spssau这个有智能化文字分析,回归分析还有自动出来模型公式记得是这样.

白疫非737spss用来做什么的,是什么软件,. -
尚辉月13063794432 ______ SPSS是一个统计功能非常完善的软件 SPSS软件的特点 一、集数据录入、资料编辑、数据管理、统计分析、报表制作、图形绘制为一体.从理论上说,只要计算机硬盘和内存足够大,SPSS可以处理任意大小的数据文件,无论文件中包含多少...

白疫非737spss如何做回代检验 -
尚辉月13063794432 ______ spss做中介分析 直接在多元回归分析里面 有个 block 那个分层就可以了,将自变量一层一层的移入到那个对话框,就会一次性出来一个整合的表格,而不应该你这样你一步一步地回归.

白疫非737SPSS是什么? -
尚辉月13063794432 ______ 一、概况: SPSS是软件英文名称的首字母缩写,原意为Statistical Package for the Social Sciences,即“社会科学统计软件包”.但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为Statistical...

白疫非737大家最常用SPSS的什么功能 -
尚辉月13063794432 ______ 很多人看到有人在用spss,好奇spss是什么软件?spss是用来做什么的?spss是一个非常好用的统计分析软件,spss用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务软件哦,下面小编就来详细介绍一下吧!...

白疫非737如何用SPSS做心理学变量间的回归分析? -
尚辉月13063794432 ______ 表4.22的结果是以“工作绩效”为结果变量,以“心理资本的四个维度为自变量,选用stepwise的方法进行回归分析,所得的结果为四维度均纳入回归模型;所对应的指标:R的平方(决定系数) delta R的平方(调整决定系数) beta是指回归系数.所以最后得出的回归模型应该是:工作绩效=心理资本总体*0.806+自我效能*0.467+乐观*0.196+心理弹性*0.160+常数项(表中未列出) 而你上图通过SPSS所得出只是个模型汇总的结果,即对整个模型的全变量回归分析,并非各自变量回归分析的结果.

白疫非737用spss做回归分析,大神帮忙看下 -
尚辉月13063794432 ______ 你应该采用STEP WISE自变量进入方式.从你现在有结果看X3、X4、X5可能不会进入回归方程

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024