首页 >>  正文

spss预测未来几年数据

来源:baiyundou.net   日期:2024-08-25

今天SPSSPRO给会员朋友们分享的主题是《基于数据挖掘的电采暖电量预测及应用》,本文的作者是陈广宇,袁绍军,夏革非等,发表于《科技资讯》。
 

《科技资讯》是由北京市科学技术研究院主管的科技期刊,创刊于2003年。该期刊专注于报道高新技术动态,促进科技成果转化,内容涵盖新技术、材料、设备及工艺等。设有多个栏目,面向科研人员、教育机构和企业,提供学术交流平台,在学术界享有较高的声誉和影响力。

1.研究背景

在我们的日常生活中,电力的需求正随着社会的发展持续攀升,而如何提升能源的使用效率,已成为我们迫在眉睫的课题。为此,精确而高效的电力需求预测技术显得尤为重要,它不仅能够促进能源的合理利用,还能优化电网的运作状态,保障配电网络的经济和稳定运行,更为电网公司的策略规划和日常工作安排提供了有力的支持。
 

电量预测涉及到利用历史电量数据、天气状况等信息,通过分析其变化趋势来预测未来一段时间内的电量需求。这里,我们可以分为两大类方法:一是传统的预测技术,如时间序列和回归分析法;二是较为现代的方法,比如运用支持向量机、神经网络等机器学习技术。

我们分享一下在SPSSPRO上如何使用传统的统计分析方法以及机器学习方法进行用电量的预测。


2. 数据背景

数据集涵盖了从2015年1月1日到2020年10月6日的2016天时间范围内,某个地区居民的用电需求,以及在不同季节和天气条件下用电量的变化。数据集中我们需要研究的变量如下:

 

从数据集的变量我们可以看到,我们需要研究的因变量Y是电力需求量,其他因素都是自变量X。值得注意的是电力需求量可能收到零售价、气温这些数据集中已有的因素影响,也有可能受到天气(晴天、雨天、阴天等)、日照时长、季节等因素的影响。

是否需要考虑更多影响因素,受到我们选择的分析方法所影响,对于像时间序列分析(ARIMA) 这样的单序列模型,我们只需要有电力需求量这一因变量Y就可以分析和建模,而对于回归分析的话,则需要将相关产生影响的自变量X也纳入模型中。如果我们数据集中的自变量X并不能解释因变量Y的变化情况,那么建立的模型有效性会较低,从而导致我们无法作出准确的预测。下面我们对比一下不同分析方法的特点。

3.统计学VS机器学习

统计学方法提供了理论基础坚实、可解释性强且广泛适用的分析框架,特别适用于数据量较小且要求模型可解释性的情况。然而,它们在处理复杂非线性关系、大数据集和高维度特征方面可能显得能力有限,且对数据质量和预处理的要求较高。在实践中,结合使用统计学方法和机器学习技术往往能够更好地解决分析问题,平衡各自的优势和劣势。

4.灰色关联分析

4.1.概念

灰色关联分析通常用于处理不完全、不确定或不充分的信息。灰色关联分析通过测量序列之间的相似度,来识别它们之间的关系强度、关联度或影响程度。若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。它特别适用于样本数据量小和信息不完全的情况。

4.2.使用方法   

一般来讲,电力需求量具有明显的季节气候特性,受气温变化影响显著,而且具有较强的时序特征。在案例数据中,电量各影响因素之间的关系无法用固定的公式表示,变量之间关系呈灰态,是典型的灰色系统。 同时,电量与影响因素之间的关系是非线性的,因此平常的相关性分析方法并不适用。灰色关联分析从模糊的角度出发,分析影响因素与电量之间的关联性,对样本数据没有特殊的要求。相比于传统的相关性分析方法,灰色关联分析更适用于电采暖电量影响因素辨识,为建立电量预测模型打下基础。
 

接下来我们利用灰色关联分析求取各类影响因素与用电量之间的相关性,确定每一个因素与用电量之间的关联度,根据关联度大小选取特征指标。

 

4.3.分析过程

1.  确定分析数列,母序列为电力需求,其他因素是特征序列。

2.  数据归一化,由于不同变量之间单位不同,需要使用均值化方法统一量纲。

3.  计算关联系数。

4.  计算关联度,由于关联系数是比较序列与参考 序列在各个时刻的关联程度值,所以它不止一个。因此将各个时刻的关联系数取平均值,作为比较数列与参考数列间关联程度的数量表示。


4.4.分析结果

关联度表示各比较数列与参考数列之间的相似关 联程度,介于 0~1 之间。该值越大表示比较数列与参 考数列的关联度越高,意味着比较数列与参考数列之 间关系越紧密,相关性越高。


根据关联度大小将特征指标排序,分析指标对电 采暖电量的影响程度。在表中我们可以看到,各个影响因素与用电量之间的关联度都超过0.95,具有较强的关联关系,我们需要将全部数据集中的影响因素都纳入模型进行分析。值得注意的是,虽然我们认为这些因素都是跟因变量Y有灰色关联关系,但不代表这些因素可以全部解释因变量Y的变化情况。接下来我们分别是用统计学的回归分析以及机器学习方法来建立预测模型。

5.线性回归分析

5.1.概念

线性回归是用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
 

5.2.使用方法 

在灰色关联分析中,全部数据集中的自变量X都有比较强的灰色关联度,所以我们将全部变量都纳入线性回归分析模型中。

从分析结果来看,除了最高气温以外,其他自变量都是显著的,与灰色关联分析的结果较为一致。但模型预测的准确性指标R^2仅有0.136,预测效果较差,导致这个结果的主要原因可能有两个,第一是因变量Y和自变量X之间并非线性关系,第二是有其他更重要的因素影响用电量。针对第一个问题,我们可以尝试使用机器学习的方法进行模型拟合和预测。


6.机器学习 - XGboost回归

6.1.概念

XGBoost(Extreme Gradient Boosting)是一种高效的机器学习算法,基于梯度提升框架的优化实现,XGBoost在回归和分类问题上表现出色,可以被用于预测短期或长期的电力需求、负荷或价格。

6.2.使用方法

在SPSSPRO上,即使是复杂的机器学习算法,也可以通过简单的拖拉拽操作,将我们需要研究的变量放在合适的变量选择框中即可,使用方法与线性回归的基本一致。
 

在机器学习的算法中,我们需要选择的参数比较多,常见的有以下几个:

1.  数据洗牌,对于有序数据,我们选择否。

2.  训练占比,选择训练集和测试机的比例,我们将一部份(默认70%)数据作为训练集,训练出来的模型再用于测试集的预测,由于测试集我们已经知道因变量Y的值,所以通过对比模型生成的结果,以及原始数据中测试机的因变量Y的结果,即可知道我们模型的准确性。

3.  树算法参数,更深入的模型应用,我们可以调整算法参数,例如基学习器的种类和数量,学习吕、样本采样率等等,通过仔细调整算法参数,可以进一步提高模型的准确性。
6.3.分析结果 

在机器学习中,我们关注的结果更多是模型的准确性(性能),没有统计分析中的假设以及前提条件,所以我们重点是通过调整变量和参数,不断提升有效性指标例,从而能获得准确的预测结果。

从模型评估结果可以看到,训练集中模型的拟合效果较好(R^2为0.959),而测试集的拟合效果较差(R^2为0.406),这种典型问题称为“过拟合”。

● 过拟合(Overfitting)

指的是模型在训练集上表现得非常好,几乎能够完美地预测或解释数据,但在未见过的测试集上表现很差。这意味着模型可能过度学习了训练数据中的噪声和细节,而不是捕捉到了数据的真实潜在规律。过拟合导致模型泛化能力差,即模型不能很好地适应新数据。

● 优化方向
 

1.  改变模型

XGboost是梯度提升方法,另外SPSSPRO中还提供了更为决策树、神经网络、支持向量机等机器学习方法,对比使用不同模型的预测准确性并选择合适的模型。
 

2.  调整参数

通过调整模型复杂度、学习速率、采样方式等等,经过对比测试,看能否有效的提高在测试集上的准确性,值得注意的是机器学习算法本身具有随机性,所以即使参数一致,多次运算也会产生变化,我们要区分清楚变化是由参数引起的,还是随机性引起的。
 

3.  特征工程(调整变量)

特征工程是机器学习中的一个关键过程,涉及使用领域知识选择、修改和构建适用于创建有效模型的特征。例如从原始数据中选择最相关的特征,减少模型的复杂性,提高模型的性能;创建新的特征,以揭示数据中的重要信息或模式;将特征转换为更适合模型的形式。常见的转换包括归一化、标准化、对数转换和箱型转换等。
 

提高模型性能的方法并非一蹴而就,随着我们对分析场景的深入理解,进行有效的特征工程,选择合适的模型,可以逐步提升模型性能,进而对研究问题由更加深入的洞察,并且将结果应用于实践,提高我们的用电效率,降低成本。
 

参考:

【1】数据集来自国家公开的数据库kaggle


以上文章来源于SPSSPRO,作者SPSSPRO  

北京天演融智软件有限公司(科学软件网)是SPSSPRO在中国的授权经销商,为中国的软件用户提供优质的软件销售和培训服务。

","gnid":"9fc862d12de050abb","img_data":[{"flag":2,"img":[{"desc":"","height":"383","title":"","url":"https://p0.ssl.img.360kuai.com/t01b2c2b515e587db29.png","width":"900"},{"desc":"","height":"137","title":"","url":"https://p0.ssl.img.360kuai.com/t0196541997e804a1f8.jpg","width":"480"},{"desc":"","height":384,"title":"","url":"https://p0.ssl.img.360kuai.com/t01e9231a69150f71f9.jpg","width":1080},{"desc":"","height":399,"title":"","url":"https://p0.ssl.img.360kuai.com/t0150e529e727f51fb8.jpg","width":585},{"desc":"","height":"1418","title":"","url":"https://p0.ssl.img.360kuai.com/t0153e3a8da115a3270.png","width":"1080"},{"desc":"","height":"1139","title":"","url":"https://p0.ssl.img.360kuai.com/t017b4a1ca10195643c.png","width":"1080"},{"desc":"","height":"485","title":"","url":"https://p0.ssl.img.360kuai.com/t01a78e63ec73626d35.png","width":"1080"},{"desc":"","height":"1060","title":"","url":"https://p0.ssl.img.360kuai.com/t01722ff55ec4de949b.png","width":"1080"},{"desc":"","height":"986","title":"","url":"https://p0.ssl.img.360kuai.com/t0123966bcfa2cfe667.png","width":"1006"},{"desc":"","height":"271","title":"","url":"https://p0.ssl.img.360kuai.com/t0125d898f8d25c966e.png","width":"1080"}]}],"original":0,"pat":"art_src_0,fts0,sts0","powerby":"pika","pub_time":1712652558000,"pure":"","rawurl":"http://zm.news.so.com/3c3b521375a0997659bb1e681ccba640","redirect":0,"rptid":"872f51a5c237f9fa","rss_ext":[],"s":"t","src":"天演融智","tag":[],"title":"基于SPSSPRO的消费侧电力需求预测

卢眨彬5148如何用SPSS生成决策树并对新数据进行预测分析 -
卫届晴18537721922 ______ SPSS——回归——线性——选择分析变量——保存(save)——预测区间(predictionintervals)——选择上均数(Mean)和个体(individual)运行即可.结果在SPSS打开的

卢眨彬5148已知前几年的某大气数据、需要预测后一年的年数据和单月数据 用什么预测方法合适呢?为什么?求高人~ -
卫届晴18537721922 ______ 预测方法其实也是技巧性很强的东西,主要的是所在的地区,如果单看趋势的话,可以500百帕看环流场,以及前期的海温.根据不同的地区,确定不同的方法,都是抓主信号.比如预测南方降水就看副高,青藏高原积雪,ENSO等等.要是北方,那就要看东北冷涡之类的了,总之没有什么方法是万能的.此外可以用模式的结果.预测的文章很多,可以去知网自己找,这玩意不是一句两句能说明白的. 另外你说的spss 只是个统计工具,预测的准确性,关键在于方法,SPss目前已经有中文版的了,操作算是无脑了

卢眨彬5148怎么利用SPSS确定几组指标的相关性,并作出预测模型 -
卫届晴18537721922 ______ 可以实现 但是你的数据需要有多年的自变量数据和多年的因变量数据, 直接通过spss有个预测功能,里面就是针对时间序列的预测分析方法

卢眨彬5148如何用SPSS做组合预测法 -
卫届晴18537721922 ______ 判断模型的好坏主要用AIC、SIC或者BIC来看.SPSS里面只有BIC.这三个指标意思是差不多的,不过以SIC和BIC为准.你在建立不同模型的时候把相应的BIC都算出来,比较哪个最小,哪个模型就是最好的.还有,就是检验模型中自变量的T-...

卢眨彬5148如何用spss做时间序列预测前怎样进行数据预处理 -
卫届晴18537721922 ______ 可以采用单因素方差分析 不知道你用的什么版本spss 首先输入数据,组别为一列,具体数据为一列 分析》均值比较》ANOVA》把组别放到因子框中,把具体数据放到因变量框中》选择里选择描述和方差分析》两两分析选择LSD和T3》其他不变比较就可以.

卢眨彬5148怎么用spss作时间序列的趋势图 -
卫届晴18537721922 ______ 第一步:定义时间.步骤:数据-定义日期.有许多种日期模式,依实际情况定. 第二步:创建模型.步骤:分析-预测-创建模型. 第一个选项卡里面有专家建模器,指数平滑法,ARIMA. 专家建模器就是傻瓜相机,基本不靠谱.波动序列用ARIMA,平滑的用指数法. 拟合优劣,ARIMA看平稳的R方,指数平滑法看R方. 第二个选项卡:统计量选项卡-拟合度量. 第三个选项卡:图表,注重单个模型图,你可以全都选上看看都是对应哪些图,多画几个就熟了.

卢眨彬5148多元非线性回归分析 用spss如何操作 -
卫届晴18537721922 ______ 菜单:analyze--regression--选好自变量、因变量、回归模式即可,因变量符合正态性分布,自变量可以是分类变量,无序分类变量需要进行哑变量转换.回归模式有前进、后退,逐步法可以选择

卢眨彬5148用spss怎么做多元非线性曲线 -
卫届晴18537721922 ______ regression菜单里面去做nonlinear

卢眨彬5148如何用SPSS做趋势面分析 -
卫届晴18537721922 ______ 分析--描述统计--频率,在弹出的对话框中,调入要分析的变量,点统计量,会发现有集中趋势的指标,如均值,中位数,也有离散程度的指标,如方差,标准差,选中这些.确定,即会自动给出结果.

卢眨彬5148用spss预测时间数列,如何判断哪种模型更好 -
卫届晴18537721922 ______ 日期变量是需要在建模前定义的,在data里的define date那里,选择你希望分析的日期定义.列表里有年,月,季度,日,小时,分钟等.选择以后,需要定义数据里第一条记录的日期.比如,这条记录是第一周,第一天,然后spss会自动帮你往下填充.

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024