首页 >>  正文

spss自带案例数据

来源:baiyundou.net   日期:2024-09-21

今天SPSSPRO给会员朋友们分享的主题是《基于数据挖掘的电采暖电量预测及应用》,本文的作者是陈广宇,袁绍军,夏革非等,发表于《科技资讯》。
 

《科技资讯》是由北京市科学技术研究院主管的科技期刊,创刊于2003年。该期刊专注于报道高新技术动态,促进科技成果转化,内容涵盖新技术、材料、设备及工艺等。设有多个栏目,面向科研人员、教育机构和企业,提供学术交流平台,在学术界享有较高的声誉和影响力。

1.研究背景

在我们的日常生活中,电力的需求正随着社会的发展持续攀升,而如何提升能源的使用效率,已成为我们迫在眉睫的课题。为此,精确而高效的电力需求预测技术显得尤为重要,它不仅能够促进能源的合理利用,还能优化电网的运作状态,保障配电网络的经济和稳定运行,更为电网公司的策略规划和日常工作安排提供了有力的支持。
 

电量预测涉及到利用历史电量数据、天气状况等信息,通过分析其变化趋势来预测未来一段时间内的电量需求。这里,我们可以分为两大类方法:一是传统的预测技术,如时间序列和回归分析法;二是较为现代的方法,比如运用支持向量机、神经网络等机器学习技术。

我们分享一下在SPSSPRO上如何使用传统的统计分析方法以及机器学习方法进行用电量的预测。


2. 数据背景

数据集涵盖了从2015年1月1日到2020年10月6日的2016天时间范围内,某个地区居民的用电需求,以及在不同季节和天气条件下用电量的变化。数据集中我们需要研究的变量如下:

 

从数据集的变量我们可以看到,我们需要研究的因变量Y是电力需求量,其他因素都是自变量X。值得注意的是电力需求量可能收到零售价、气温这些数据集中已有的因素影响,也有可能受到天气(晴天、雨天、阴天等)、日照时长、季节等因素的影响。

是否需要考虑更多影响因素,受到我们选择的分析方法所影响,对于像时间序列分析(ARIMA) 这样的单序列模型,我们只需要有电力需求量这一因变量Y就可以分析和建模,而对于回归分析的话,则需要将相关产生影响的自变量X也纳入模型中。如果我们数据集中的自变量X并不能解释因变量Y的变化情况,那么建立的模型有效性会较低,从而导致我们无法作出准确的预测。下面我们对比一下不同分析方法的特点。

3.统计学VS机器学习

统计学方法提供了理论基础坚实、可解释性强且广泛适用的分析框架,特别适用于数据量较小且要求模型可解释性的情况。然而,它们在处理复杂非线性关系、大数据集和高维度特征方面可能显得能力有限,且对数据质量和预处理的要求较高。在实践中,结合使用统计学方法和机器学习技术往往能够更好地解决分析问题,平衡各自的优势和劣势。

4.灰色关联分析

4.1.概念

灰色关联分析通常用于处理不完全、不确定或不充分的信息。灰色关联分析通过测量序列之间的相似度,来识别它们之间的关系强度、关联度或影响程度。若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。它特别适用于样本数据量小和信息不完全的情况。

4.2.使用方法   

一般来讲,电力需求量具有明显的季节气候特性,受气温变化影响显著,而且具有较强的时序特征。在案例数据中,电量各影响因素之间的关系无法用固定的公式表示,变量之间关系呈灰态,是典型的灰色系统。 同时,电量与影响因素之间的关系是非线性的,因此平常的相关性分析方法并不适用。灰色关联分析从模糊的角度出发,分析影响因素与电量之间的关联性,对样本数据没有特殊的要求。相比于传统的相关性分析方法,灰色关联分析更适用于电采暖电量影响因素辨识,为建立电量预测模型打下基础。
 

接下来我们利用灰色关联分析求取各类影响因素与用电量之间的相关性,确定每一个因素与用电量之间的关联度,根据关联度大小选取特征指标。

 

4.3.分析过程

1.  确定分析数列,母序列为电力需求,其他因素是特征序列。

2.  数据归一化,由于不同变量之间单位不同,需要使用均值化方法统一量纲。

3.  计算关联系数。

4.  计算关联度,由于关联系数是比较序列与参考 序列在各个时刻的关联程度值,所以它不止一个。因此将各个时刻的关联系数取平均值,作为比较数列与参考数列间关联程度的数量表示。


4.4.分析结果

关联度表示各比较数列与参考数列之间的相似关 联程度,介于 0~1 之间。该值越大表示比较数列与参 考数列的关联度越高,意味着比较数列与参考数列之 间关系越紧密,相关性越高。


根据关联度大小将特征指标排序,分析指标对电 采暖电量的影响程度。在表中我们可以看到,各个影响因素与用电量之间的关联度都超过0.95,具有较强的关联关系,我们需要将全部数据集中的影响因素都纳入模型进行分析。值得注意的是,虽然我们认为这些因素都是跟因变量Y有灰色关联关系,但不代表这些因素可以全部解释因变量Y的变化情况。接下来我们分别是用统计学的回归分析以及机器学习方法来建立预测模型。

5.线性回归分析

5.1.概念

线性回归是用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
 

5.2.使用方法 

在灰色关联分析中,全部数据集中的自变量X都有比较强的灰色关联度,所以我们将全部变量都纳入线性回归分析模型中。

从分析结果来看,除了最高气温以外,其他自变量都是显著的,与灰色关联分析的结果较为一致。但模型预测的准确性指标R^2仅有0.136,预测效果较差,导致这个结果的主要原因可能有两个,第一是因变量Y和自变量X之间并非线性关系,第二是有其他更重要的因素影响用电量。针对第一个问题,我们可以尝试使用机器学习的方法进行模型拟合和预测。


6.机器学习 - XGboost回归

6.1.概念

XGBoost(Extreme Gradient Boosting)是一种高效的机器学习算法,基于梯度提升框架的优化实现,XGBoost在回归和分类问题上表现出色,可以被用于预测短期或长期的电力需求、负荷或价格。

6.2.使用方法

在SPSSPRO上,即使是复杂的机器学习算法,也可以通过简单的拖拉拽操作,将我们需要研究的变量放在合适的变量选择框中即可,使用方法与线性回归的基本一致。
 

在机器学习的算法中,我们需要选择的参数比较多,常见的有以下几个:

1.  数据洗牌,对于有序数据,我们选择否。

2.  训练占比,选择训练集和测试机的比例,我们将一部份(默认70%)数据作为训练集,训练出来的模型再用于测试集的预测,由于测试集我们已经知道因变量Y的值,所以通过对比模型生成的结果,以及原始数据中测试机的因变量Y的结果,即可知道我们模型的准确性。

3.  树算法参数,更深入的模型应用,我们可以调整算法参数,例如基学习器的种类和数量,学习吕、样本采样率等等,通过仔细调整算法参数,可以进一步提高模型的准确性。
6.3.分析结果 

在机器学习中,我们关注的结果更多是模型的准确性(性能),没有统计分析中的假设以及前提条件,所以我们重点是通过调整变量和参数,不断提升有效性指标例,从而能获得准确的预测结果。

从模型评估结果可以看到,训练集中模型的拟合效果较好(R^2为0.959),而测试集的拟合效果较差(R^2为0.406),这种典型问题称为“过拟合”。

● 过拟合(Overfitting)

指的是模型在训练集上表现得非常好,几乎能够完美地预测或解释数据,但在未见过的测试集上表现很差。这意味着模型可能过度学习了训练数据中的噪声和细节,而不是捕捉到了数据的真实潜在规律。过拟合导致模型泛化能力差,即模型不能很好地适应新数据。

● 优化方向
 

1.  改变模型

XGboost是梯度提升方法,另外SPSSPRO中还提供了更为决策树、神经网络、支持向量机等机器学习方法,对比使用不同模型的预测准确性并选择合适的模型。
 

2.  调整参数

通过调整模型复杂度、学习速率、采样方式等等,经过对比测试,看能否有效的提高在测试集上的准确性,值得注意的是机器学习算法本身具有随机性,所以即使参数一致,多次运算也会产生变化,我们要区分清楚变化是由参数引起的,还是随机性引起的。
 

3.  特征工程(调整变量)

特征工程是机器学习中的一个关键过程,涉及使用领域知识选择、修改和构建适用于创建有效模型的特征。例如从原始数据中选择最相关的特征,减少模型的复杂性,提高模型的性能;创建新的特征,以揭示数据中的重要信息或模式;将特征转换为更适合模型的形式。常见的转换包括归一化、标准化、对数转换和箱型转换等。
 

提高模型性能的方法并非一蹴而就,随着我们对分析场景的深入理解,进行有效的特征工程,选择合适的模型,可以逐步提升模型性能,进而对研究问题由更加深入的洞察,并且将结果应用于实践,提高我们的用电效率,降低成本。
 

参考:

【1】数据集来自国家公开的数据库kaggle


以上文章来源于SPSSPRO,作者SPSSPRO  

北京天演融智软件有限公司(科学软件网)是SPSSPRO在中国的授权经销商,为中国的软件用户提供优质的软件销售和培训服务。

","gnid":"9fc862d12de050abb","img_data":[{"flag":2,"img":[{"desc":"","height":"383","title":"","url":"https://p0.ssl.img.360kuai.com/t01b2c2b515e587db29.png","width":"900"},{"desc":"","height":"137","title":"","url":"https://p0.ssl.img.360kuai.com/t0196541997e804a1f8.jpg","width":"480"},{"desc":"","height":384,"title":"","url":"https://p0.ssl.img.360kuai.com/t01e9231a69150f71f9.jpg","width":1080},{"desc":"","height":399,"title":"","url":"https://p0.ssl.img.360kuai.com/t0150e529e727f51fb8.jpg","width":585},{"desc":"","height":"1418","title":"","url":"https://p0.ssl.img.360kuai.com/t0153e3a8da115a3270.png","width":"1080"},{"desc":"","height":"1139","title":"","url":"https://p0.ssl.img.360kuai.com/t017b4a1ca10195643c.png","width":"1080"},{"desc":"","height":"485","title":"","url":"https://p0.ssl.img.360kuai.com/t01a78e63ec73626d35.png","width":"1080"},{"desc":"","height":"1060","title":"","url":"https://p0.ssl.img.360kuai.com/t01722ff55ec4de949b.png","width":"1080"},{"desc":"","height":"986","title":"","url":"https://p0.ssl.img.360kuai.com/t0123966bcfa2cfe667.png","width":"1006"},{"desc":"","height":"271","title":"","url":"https://p0.ssl.img.360kuai.com/t0125d898f8d25c966e.png","width":"1080"}]}],"original":0,"pat":"art_src_0,fts0,sts0","powerby":"pika","pub_time":1712652558000,"pure":"","rawurl":"http://zm.news.so.com/3c3b521375a0997659bb1e681ccba640","redirect":0,"rptid":"872f51a5c237f9fa","rss_ext":[],"s":"t","src":"天演融智","tag":[],"title":"基于SPSSPRO的消费侧电力需求预测

从狠保1270如何用spss对数据进行标准化处理 -
能炊曹17147678994 ______ SPSS统计分析软件是我最早接触的数据分析工具,我的博客将陆续介绍SPSS统计分析软件的相关内容,这类文章将统一按照在标题或者正文第一段出现 SPSS案例分析 + 编号 的形式组织,便于读者朋友们快速查询、收集,今天是第一篇,即 ...

从狠保1270如何利用SPSS做因子分析等分析 -
能炊曹17147678994 ______ 原发布者:szfutong 我就以我的数据为例来做示范,仅供参考一、信度分析(即可靠度分析)1.分析——度量——可靠度分析图12.然后就会弹出上图1的框框.在这里,你可以对所有的问题进行可靠度分析,如果是这样,那你只需要选中所有的...

从狠保1270请教如何学习掌握SPSS,有谁能提供心得体会以及技巧等? -
能炊曹17147678994 ______ 你怎么说没有数据呢,安装SPSS软件的时候会自带数据,你在打开文件的地方就可以找到.我建议你学的时候,一边看书,一边操作SPSS,你学统计学的,应该统计的基...

从狠保1270【spss 自带数据库的上机题或试卷】? -
能炊曹17147678994 ______ 楼上的,实在不好意思,我要的是软件自带的数据库相关的题目,比如:employee data.sav ,是要建立在这个数据上的题目,数据必须是来源于软件自带的数据库,你给我的自己录入的数据,非常抱歉!:)

从狠保1270spss数据分析 -
能炊曹17147678994 ______ 录入完数据后,你可以先进行基础的数据统计--描述性统计.然后根据你的数据结果再看是否需要相关回归或者其他分析.spss里面的描述统计主要在analyze——descriptive里面,其中有描述统计、频数统计、交叉分析. 描述性统计分析是统计...

从狠保1270在spss中,数据菜单中的weight cases什么意思 -
能炊曹17147678994 ______ _问题描述:如题,谢谢!!同时请问:有没有spss的汉化软件,急等!!!再次感谢!!!答案1:: 中文翻译为:重量案件 Weight Cases是用来加权频数数据的在SPSS的做法: 1.加权数据 Data菜单-;Weight Cases..-;选Weight cases by-...

从狠保1270如何将spss部分数据单独导出来 -
能炊曹17147678994 ______ 讲具体一点,是部分case还是部分变量? 如果是部分CASE的话,先复制一个备份,然后,用SELECT命令,把不需要的CASE删除即可

从狠保1270如何使用spss新建数据文件 -
能炊曹17147678994 ______ 安装使用:作为一款专业的数据统计分析软件,笔者建议各位买正版的安装盘使用,以获得最全面的软件功能.当然你可以从网上下载相应的版本,然后购买激活码.这里我们使用IBM SPSS Statistics 19中文版作为演示版本 安装好之后,打开...

从狠保1270如何用spss做主成分分析例子变量单位也不一样 -
能炊曹17147678994 ______ 打开SPSS软件,导入数据后,依次点击分析,降维,因子分析. 打开因子分析界面之后,把需要进行分析的变量全部选进变量对话框,然后 点击右上角的描述. 勾选原始分析结果、KMO检验对话框,然后点击继续. 点击抽取,再点击碎石图. 点击旋转,再点击最大方差旋转. 点击得分,再点击,保存为变量及显示因子得分系数矩阵. 最后点确定就可以在输出截面看到主成分因子分析的结果了.

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024