您的当前位置:首页正文

数据分析课程设计

2021-04-14 来源:我们爱旅游
h

目录

摘要 ................................................... Ⅰ 1.引言 .................................................. 1 2.因子分析法的基本思想和数学模型 ......................... 1

2.1因子分析的基本思想 ........................................... 1 2.2因子分析的数学模型 ........................................... 1

3.指标建立 .............................................. 2

3.1人均生产总值 ................................................. 2 3.2社会消费品零售总额 ........................................... 2 3.3财政收入 ..................................................... 2 3.4城镇居民可支配收入 ........................................... 2 3.5农民人均纯收入 ............................................... 3 3.6职工平均工资 ................................................. 3

4.案例分析 .............................................. 3

4.1数据收集 ..................................................... 3 4.1数据处理 ..................................................... 4

5.总结 .................................................. 8 6.附录 .................................................. 9

6.1平均数、标准差、偏度、峰度等统计量 ........................... 9 6.2直方图 ...................................................... 10

h

h

7.个人学习小结 ......................................... 11 8.参考文献 ............................................. 12

h

h

摘要

本文主要说明主因子分析在浙江省各城市综合经济实力评价方面的应用,并运用功能强大的数据分析软件SPSS,简化计算方法,通过输入各项数据,追后得出评价图表,来分析浙江省各市经济建设方面哪些因子更重要。

本文引用浙江省32个市县的6项指标,人均生产总值,人均社会消费品零售总额,人均财政收入,城镇居民人均可支配收入,农村居民人均纯收入,在岗职工工资。通关SPSS来分析这些指标的数据,来评价各市的总和实力。

关键词:SPSS,因子分析法,综合经济实力,浙江省

h

h

1.引言

随着改革的开放,中国各省经济都在飞速的增长,浙江省的社会经济发展也取得了巨大的成就。2012年,浙江深入贯彻落实科学发展观,面对严峻复杂的外部环境和困难挑战,全省经济在加快转型升级中实现平稳增长。本文利用SPSS,对2012年浙江省32个市县主要经济指标数据进行主成分分析。

2.因子分析法的基本思想和数学模型

2.1因子分析的基本思想

用少数几个抽象的因子,去描述多个指标或者(因素)之间的联系。将相互直接关系比较密切的变量归为同一个类别之中没一类变量就变成一个因子。因子分析是一直降维、简化数据的技术。

作为一种比较好的研究技术,因子分析有一下特点:

(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。

(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。

(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。

(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。

当然因子分析也会有一些不便的地方,它只能做综合性的评价,同时对数据的数据

h

h

量和成分也有一定要求。而且需要先进行KOM检测数据是否适合作因子分析法。 2.2因子分析的数学模型

假设对n例样品观测了p个指标,即X1,X2,…,

Xp,得到观测数据。我们的任

务就是从一组观测数据出发,通过分析各指标X1,X2,…,

Xp之间的相关性,找出支

配作用的潜在因子,使得这些因子可以解释各个指标之间的相关性。

则因子分析的数学模型如下:

X1a11F1a12F2a1mFme1 X2a21F1a22F2a2mFme2

Xpap1F1ap2F2apmFmep

h

h

矩阵形式表示为:

XAFe

F:因子变量; A:因子载荷阵;

apm:因子载荷;

e:特殊因子。

3.指标建立

3.1人均生产总值

人均生产总值,也称作“人均GDP”,常作为 发展经济学中衡量经济发展状况的指标,是重要的宏观经济指标之一,它是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具。计算方法为:人均国内生产总值= 总产出(即 GDP 总额,社会产品和服务的产出总额)/ 总人口。 3.2社会消费品零售总额

批发和零售业、住宿和餐饮业以及其他行业直接售给城乡居民和社会集团的社会消费品零售总额消费品零售额。它可以反映一定时期内人民物质文化生活水平的提高情况,反映社会商品购买力的实现程度,以及零售市场的规模状况。

社会消费品零售总额由社会商品供给和有支付能力的商品需求的规模所决定,是研究居民生活水平、社会零售商品购买力、社会生产、货币流通和物价的发展变化趋势的重要资料。 3.3财政收入

财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务

h

h

需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 3.4城镇居民可支配收入

居民可支配收入是指居民能够自由支配的收入。就是从居民家庭总收入中扣除了缴纳给国家的各项税费,扣除了缴纳的各项社会保险,比如医疗保险、养老保险、失业保险等余下的收入。可支配收入是指这一个家庭所有人员、所有人通过各个渠道得到的,比如丈夫、妻子、孩子他们通过各个渠道得到扣掉规定的税费和缴纳的社会保障以后得到的的所有收入。

h

h

3.5农民人均纯收入

农民人均纯收入,指农村住户当年从各个来源得到的总收入相应地扣除所发生的费用后的收入总和。纯收入主要用于再生产投入和当年生活消费支出,也可用于储蓄和各种非义务性支出。“农民人均纯收入”按人口平均的纯收入水平,反映的是一个地区或一个农户农村居民的平均收入水平。反映的是一个国家或地区农村居民收入的平均水平。 3.6职工平均工资

职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。

4.案例分析

4.1数据收集

通过浙江统计信息网查找2012年统计年鉴就可以查阅到2012年浙江省各市的国民生活经济主要指标。并通过网络上的浙江日报等报刊收集相关数据。

收集到的数据整理成表1:

表格各列依次为年末总人口 (万人)

,人均生产总值(元),人均社会消

费品零售总额(元),人均财政收入(元),城镇居民人均可支配收入(元),农村居民人均纯收入 (元),在岗职工工资 (元)。

表1

杭州市 111758 4203.49 2323.83 35704 17017 42493 宁波市 114065 4031.88 2659.66 38043 18475 56257 嘉兴市 84080 湖州市 63714 3145.65 1369.79 35696 18636 40669 2692.90 944.53 32987 17188 41926 h

h

绍兴市 82966 舟山市 87883 温州市 45906 金华市 57694 2628.36 1064.61 36911 17706 40087 2989.71 1373.22 34224 18601 40087 2410.98 647.19 2678.13 799.93 34820 14719 48212 33164 13286 47196 义乌市 107420 5293.24 1346.87 44509 19147 34588 h

h

衢州市 38476 台州市 49438 丽水市 34132 1567.69 2207.12 1413.19 420.80 692.02 429.03 26232 10714 31530 33979 14567 41575 26309 8855 30582 富阳市 82738 临安市 72431 余姚市 84970 慈溪市 91985 瑞安市 46088 乐清市 47351 平湖市 86582 海宁市 87457 桐乡市 77665 诸暨市 76616 上虞市 74227 东阳市 45246 永康市 67780 江山市 35906 温岭市 56860 临海市 33009 玉环县 87395 1856.10 1196.19 32739 17397 40086 1952.28 839.73 30903 15764 40078 3656.80 1352.31 37217 17977 43309 3762.17 1401.67 37711 20383 43634 1943.91 592.11 1657.44 720.98 38988 15987 48909 37920 17454 39630 2486.60 1511.35 37509 18547 36065 3645.10 1223.84 37634 19364 38754 317.81 1117.66 36591 18386 35156 39950 19107 39625 37981 17686 40173 30395 15008 34588 32380 14566 32238 25499 12131 29484 34444 16639 39324 31597 13915 42199 2153.89 862.60 2316.51 936.80 2104.59 608.33 2194.48 948.06 1249.79 305.36 2708.79 598.67 1252.27 447.09 绍兴县 139686 2302.67 1756.88 40805 21813 40412 2493.07 1297.53 40665 18257 35064 h

h

青田县 29897 987.73 360.57 27579 9153 53285 缙云县 34088 966.01 317.06 27113 9077 30466 4.1数据处理

把表1数据导入SPSS中, 在分析菜单的降维中选择因子分析; 软件输出以下内容:

(1)该表格给出的是6个原始变量的相关矩阵

表2

相关矩阵

人均生

城镇居民 农村居民 在岗职人均可支 人均纯收

人均社会消费品零售

总额(元)

.669 人均财政收入 .902 配收入(元) .724 入 (元) .826 工 工资 (元) .167

产 总值(元)

相人均生产 1.000 关 总值(元)

人均社会消费品零售总额(元) 人均财政收入 城镇居民 人均可支 配收入(元) 农村居民 人均纯收入 (元) 在岗职工 工资 (元)

.167 .267 .336 .277 .191 1.000 .826 .570 .693 .862 1.000 .191 .902 .724 .685 .598 1.000 .601 .601 1.000 .693 .862 .336 .277 .669 1.000 .685 .598 .570 .267 (2)

表3

KMO 和 Bartlett 的检验

取样足够度的 Kaiser-Meyer-Olkin 度量。 Bartlett 的球形度检验

近似卡方 df Sig.

.742 150.973 15 .000 该部分给出了KMO检验和Bartlett球度检验结果。其中KMO值为0.742,

h

h

根据统计学家Kaiser给出的标准,KMO取值大于0.7,一般适合因子分析。 Bartlett球度检验给出的相伴概率为0.00,小于显著性水平0.05,因此拒绝Bartlett球度检验的零假设,认为适合因子分析。

(3)

表4

公因子方差

初始 提取

h

h

公因子方差

人均生产 总值(元)

人均社会消费品零售总额(元) 人均财政收入 城镇居民 人均可支 配收入(元) 农村居民 人均纯收入 (元) 在岗职工 工资 (元) 人均生产 总值(元)

人均社会消费品零售总额(元) 人均财政收入 城镇居民 人均可支 配收入(元) 农村居民 人均纯收入 (元) 在岗职工 工资 (元)

提取方法:主成份分析。

初始 1.000 提取 .902 1.000 1.000 1.000 .633 .796 .747 1.000 .835 1.000 .985 1.000 .902 1.000 .633 1.000 1.000 .796 .747 1.000 .835 1.000 .985 这是因子分析初始结果,该表格的第一列列出了6个原始变量名;第二列 是根据因子分析初始解计算出的变量共同度。利用主成分分析方法得到6个特征值,它们是因子分析的初始解,可利用这6个出世界和对应的特征向量计算出银子载荷矩阵。由于每个原始变量的所有方差都能被因子变量解释掉,因此每个变量的共同度为1。根据最终提取的m个特征值和对应的特征向量计算出因子载荷矩阵。这时由于因子变量个数少于原始变量的个数,因此每个变量的

h

h

共同度必然小于1。因此,本次因子提取的总体效果较理想。

(4)

表5

解释的总方差 成份 合计 1 2 3 4 5 6 3.965 .933 .544 .396 .109 .054 初始特征值 方差的 % 66.082 15.548 9.059 6.595 1.810 .907 累积 % 66.082 81.630 90.688 97.283 99.093 100.000 合计 3.965 .933 提取平方和载入 方差的 % 66.082 15.548 累积 % 66.082 81.630 合计 3.792 1.106 旋转平方和载入 方差的 % 63.197 18.433 累积 % 63.197 81.630 提取方法:主成份分析。

由上表可知,第一个公因子的方差贡献率为66.082%,第二个公因子的方差贡献率为15.548%,前三个因子累计贡献率达到81.63%。根据提取因子的条件——即其累积贡献率不低于80%时,所以提取了两个因子。即前两个公共因子已代表了原始数据的绝大部分信息。

(5)碎石图

h

h

图1

图表中,横坐标为因子数目,纵坐标为特征值。可以看到:第一个因子的特征值较高,对解释变量的贡献最大;第三个以后的因子特征值都较小,曲线趋于平稳,对解释原有变量的贡献很小,已经成为可被忽略的,因此提取两个因子适合的。

(6)

表6

旋转成份矩阵

a

人均生产 总值(元) 农村居民 人均纯收入 (元) 人均财政收入

成份 1 .949 2 .038 .914 .030 .856 .250 h

h

城镇居民 人均可支 配收入(元)

人均社会消费品零售总额(元)

.760 .233 .853 .140 h

h

旋转成份矩阵

a

人均生产 总值(元) 农村居民 人均纯收入 (元) 人均财政收入 城镇居民 人均可支 配收入(元)

人均社会消费品零售总额(元) 在岗职工 工资 (元)

提取方法 :主成份。

成份 1 .949 2 .038 .914 .030 .856 .853 .250 .140 .760 .233 .132 .983 旋转法 :具有 Kaiser 标准化的正交旋转法。 在岗职工 工资 (元)

提取方法 :主成份。

旋转法 :具有 Kaiser 标准化的正交旋转法。 a. 旋转在 3 次迭代后收敛。

.132 .983

假设人均生产总值x1,人均社会消费品零售总额x2,人均财政收入x3,城镇居民人均可支配收入x4,农村居民人均纯收入x5,在岗职工工资x6。

F1在人均生产总值,人均社会消费品零售总额,人均财政收入,城镇居民人均可支配收入,农村居民人均纯收入所占比重较大。同理可知F2在在岗职工工资的比重较大。

计算出因子得分F1,F2的结果,最后综合得分的F为:

FaF1bF2

a66.0822326178992,b15.547579252194886,a,b分别因子的方差贡献率。

所以算出最后的排名为下表7;

h

h 表7 综合排名 城市 F1得分 F2得分 F得分 排名 杭州市 宁波市 嘉兴市 湖州市 绍兴市 舟山市 温州市 金华市 义乌市 衢州市 台州市 丽水市 富阳市 临安市 余姚市 慈溪市 瑞安市 1.28773 1.31656 .63674 -.08577 .41858 .58861 -.68333 -.63226 1.84785 .52534 2.63300 .05754 .31989 -.09040 -.05896 1.41733 1.31587 -.88219 93.26 127.94 42.97 -.69 26.26 37.98 -23.12 -21.32 108.39 4 1 9 16 13 11 23 21 2 29 25 31 15 22 7 5 18 -1.33838 -1.05721 -104.88 -.56344 .36147 -31.61 -1.52916 -1.11557 -118.39 .10458 -.33810 .68671 1.00410 -.49471 -.10612 -.02811 .53043 .45715 1.40275 5.26 -22.78 53.63 73.46 -10.88 h

h

-.19921 .79070 .89972 .14021 .46730 .27655 1.70849 -.63032 -.14253 -.11614 -.71318 -.27823 -14.97 41.16 55.13 乐清市 平湖市 海宁市 桐乡市 诸暨市 上虞市 绍兴县 东阳市 永康市 江山市 温岭市 临海市 玉环县 青田县 缙云县 20 10 6 17 12 14 3 26 24 30 19 27 8 28 32 -1.05922 -7.20 -.27901 -.08482 -.43711 -.73635 26.54 16.96 106.11 -53.10 -1.14329 -27.19 -1.33688 -1.46964 -111.19 -.19523 -.09053 -14.31 -70.26 43.54 -102.89 -1.17010 .45457 .87292 -.90958 -2.11824 2.38557 -1.58966 -1.20523 -123.79 5.总结

浙江是中国东部沿海的一个经济大省,改革开放二十几年,社会经济发展取得

了巨大的成就。浙江省下辖11个城市,其中杭州、宁波(计划单列市)为副省级城市,也有一些经济发展较快的县级市,比如余姚市、慈溪市等,客观正确地评价浙江省各城市和县级市的综合经济实力,有利于认清各城市所处的地位和环境,优势和劣势,找出城市间经济发展的差异,进而为城市经济的发展指明方向,提供可靠的科学依据。

h

h

通过SPSS对浙江省各市的经济指标数据进行分析后,得出表2,这可以看出各市综合排名前三为宁波市、金华市、绍兴县,排在最后的为缙云县、丽水市。因子F1在人均生产总值,人均社会消费品零售总额,人均财政收入,城镇居民人均可支配收入,农村居民人均纯收入所占比重较大。因子F2则在在岗职工工资一项的比重大。

宁波市是一个港口城市,经济发展快,各项人均国民经济指标都与全国平均持平。 杭州市是浙江省的首府,在经济方面都起着代头作用,各项经济指标都比较高,杭州市人口较多,平均到每个人上时就数值就偏小了,综合得分就屈居第四。

在最后的得分排名中,一些县级市排名高于一般城市,由于一些县级市人口较少,从而导致各项人均指标高,所以在综合得分中数值大。最后得分高于一些市。

h

h

6.附录

6.1平均数、标准差、偏度、峰度等统计量

表8

统计量

城镇居民

农村居民 人均纯收入

(元)

32 0 16172.56 17292.50 8855 3330.660 -.876 .414 .149 .809 12958 517522 14566.25 17292.50 18529.00 a

在岗职工 工资 (元)

32 0 39927.53 40086.50 34588 6292.919 .567 .414 .588 .809 26773 1277681 35087.00 40086.50 42419.50 a

N

有效 缺失

均值 中值 众数 标准差 偏度 偏度的标准误 峰度 峰度的标准误 全距 和 百分位数

25 50 75

a. 存在多个众数。显示最小值

人均生产 总值(元)

32 0 69859.66 73329.00 29897 27406.139 .427 .414 -.198 .809 109789 2235509 45951.50 73329.00 87191.75 a

人均社会消费品零售总额(元)

32 0 2414.6986 2309.5869 317.81 1057.81480 .578 .414 .681 .809 4975.43 77270.35 1707.1040 2309.5869 2919.4797 a

人均可支

人均财政收入

32 0 1014.5711 940.6634 305.36 550.91907 1.148 .414 1.729 .809 2354.30 32466.28 601.0883 940.6634 1350.9485 a

配收入(元)

32 0 34631.19 35258.00 25499 4692.178 -.334 .414 -.308 .809 19010 1108198 31792.75 35258.00 37867.75 a

h

h

6.2直方图

图2

直方图以人均生产总值为例。

h

h

h

h

7.个人学习小结

通过这次期末论文,我更深刻的了解了因子分析法的步骤,也比较系统的学习了这个分析方法,清楚的认识到因子分析在综合评价个作用。还锻炼了我的写作能力和信息的搜集能力,论文体现的不仅仅是对知识的掌握,也是对语言的组织能力和表达能力的检验。在收集数据的过程中,我还阅读了一些浙江省的其它经济数据,从而使我更加了解各市的经济情况。

在对《数据分析方法》这门课程1年的学习中,我知道了数据作为信息的只要载体在当今社会中扮演着重要角色,如何从大量的数据中揭示一些隐藏的规律,还需要我们对这些复杂的数据进行分析。

h

h

h

h

8.参考文献

[1]梅长林,范金城. 数据分析方法. 北京:高等教育出版社[M],2006.2. [2]浙江省统计局. 浙江统计年鉴——2013. 北京:中国统计出版社,2013.8. [3]海明. 因子分析精确模型的基本思想与方法[J].统计与信息论坛,2006.9. [4]百度百科.

资料仅供参考!!!

h

因篇幅问题不能全部显示,请点此查看更多更全内容