新書推薦:
《
唐宋绘画史 全彩插图版
》
售價:HK$
101.2
《
“御容”与真相:近代中国视觉文化转型(1840-1920)
》
售價:HK$
113.9
《
海洋、岛屿和革命:当南方遭遇帝国(文明的另一种声音)
》
售價:HK$
109.3
《
铝合金先进成型技术
》
售價:HK$
273.7
《
英雄之旅:把人生活成一个好故事
》
售價:HK$
89.7
《
分析性一体的涌现:进入精神分析的核心
》
售價:HK$
125.4
《
火枪与账簿:早期经济全球化时代的中国与东亚世界
》
售價:HK$
79.4
《
《全面与进步跨太平洋伙伴关系协定》国有企业条款研究
》
售價:HK$
101.2
|
內容簡介: |
《应用多元统计分析河北省省级精品课教材》是在河北省精品课“多元统计分析”课程建设的基础上,贴近省属院校实际,以学生的应用分析技能为主要培养目标,以方法、案例引导,对学生开展方法学习、案例分析、数据处理、结果讨论、文献阅读和论文撰写全方位的应用分析技能训练,是一本主要面向省属院校统计学各专业和其他相关专业的高年级本科生或研究生的应用型教材。
|
目錄:
|
第1章多元统计分析的理论基础
1.1多元分布
1.1.1随机向量
1.1.2多元分布函数与密度函数
1.1.3随机向量的数字特征
1.2多元正态分布
1.2.1多元正态分布的定义和性质
1.2.2多元正态分布均值向量和协方差阵的估计
1.3多元正态分布均值向量和协方差阵的检验
1.3.1单总体均值向量的检验
1.3.2多总体均值向量的检验
1.3.3协方差阵的检验
1.3.4多元正态分布均值向量和协方差阵检验的上机实现
习题
第2章多元数据图
2.1矩阵散点图
2.2多维箱线图
2.3雷达图
2.4星形图
2.5脸谱图
习题
第3章数据预处理
3.1数据集成与数据审核
3.1.1数据集成
3.1.2数据审核
3.2数据清理
3.2.1缺失值数据
3.2.2异常值数据
3.3数据转换
3.3.1数据标准化
3.3.2数据的代数运算
3.3.3数据的离散化
习题
第4章因子分析
4.1因子分析的基本理论
4.1.1主成分分析的基本思想与模型
4.1.2因子分析的基本思想与模型
4.1.3因子分析的主要步骤
4.1.4因子分析与主成分分析的区别与联系
4.2因子分析的上机实现
4.2.1因子分析的适用性检验
4.2.2主因子个数的确定
4.2.3因子旋转
4.2.4因子得分
4.3因子分析的案例分析
4.3.1我国各地区社会发展状况的因子分析
4.3.2我国制造业产业竞争力的因子分析
习题
第5章聚类分析
5.1聚类分析的基本理论
5.1.1聚类分析的概念和基本思想
5.1.2点与点之间的相似性度量方法
5.1.3类与类的相似性度量方法
5.1.4聚类的方法
5.2聚类分析的上机实现
5.2.1系统聚类方法
5.2.2K均值聚类
……
第6章判别分析
第7章对应分析
第8章典型相关分析
第9章回归分析
第10章logistic回归
参考文献
|
內容試閱:
|
当数据集中的缺失数据仅占全部数据很小比例或者某个数据在多个变量上都有缺失时,直接删除的方法简便易行。比如上市公司财务经营的研究数据里当大部分公司的数据都完全而仅有一两家公司在某3个或3个以上的指标存在缺失时,就可以考虑删除掉这几家公司的观测值。但是直接删除的方法会使原始数据减少,尤其是当获取数据的成本很大时会造成资源浪费,而且若原始数据量本身就很少时,直接删除个案的方法将会使分析结果出现严重偏差进而得到错误的结论。
2)人工填补
人工填补法是利用某个固定的值对一个变量或多个变量下的缺失值进行插补。这种方法依赖于统计人员对问题的先验认识,当数据中某个变量的缺失数据较少时该方法是可行的,与直接删除法相比它可以避免数据资源的浪费,但当缺失数据较多时也会造成分析结果出现偏差。
3)利用均值插补
均值插补法是指用研究变量无缺失数据的全体样本均值作为缺失数据的填补值,这种插补法又分为总体均值插补和分类别总体均值插补。总体均值插补就是指当数据中无论存在或不存在类别数据时都用所有数据的均值对缺失数据插补,而分类别总体均值插补指当数据中存在分类别数据时用各类别的均值插补各类别中的缺失值,比如某车间生产零件时测量零件的直径,车间内共有5台设备,当第一台设备生产的零件的直径在测量时出现确缺失数据时,更适合用第一台设备生产的所有零件的直径的均值插补缺失值。利用均值插补还可以根据变量特征在加权算术平均数、中位数、众数中选用合适的平均数,其目的是尽量使替代值更接近缺失值,减少误差,均值差补法有利于增加替代值的稳定性,从而减小估计量方差。
均值插补的方法简便易行,节省成本,且当数据中的缺失数据不少时,其效果要好于人工填补的方法。但均值插补法也存在不足,当数据的某变量存在较多的缺失值时,如果都是用均值进行插补,会导致大量数据在均值点上形成尖峰,造成数据分布的扭曲。
4)加权调整
加权调整方法的基本思想是,利用调整因子来调整包含缺失数据所进行的总体推断,如将调查设计中赋予缺失数据的权数分摊到已获取数据身上,加权的方法主要有均值的加权类估计、倾向性加权以及利用加权的广义估计方程进行加权等。该方法的前提是缺失数据在可忽略机制下产生,即已获得数据与缺失数据之间没有显著差异,主要用于单位数据缺失情况下的调整。
5)用最可能的值插补
用最可能的值插补指的是借助相关的统计模型找出或计算出最可能的值对缺失数据进行插补。常用的几种方法有成数推导值法、回归法、近似值法和多重插补法,这些方法较以上4种方法相比要更复杂,但其得到的插补值包含了现存数据的大量信息,因此更准确。
成数推导值法是指利用某变量下数据的加权值对缺失数据进行插补。这种方法适合同一属性的记录值只有少量几种的情况,这时就可以计算各观测值在该属性中所占的比例,并对该属性中的缺失值同比例随机赋值,但该方法较适合缺失属性为是非标志的情况,比如某调查中只有城镇居民与农村居民,且其比例为1:2,则可按此比例对该属性进行插补。
回归法的基本思想是通过建立y关于控制变量(Xl,X2,…,X。)的回归方程来填补y的缺失值。当控制变量是定性变量时,可以采用虚拟变量的处理方法。回归法通过模型得到的估计量往往更接近真值,但其过程较复杂且当变量不是线性相关或预测变量高度相关时会导致有偏差的估计,因此该方法更适合存在高相关性辅助变量时对缺失值进行插补。
近似值方法又常被称为热平台(Hot-dec)法或就近补齐法。该方法的思想是利用已有完整数据中与缺失数据最“相似”的数据作为插补值,这种方法被美国普查局广泛使用,这种方法的优点是简单易懂且成本很低,且又能保持原始数据类型,但这种“相似”却很难界定。
多重插补是由Rubin在1978年首先提出的,主要思想是指由包含m个插补值的向量代替每一个缺失值的过程,要求m≥2。m个完整数据集合能从插补向量中创建;由该向量的第一个元素代替每一个缺失值从而创建了第一个完整的数据集合,由它的向量中的第二个元素代替每一个缺失值从而创建了第二个完整数据的集合,以此类推,再利用这m个插补值估计缺失值。常用的多重插补法有随机回归填补法、趋势得分法和马尔科夫链的蒙特卡洛模拟法。多重填补的缺点是需要做大量的工作来创建插补集并进行结果分析。
……
|
|