新書推薦:
《
刻意练习不生气
》
售價:HK$
39.2
《
大宋理财:青苗法与王安石的金融帝国(全彩插图本)
》
售價:HK$
109.8
《
安全感是内心长出的盔甲
》
售價:HK$
67.0
《
快人一步:系统性能提高之道
》
售價:HK$
110.9
《
算法图解(第2版)
》
售價:HK$
78.2
《
科学的奇幻之旅
》
售價:HK$
77.3
《
画艺循谱:晚明的画谱与消闲
》
售價:HK$
143.4
《
新民说·现实政治史:从马基雅维利到基辛格
》
售價:HK$
99.7
|
內容簡介: |
《异方差模型的统计推断》系统地介绍了双重广义线性模型等异方差回归模型的理论、方法和应用。内容主要包括:高维数据下双重广义线性模型的变量选择研究,纵向数据下均值-协方差模型的变量选择和贝叶斯分析,半参数异方差模型的变量选择和贝叶斯分析,偏正态异方差模型的异方差检验和贝叶斯分析,半参数混合效应双重回归模型的贝叶斯分析,以及双重Logistic回归模型在妊娠期高血压疾病危险因素分析中的具体应用。
|
目錄:
|
目录
第1章 绪论 1
1.1 模型 2
1.1.1 线性回归模型 2
1.1.2 双重广义线性回归模型 3
1.1.3 均值-协方差模型 6
1.1.4 半参数回归模型 8
1.1.5 半参数均值-方差模型 10
1.2 变量选择方法 11
1.2.1 子集选择法 11
1.2.2 系数压缩法 13
第2章 高维数据下双重广义线性模型的变量选择 17
2.1 引言 17
2.2 变量选择过程 19
2.2.1 基于惩罚伪似然的变量选择 19
2.2.2 渐近性质 20
2.2.3 迭代计算 21
2.3 模拟研究 24
2.4 定理的证明 28
2.5 小结 34
第3章 纵向数据下均值-协方差模型 35
3.1 变量选择 35
3.1.1 引言 35
3.1.2 均值-协方差模型的变量选择 36
3.1.3 渐近性质 38
3.1.4 迭代计算 39
3.1.5 模拟研究 41
3.1.6 定理的证明 45
3.1.7 小结 48
3.2 贝叶斯分析 48
3.2.1 引言 48
3.2.2 均值-协方差模型 49
3.2.3 JMVMs的贝叶斯分析 51
3.2.4 模拟研究 53
3.2.5 实际数据分析 55
3.2.6 小结 58
第4章 半参数异方差模型 59
4.1 变量选择过程 59
4.1.1 引言 59
4.1.2 半参数异方差模型的变量选择 60
4.1.3 渐近性质 62
4.1.4 迭代计算 63
4.1.5 模拟研究 65
4.1.6 实际数据分析 70
4.1.7 定理的证明 72
4.1.8 小结 78
4.2 贝叶斯分析 78
4.2.1 引言 78
4.2.2 半参数均值-方差模型的贝叶斯分析 80
4.2.3 模拟研究 83
4.2.4 实际数据分析 87
4.2.5 小结 89
第5章 偏正态异方差模型 90
5.1 异方差检验 90
5.1.1 引言 90
5.1.2 模型和估计 91
5.1.3 方差齐性的 score 检验 95
5.1.4 模型研究 97
5.1.5 定理的证明 105
5.1.6 小结 109
5.2 贝叶斯分析 109
5.2.1 引言 109
5.2.2 偏正态分布下联合位置尺度非线性模型 110
5.2.3 参数的先验信息 111
5.2.4 Gibbs 抽样和条件分布 111
5.2.5 贝叶斯推断 113
5.2.6 模拟研究 113
5.2.7 实际数据分析 117
5.2.8 小结 118
第6章 半参数混合效应双重回归模型 119
6.1 引言 119
6.2 半参数混合效应双重回归模型 120
6.3 半参数混合效应双重回归模型的贝叶斯分析 121
6.3.1 非参数函数的 B 样条逼近 121
6.3.2 参数的先验分布 122
6.3.3 Gibbs抽样和条件分布 122
6.3.4 贝叶斯推断 124
6.4 模拟研究 125
6.5 实际数据分析 135
6.6 小结 137
第7章 双重Logistic回归模型 138
7.1 引言 138
7.2 模型及变量选择方法 139
7.2.1 双重Logistic回归模型 139
7.2.2 算法 140
7.3 数据分析 141
7.4 小结 145
参考文献 147
索引 158在线试读第1章 绪 论
在经典的回归模型中,观测值的方差齐性是一个基本的假定,在此假定下,方 可进行常规的统计推断.然而在大多数社会经济现象中,存在大量的异方差(即方 差非齐,又称为异方差)数据,所以这种假定不一定成立.处理异方差的常见方法 有两类:**类,数据变换法,如方差稳定化变换和经典的Box-Cox变换(韦博成 等,2009,经过变换后转化为同方差处理;第二类,方差建模法Park, 1966; Harvey, 1976; Aitkin,1987; Verbyla, 1993; Engel and Huele, 1996; Taylor and Verbyla, 2004; 王大荣,2009,不仅对均值而且也对方差建立统计模型,称为异方差回归模型,我 们也称之为均值-方差模型.事实上,随着人们对现实世界越来越深入的认识,很 多现实生活的事件、现象、过程等也表现得越来越复杂,这也将导致我们研究的实 际数据变得错综复杂.如果只是用简单的统计模型来描述和研究,很多分析已经不 能得到真实的实际结果.因此我们很有必要针对这些复杂现象,釆用比较复杂的模 型来描述,均值-方差模型就是其中一种.它主要的特点就是体现在对方差的重视, 能更好地解释数据变化的原因和规律,这也是数据分析中一个重要的发展趋势.另 外,在许多统计推断中,均值永远是主题,是主要感兴趣的部分.但是,一方面为了 提高均值推断的效率,需要数据或者模型的方差的正确估计Carroll, 1986; Carroll and Rupert, 1988;另一方面,方差部分也是主要感兴趣的,如在经济、金融、生物 领域中,方差是描述随机波动和风险的度量,这些量是这些领域主要感兴趣的.因 此,方差建模与均值建模具有同等重要的地位.相比均值建模,方差建模研究方兴未艾.
另外,变量选择是统计分析与推断中的重要内容,也是当今研究的热点课题王 大荣和张忠占,2010; Fan and Lv, 2010.变量选择作为模型选择的一种手段,基于 这样的考虑:首先,建立统计模型的目的往往不只是通过模型对数据进行总结,还 要通过分析认识客观规律,并在今后的实践中利用这些规律.一旦选入本来与响应 无关的协变量,不仅干扰了对于变量间关系的理解,而且对有些实际问题,某些自 变量的观测数据的获得代价昂贵,这样不但浪费人力物力,还可能造成损失.其次, 研究表明,在回归模型建模过程中,如果把一些对响应变量影响不大,甚至没有影 响的协变量选入回归模型中来,不但计算量大,估计和预测的精度也会下降.当然, 漏选变量所造成的问题也不言而喻.因此,简而言之,变量选择就是一种从大量协 变量中挑选出所有相关或有重要影响的协变量,从而建立一个简洁模型的技术.它 的主要目的是改善预测变量的预测效果,给出更有效的估计值,对产生数据的潜在模型提供更好的理解,这样我们就很有必要对模型的自变量选择做一些深入的理 论分析.随着科学技术和计算机的迅速发展,统计问题的规模和复杂性都有了急剧 的增加.在许多实际问题中收集了海量的复杂数据,为准确、及时地分析来自各个 领域的复杂现象,发展了大量有效的复杂模型.这也使得对复杂数据下复杂模型进 行变量选择等统计推断成为现代统计研究的前沿问题之一.但是针对变量选择,目 前,大多数文献集中于对均值回归模型的变量选择Fan and Li, 2001, 2012, 2004, 2006; Li and Liang, 2008; Garcia et al., 2010; Zhao and Xue, 2009a; Wang et al., 2008; Johnson, 2008; Johnson et al., 2008; Fan et al., 2012,对均值-方差模型的变 量选择的研究还不多见.特别地,均值-方差模型同时变量选择对了解复杂的社会经 济现象和改进工业产品的质量试验具有十分重要的理论意义和实用价值.因此,本 书主要针对高维数据、纵向数据和偏态数据等复杂数据较系统地研究双重广义线 性模型以及半参数均值-方差模型等复杂异方差模型的变量选择、异方差检验、贝 叶斯分析等统计推断问题,这也为揭示各种学科中复杂异方差数据的规律性提供一些新的统计方法.
1.1 模 型
变量选择、方差齐性检验和贝叶斯分析等都是基于模型的方法,因此,首先很 有必要对模型的演变以及我们要研究的模型进行简单的介绍.
1.1.1 线性回归模型
线性回归模型,又称为线性模型,是现代统计学中发展较早、理论*丰富而且 应用*广泛的一个重要分支.过去几十年中,线性模型不仅在理论研究方面甚为活 跃,获得了长足的发展,而且在工农业、气象地质、经济管理、医药卫生、教育心理 等领域的应用也日渐广泛(Searle, 1971; Christensen, 1987; Wang and Chow, 1994; Rao and Toutenburg, 1995;王松桂等,2004; Chatterjee and Hadi, 2006.
正态线性模型的一般形式如下
其中Si~N0,a2, Yi是响应变量,为p维解释变量向量,T为p维未知回归参数.由于正态线性回归模型1-1的回归函 数部分中仅回归参数P是未知的,因此若得到的估计,则自然也得到了回归函数 的估计,从而可以进行统计预测等其他统计推断研究.在正态线性回归模型下,估计 P的常用方法是极大似然估计,在观测样本下的极大似然估计可以表达为
不难发现,线性回归模型的回归函数形式较为简单,估计方便,且由于该模型 仅依赖于有限个回归参数,因此当实际问题与假设模型较为接近时,其统计推断往 往具有较高的精度.然而,随着人们对现实世界越来越深入的认识,很多现实生活 的事件、现象、过程等也表现得越来越复杂,这也将导致我们研究的实际数据变得 错综复杂.因此,为了能准确及时地分析来自各个领域的复杂数据,一方面发展了 大量有效的复杂模型,比如,非参数回归模型、半参数回归模型、变系数回归模型 和部分线性变系数回归模型等.但这些模型本质上都是对响应变量的均值或者条 件均值建模,其中方差看作讨厌参数.另一方面,正态线性回归模型观测值的方差 齐性是一个基本的假定,在此假定下,方可进行常规的统计推断.然而在大多数社 会经济现象中,存在大量的异方差数据,所以观测值的方差齐性这种假定有时并不 切合实际.而在许多应用领域,特别在经济领域和工业产品的质量改进试验中,非 常有必要对方差建模,以便更好地了解方差的来源,达到有效控制方差的目的.另 外,方差建模本身具有科学意义,而且对有效估计和正确推断均值参数起到非常关 键的作用,所以方差建模与均值建模具有同等重要的地位.近些年来,同时对均值 和方差建模引起了许多统计学者的研究兴趣.下面介绍本书研究的主要模型.
1.1.2 双重广义线性回归模型
线性回归模型的一个极其重要的发展与推广领域就是Nelder和Wedderburn 1972在其论文中首次提出的广义线性模型Generalized Linear Model, GLM.广 义线性模型刚一提出便受到统计学界很大的重视,自1970年以来发表的相关论文 数以千计(Fahrmeir and Kaufmann, 1985; McCullagh and Nelder, 1989; Stefanski and Carroll, 1990; Wang et al., 1998; Stute and Zhu, 2002. 1983 年 McCullagh 和 Nelder出版了有关广义线性模型的同名著作,并在1989年出了第二版(McCullagh and Nelder, 1989.
广义线性回归模型的提出源于线性回归在应用上有两个重要的缺点和局限 Pregibon, 1984; 一是适用于因变量取连续值的情况,它特别不适用于分类 数据;二是Y的期望与自变量X是用线性关系相联系的,选择面太窄,往往与 实际情况不符.另外,线性回归推断基本上只适用于误差正态的情形,在某些r取 连续值的场合,比如,Y的分布是偏态的(如指数分布、Gamma分布时,线性回 归模型不是一个合适的工具.因此广义线性模型主要体现在两个方面的改进,随 机部分和系统部分.对于随机部分,将随机误差由服从正态分布这一个条件放宽为单参数指数族分布,该分布族包括了正态分布、二项(Binomial分布、Gamma分 布、Poisson分布、对数正态分布等许多常见分布.从而可适用于连续数据和离散数 据(McCullagh and Nelder, 1989; Lee et al.,2006,特别是后者数据类型的拓展,如 属性数据等.假定K服从单参数指数族分布,则该分布族的密度函数为
1-2
1-3
1.1 模 型
再生散度模型的提出,不仅扩大了广义线性模型的误差分布,同时使得广义线性模 型的思想对于任意的预测子化和相依数据也适用.
然而在现实生活中我们所面对的数据是复杂多变的.在很多情况下,考虑的数 据服从“指数族分布”或者“再生散度模型”这个假定也不一定切合实际.比如,当 “超散度” Overdispersion出现时,服从指数族分布的假定不再成立;还有一些情 况,一开始就没有充分的理由取指数族分布或者再生散度模型作为模型.这就说明, 在实际问题中,要事先知道数据服从的分布是不容易的,因此我们就很有必要发展 出相应的统计推断方法去处理数据或者模型的分布并未确定的情形.然而为了克 服这一局限性,早在1974年,Wedderburn 1974就提出了拟似然的概念,它的使 用只需要对分布的前两阶矩做适当的假定.他定义满足下式的函数为拟 似然(Quasi Likelihood, QL:
拟似然法的提出扩大了广义线性模型和再生散度模型的使用范围.大家都明 白,无论是在单参数指数族分布中还是拟似然函数中,散度参数小都被假设成了 一个常数.当小已知时,对单参数指数族分布,拟似然和对数似然函数是相同的. 当4未知时,这个结论通常是不成立的.在实际中,除了一些标准的分布,如正态 分布、二项分布、Gamma分布或者Poisson分布,很少是已知的.即便如此,对 于给定的数据,分=1的假设是否成立也有待检验.然而,经典的拟似然方法却没有 给出有关小的估计.Nelder和Pregibon1987提出了扩展拟似然Extended Quasi Likelihood, EQL的定义与方法(参见本书第7章,在一定条件下,解决了关于小 的估计问题.扩展拟似然函数为本书第7章考虑双重Logistic回归模型在妊娠期 高血压疾病危险因素分析中的具体应用提供了方法,但是在一般的扩展拟似然估计 中可能不是相合的(Davidian and Carroll,1988.另夕卜,一种选择是伪似然Pseudo Likelihood, PL,具体可以参见文献(Engel and Huele, 1996.不管是伪似然还是 拟似然都不是真正的似然方法.伪似然是基于矩的方法,因此估计方程是无偏的, 这样在一般的条件下甚至不需要正态性假设就能获得估计的相合性和渐近正态性. 因此这也为本书第2章在高维数据下研究双重广义线性模型的变量选择问题提供 了理论基础.
1.1.3 纵向数据下均值-协方差模型
纵向数据是指对同一组受试个体在不同时间点上重复观测的数据.此类数据 常常出现在生物、医学、社会科学以及金融等领域.尽管对不同个体所观测的数据 是独立的,但是对同一个个体所观测的数据往往具有相关性.由于此类数据具有组 间独立、组内相关,并且具有多元数据以及时间序列数据的特点,因此对纵向数据 的处理方法往往比关于普通的截面数据的处理方法复杂.
从纵向数据的定义中可以看到,个体内部不同
|
|