登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』贝叶斯统计及其R实现

書城自編碼: 3007142
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 黄长全
國際書號(ISBN): 9787302467854
出版社: 清华大学出版社
出版日期: 2017-05-01
版次: 1 印次: 1
頁數/字數: 160/239000
書度/開本: 32开 釘裝: 平装

售價:HK$ 50.8

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
这才是金朝史
《 这才是金朝史 》

售價:HK$ 70.2
梦中银币
《 梦中银币 》

售價:HK$ 58.1
以色列教育:多元文化社会中的教育创业
《 以色列教育:多元文化社会中的教育创业 》

售價:HK$ 99.2
手工银饰技法全书:金工· 银黏土
《 手工银饰技法全书:金工· 银黏土 》

售價:HK$ 118.6
Midjourney AI绘画教程:设计与关键词创作技巧588例
《 Midjourney AI绘画教程:设计与关键词创作技巧588例 》

售價:HK$ 106.5
世界的尽头是一杯好咖啡
《 世界的尽头是一杯好咖啡 》

售價:HK$ 130.7
从跟随到领先:华为管理体系重构之路
《 从跟随到领先:华为管理体系重构之路 》

售價:HK$ 119.8
短视频运营全流程:策划、拍摄、制作、引流从入门到精通
《 短视频运营全流程:策划、拍摄、制作、引流从入门到精通 》

售價:HK$ 94.4

 

建議一齊購買:

+

HK$ 129.1
《 量化交易之路 用Python做股票量化分析 》
+

HK$ 65.3
《 基本有用的计量经济学 》
+

HK$ 61.5
《 统计计算 》
+

HK$ 118.5
《 多元时间序列分析及金融应用:R语言 》
+

HK$ 93.0
《 计量经济分析方法与建模:EViews应用及实例(第3版) 》
編輯推薦:
本书引入了丰富多彩的案例,涉及经济、管理、天文、医药、生物、体育等领域,并利用R软件来分析和计算,增强了初学者对贝叶斯统计的学习兴趣,为其在各个领域使用贝叶斯统计打下了基础。
內容簡介:
贝叶斯统计学是现代统计学中非常有特色的内容,应用范围极其广泛。本书系统地介绍了贝叶斯统计的基本思想及其来龙去脉、先验分布和后验分布的概念以及寻求方法、贝叶斯统计推断、MCMC计算方法以及统计决策理论等。为使初学者更好地理解贝叶斯统计并培养起对贝叶斯统计的兴趣,本书引入了丰富的案例,涉及经济、管理、天文、医药、生物、体育等领域。本书专门制作了一个专用R软件包,把书中所有案例数据和主要程序都放入了此压缩包中,增强了师生教学与互动的效果,以便激发初学者对贝叶斯统计的兴趣,掌握贝叶斯统计的精髓,为贝叶斯统计的应用打好基础。
本书可作为高等院校统计、经济、金融、管理、医药、生物等专业高年级本科生和研究生的贝叶斯统计课程的教材或参考书,也可作为对贝叶斯统计感兴趣人士的参考用书。
關於作者:
黄长全,男,香港中文大学统计学哲学博士(PhD.),厦门大学经济学院统计学系副教授。教授统计学、计量经济学、时间序列分析、企业风险管理、贝叶斯统计等课程。
內容試閱
贝叶斯统计学是现代统计学中重要而独特的部分,不仅在统计学本身而且在众多其他学科中也有重要应用。近二十多年来,有关贝叶斯统计本身和贝叶斯统计应用的论文频频出现在各类统计以及非统计刊物上,贝叶斯统计解决了大量经典统计难以解决的复杂问题。可以这么说,没有学习过贝叶斯统计,就不能说了解过现代统计学。因此,贝叶斯统计理应成为大学统计类专业的一门必修课。厦门大学经济学院统计系(原计划统计系)于2003年第一次正式开设了贝叶斯统计学课程,从那时起,我就一直担任该课程的主讲教师。光阴荏苒、白驹过隙,十多年的时间一晃就过去了。这十多年来,如何教好这门在统计学中独一无二的课程一直是萦绕在我脑海中挥之不去的一个问题,在此期间我既有教训也积累了不少教学经验。因此,在几年前我就萌发了用自己的教学经验和教学观点撰写一本有些许自己风格的贝叶斯统计教科书的念头。有了撰写教材的想法后,自然而然地就会考虑:如何写出一本有特色的好教材呢?一本好教材的标准又是什么呢?我想就统计教学而言,一本好教材绝不仅仅是教给学生一些统计知识,更重要的是要培养和激发学生对统计学的兴趣和热爱,因为兴趣是最好的老师。那么怎样培养和激发学生对统计学的兴趣呢?多年的统计学科的教学经历使我认识到,要培养和激发学生对统计学的兴趣,一定要首先培养学生的数据感。众所周知,球类运动员要培养球感,语言学习者要培养语感,这些对他们而言都是极为重要的练习过程。对于统计专业以及任何学习统计的学生来说,在学习过程中培养自身的数据感同样极为重要。有了良好的数据感,才会对统计产生亲切感,从而才能激发起自身对统计的兴趣,这实际上也是专业素质的培养。如果大学本科四年不能培养起学生良好的数据感,就不能说是成功的本科统计教育。基于这种教学认识,本书以培养学生的数据感和激发学生的学习兴趣为写作方向。为了使本教材充满统计意味,我们从一开始就介绍贝叶斯统计学的最新有趣应用,同时,全书的案例丰富多彩,涉及经济、管理、天文、医药、生物、体育等领域,也有和日常生活息息相关的例子,使学生觉得贝叶斯统计不再是枯燥无味的,而是既有用又富有生活气息的。本书也专门制作了一个专用R软件包,把书中所有案例数据和主要程序都放入了此压缩包中,增强了师生之间的互动效果。此外,R软件的使用贯穿全书,目的就是通过数据和实际案例分析,加深学生对理论的理解并培养学生良好的数据感,强化学生的动手操作能力。ii本书共七章内容:第1章从一个贝叶斯统计学的真实应用开始,介绍贝叶斯统计的基本概念和公式,概述贝叶斯统计学的历史和发展趋势以及与经典统计学的比较;第2章引入共轭先验和充分统计量等概念,初步讨论后验分布的寻求以及共轭先验下的后验分布特性;第3章介绍先验分布的重要性和一系列先验分布的寻求方法,包括杰弗里斯先验等;第4章研究贝叶斯统计推断理论并介绍了贝叶斯统计在一系列不同领域的应用案例;第5章讨论贝叶斯统计决策理论,引入决策函数等一系列概念;第6章从实用的角度介绍了马尔可夫链蒙特卡罗(MCMC)方法的思想和简史以及马氏链样本的收敛检验问题;第7章则简要讨论统计决策理论,包括贝叶斯风险准则与后验风险准则的等价性等问题。另外,本书附带有R软件包、课件、部分习题参考答案,读者可通过扫描书中的二维码,联系出版社进行下载学习。本书可作为高等院校统计、经济、金融、管理、医药、生物等专业高年级本科生和研究生的贝叶斯统计课程的教材或参考书。关于教学内容建议:对本科生而言,讲授前五章的全部内容,可加选讲第6、7章;对于研究生则应讲授全部七章的内容。本书得以出版要感谢清华大学出版社;感谢吴雷编辑,他在组织出版的过程中做了大量的工作。此外,本书的初稿在厦门大学经济学院统计系和王亚南经济研究院双学位课程班讲授过,所以也要感谢各位学习这门课程的同学,是他们的认真学习,触动了我去思考如何教好这门课程。坦率地说,撰写教材是一件吃力不讨好的工作。但我认为撰写教材是教师的职责之一,当一名教师在某门课程上认真教学了多年,有了教学上的经验与教训,那么就应该把它写出来。最后,本书若能激发读者对贝叶斯统计的兴趣,有助于读者学习贝叶斯统计,那将是对笔者最大的慰藉。当然,由于自身学识所限,本书一定存在许多不足和错误之处,恳望读者朋友指正。黄长全2017年1月于厦门大学Email:cqhuang@xmu.edu.cn


俗话说,万事开头难。为了提高读者的学习兴趣,本章从一个贝叶斯统计的真实应用开始,介绍贝叶斯统计的基本概念和公式,概述贝叶斯统计学的历史和发展趋势以及与经典统计学的比较。1.1引言1.1.1一个美国书呆子的故事在2012年美国总统大选期间,一个一直都被人称作书呆子的美国人纳特西尔弗(Nate Silver,生于1978年1月13日)用以统计为主要工具的模型准确预测了美国全部50个州的选举结果。在大选日当天早晨,他的模型最新预测到时任总统巴拉克奥巴马(Barack Obama)将有90.9%的可能获得多数选举人票从而连任,而选举结果确确实实就是奥巴马总统赢得了这次美国总统大选。于是,他凭借自己的模型及其准确的预测打败了所有时事政治记者、政党媒体顾问和政治评论员。你们知道谁是今晚(大选日当夜)的赢家吗?美国全国广播公司新闻节目主播自问自答,是纳特西尔弗。其实,早在2008年的美国总统大选期间,西尔弗就准确预测了整个美国50个州中49个州的选举结果。两次极为准确的预测,让这个书呆子扬眉吐气、名声大震,各种荣誉接踵而来,甚至于被四所大学授予了四个荣誉博士学位,当然这也让我们从事统计领域的人士大感骄傲。西尔弗的预测模型有什么神秘之处呢?答案就是其利用了大数据和我们将要学习的贝叶斯统计理论和方法。1.1.2贝叶斯统计简史贝叶斯统计学是以英国人托马斯贝叶斯(Thomas Bayes,17021761)的名字命名的。贝叶斯是一位英国牧师,但他却热衷于概率统计等科学研究,还是英国皇家学会会员。遗憾的是,现在人们对他的生平却知之甚少,甚至没有人知道贝叶斯的相貌如何,现存所有他的画像都是传说,并不能证实是他的真容。贝叶斯统计学起源于贝叶斯逝世后公开发表的一篇论文《论一个概率理论问题的求解》(An Essay Towards Solving a Problem in the Doctrine of Chances)。在贝叶斯去世两年之后,这篇论文由他的朋友理查德普莱斯(Richard Price)介绍到英国皇家学会,引起了该学会的注意和讨论,并于1763年发表在《皇家学会哲学会刊》上。在该篇论文中,贝叶斯首次提出了贝叶斯统计的基本思想和归纳推理方法。0000五十一年后,法国数学、统计学、天文学和物理学家拉普拉斯(P.S.Laplace,17491827)在1814年出版了著作《关于概率的哲学评述》(A Philosophical Essay on Probabilities),在该著作中他将贝叶斯提出的公式进行了推广并导出了一些很有意义的新结果。然而,之后相当长的一段时间里虽然有一些理论和应用研究,但由于其理论与经典统计学相比显得另类,而且人们对它的理解还不够深刻,在应用上其计算复杂且计算量巨大,因此贝叶斯统计理论和方法长期未被普遍接受,甚至被一些学者看作一种旁门左道。直到20世纪中叶开始,有一批统计学家,例如杰弗里斯(H.Jeffreys,1939)、萨维奇(L.J. Savage,1954)、雷法和施莱弗(H.Raiffa and R.Schlaifer,1961)以及伯杰(J.O.Berger,1985)等,才对贝叶斯统计做了更加深入的研究,特别是罗马尼亚(匈牙利)裔美国统计学家阿布拉汉瓦尔德(Abraham Wald,1939,1950)通过将损失函数引入统计学并利用决策概念和思想把经典统计推断纳入决策理论框架中而形成了统计决策理论,这样经典统计学和贝叶斯统计学通过决策理论有机地联系到了一起,才得到了很有意义的理论结果。从20世纪中叶开始,在一批学者的努力下,人们对贝叶斯统计在观点、方法和理论上的认识不断加深。从20世纪90年代以来,伴随着计算机科学技术的发展和有效的贝叶斯统计计算方法的发现和应用,贝叶斯统计解决了相当一批经典统计难以解决的实际问题,从而得到了人们极大的重视。现在,贝叶斯理论和方法获得了人们的普遍接受,贝叶斯统计不仅在统计学本身而且在众多学科中都得到了广泛的应用,解决了各个不同学科中大量的复杂统计问题。贝叶斯统计表现出了勃勃生机和欣欣向荣的景象,在统计学领域牢牢地站稳了一席之地,也成为现代统计学的重要分支,可以这么说,没有学习过贝叶斯统计,就不能说了解过现代统计学。1.1.3经典统计方法我们先来回顾一下经典统计学的思想方法,以便与下一小节的贝叶斯统计思想方法进行比较。回顾一下概率统计课程中概率的定义,便容易明白经典统计学思想方法也就是频率方法,它把概率定义为频率的极限,也就是说如果随着随机试验重复次数的增多,随机事件发生的频率会稳定在一个常数附近,这个常数就是该随机事件发生的概率。同时,它认为总体的数字特征(如均值、方差)和别的参数仅仅是未知的常数,可以用样本统计量来估计。而且,它又认为样本是随机变量,从而样本统计量也是随机变量,因此具有概率分布,即它的抽样分布。如果统计量的分布可以求出,利用该分布,就可以进行区间估计和假设检验等统计推断。然而,我们知道寻求统计量的概率分布和进行区间估计以及假设检验等都不是容易的事,而且参数的区间估计既不容易理解也不容易解释。1.1.4贝叶斯统计方法贝叶斯统计学虽然也认可经典统计学的概率定义,但它同时把概率理解为人对随机事件发生可能性的一种信念(有时被称为可信度),当然,这种信念不是信口开河,而是基于学识和经验之上的审慎度量。其次,贝叶斯统计把任意一个未知量(参数)都看作一个随机变量,可用一个概率分布去描述它。我们说这种观点是合理的,因为即使是一个确定性的未知量,也可以把它看成随机变量的特殊情形,即服从01分布的随机变量。所以说,任一个未知量都可用一个适当的概率分布去描述它。这个概率分布利用历史数据或其他历史信息或研究人员的经验和学识而确定,称为该未知量(参数)的先验分布。而后利用新样本信息(即抽样信息)对先验分布进行更新,更新之后的这个新概率分布称为该未知量的后验分布。由此,未知参数的点估计、区间估计和假设检验等统计推断都是基于后验分布来进行的,而且参数的区间估计既容易理解也容易解释,假设检验则简单明了。经典统计学把概率定义为频率的极限,初看起来似乎客观、严谨,但是在现实世界中要进行重复试验需要花费大量的人力、物力,而且有时根本无法重复,例如,我们无法重复昨天的天气和去年的经济活动。因此,用频率的极限来定义概率在实际应用中受到了极大的限制。相反,贝叶斯统计把概率理解为人对随机事件发生可能性的信念,则在实际应用中没有任何限制,因为它不需要重复,事件甚至可以一次都没有发生。而且,在贝叶斯统计中一旦后验分布建立起来了,所有的统计推断都是基于后验分布来进行的,因此,至少从理论上而言,贝叶斯统计推断比经典统计推断要简单明了得多。当然,现代统计学的发展趋势是,根据实际问题的条件和需要挑选经典统计方法或贝叶斯统计方法,有时甚至是综合利用这两种统计理论和方法进行统计推断。所以,不管是经典统计还是贝叶斯统计,能够解决问题的就是好统计!对于经典统计学与贝叶斯统计学的比较,有待学完本书的内容后才能有更深刻的体会,因此希望读者在研读完本书后,再好好对它们做一个详细的比较分析。1.2概率空间与随机事件贝叶斯公式1.2.1概率空间与随机事件贝叶斯公式我们从概率论知道概率空间是三位一体的一个研究对象(,F,P),其中是样本点全体,也称为样本空间;F是事件域(简单说就是所要研究的随机事件全体,包含必然事件和不可能事件);P是定义在事件域F上的概率(测度),满足以下三条公理:(1) 非负性:对于任意事件A,其概率P(A)0;(2) 规范性:必然事件的概率等于1,即P()=1;(3) 可列可加性:如{Ai}i=1是一列事件,满足AiAj=(ij)(称为两两互不相容),则Pi=1Ai=Pi=1Ai=i=1P(Ai)这一公理体系称为柯尔莫哥洛夫概率论公理体系,是苏联著名数学家柯尔莫哥洛夫于1933年建立的,得到了概率统计学者们的广泛认可,从而为概率论建立了坚实的理论基础。另外,对于任意两个事件A,B且P(A)0,定义在A发生的条件下,B发生的条件概率为P(B|A)=P(AB)P(A)
从而,P(AB)=P(A)P(B|A),这就是乘法公式。推而广之,设{Ak}nk=1是任意n个随机事件,则有更一般的乘法公式P(A1A2An)=P(A1)P(A2|A1)P(A3|A1A2)P(An|A1A2An-1)现设{Ai}i=1是事件域F中的一列事件,若i=1Ai=,且AiAj=(ij),则称{Ai}i=1为的一个划分(也称为的完全事件组,这里事件的个数也可以是有限多个,比如说n个,这相当于kn时都有Ak=)。显然,任一个事件A与其补就是的一个划分。现在设{Ai}i=1为的一个划分且P(Ai)0,则对任一个事件BF有全概率公式P(B)=i=1P(Ai)P(B|Ai)
事实上,由B=Bi=1Ai=i=1(AiB)且(AiB)(AjB)=(AiAj)B=,ij
利用可列可加性及乘法公式就得P(B)=Pi=1AiB=i=1P(AiB)=i=1P(Ai)P(B|Ai)现在将全概率公式以及乘法公式应用到条件概率P(Aj|B)的公式上就有P(Aj|B)=P(AjB)P(B)=P(Aj)P(B|Aj)i=1P(Ai)P(B|Ai)j=1,2,,n,
这就是著名的随机事件形式的贝叶斯公式(定理或法则),也称为逆概率公式,这里{Aj}可以认为是事件B发生的所有可能的原因,而贝叶斯公式就是计算在已知事件B发生的条件下每个原因的可能性大小(概率),也就是说由结果去推测原因,因此叫逆概率公式。在贝叶斯公式中,P(Aj)称为Aj的先验概率,因为这是事先已知的,而P(Aj|B)自然称为Aj的后验概率。1.2.2两例:她怀孕了吗?非典时期病人为何要测量体温?贝叶斯公式与全概率公式都是概率论中的著名公式,在许多学科中都有重要应用,下面我们来看两个例子。例1.1(她怀孕了吗?)根据历史资料知道:女性一次性交后怀孕的概率为15%。假如一个女性某次性交后怀疑自己怀孕了,但又不能确定。于是,她做了个准确率为90%的验孕测试,即90%的怀孕案例会给出阳性反应的检验结果,同时知道该测试当未怀孕时阳性反应占10%。她当然想知道在检验结果为阳性的条件下的怀孕概率。然而,她不懂贝叶斯统计,所以请你帮助她算出该概率。解已知P(怀孕)=0.15,P(检测阳性|怀孕)=0.90,P(检测阳性|未怀孕)=0.10由已知得,P(未怀孕)=0.85。由贝叶斯公式知在检验结果为阳性的条件下的怀孕概率:P(怀孕|检验阳性)=P(检验阳性|怀孕)P(怀孕)P(检验阳性|怀孕)P(怀孕) P(检验阳性|未怀孕)P(未怀孕)
=0.900.150.900.15 0.100.85=0.1350.135 0.085=0.614
这里P(怀孕)=0.15就是怀孕的先验概率,P(怀孕|检验阳性)=0.614就是怀孕的后验概率,它是在观察数据(阳性测试)后怀孕概率的更新,表明如果测验呈阳性,则怀孕的可能性大大提高。例1.2(非典时期病人为何要测量体温?)非典(SARS)患者的主要病症表现为发热、干咳。根据某地区历史资料,已知人群中既发热又干咳的病人患非典的概率为5%;仅发热的病人患非典的概率为3%;仅干咳的病人患非典的概率为1%;无上述病症而患非典的概率为0.01%;现对该区25 000人进行检查,发现其中既发热又干咳的病人为250人,仅发热的病人为500人,仅干咳的病人为1 000人,试求:(1) 该地区中某人患非典的概率;(2) 非典患者是仅发热的病人的概率。解引入记号A={既发热又干咳的病人},B={仅发热的病人},
C={仅干咳的病人},D={无明显症状的人},
E={非典患者}
易知A,B,C,D构成了一个划分。根据对该区25 000人进行检查的结果,有P(A)=25025 000,P(B)=50025 000,P(C)=1 00025 000,
P(D)=25 000-(250 500 1 000)25 000=23 25025 000
由全概率公式得患非典的概率:P(E)=P(A)P(E|A) P(B)P(E|B) P(C)P(E|C) P(D)P(E|D)
=25025 0005% 50025 0003% 1 00025 0001% 23 25025 0000.01%=0.001 593
由贝叶斯公式知,非典患者是仅发热的病人的概率:P(B|E)=P(B)P(E|B)P(E)=50025 0003%0.001 593=0.376 647 8同理,可以算出非典患者是既发热又干咳、仅干咳、无明显症状的病人的概率分别为P(A|E)=P(A)P(E|A)P(E)=25025 0005%0.001 593=0.313 873 2P(C|E)=P(C)P(E|C)P(E)=1 00025 0001%0.001 593=0.251 098 6P(D|E)=P(D)P(E|D)P(E)=23 25025 0000.01%0.001 593=0.058 380 41
不难看出P(A|E) P(B|E) P(C|E) P(D|E)=1而一个人患非典时最可能的症状是发热。这就是为什么在非典时期要测量病人体温的原因。1.2.3案例:自动语音识别神奇的语音输入法你的手机里安装了讯飞语音输入法或其他语音输入法了吗?是不是觉得它很神奇呢?想不想知道它为什么能够把你说的话转换为文字呢?这个转换过程其实就是自动语音识别。简单地说,自动语音识别是指由机器自动将语音信号转换为文字的方法和过程。人类的语言可以说是各种信息里最复杂和最动态的一种,著名语言学家乔姆斯基(A.N.Chomsky)和信息论的祖师爷香农(C.Shannon)等学者都关注过自动语音识别问题,然而那时自动语音识别并没有获得很大进展。在这个领域率先取得突破的是捷克裔美国语音和语言处理大师贾里尼克(F.Jelinek)。从20世纪60年代开始,贾里尼克开创性地将语音识别问题看成一个通信问题,认为语音识别就是根据接收到的信号序列推测说话人实际发出的信号序列(即说的话)和要表达的意思,并且用贝叶斯公式和两个隐含马尔可夫模型建立起统计语音识别系统,把对应的一套模型称为声学模型和语言模型,从而极大地改变了这一领域的研究方向。此外,他还与其他合作者提出了数字通信领域最重要的算法之一BCJR(L.R.Bahl,J.Cocke,F.Jelinek,J.Raviv,1974)算法。难能可贵的是,这种统计语音识别系统不但能够识别静态的词库里的语音,而且对动态变化的词库语音具有很好的适应性,即对新出现的词汇,只要这个词已经被高频使用,可用于训练的数据量足够多,系统就能通过训练而正确地识别之。这实际上表明贝叶斯公式对新词汇语音信息有非常好的适应能力。由于本书的性质,这里我们不可能对问题展开详细的讨论,有兴趣者可以去研读有关文献资料。但我们从已经开发出来的语音输入法知道这种统计语音识别系统是非常成功的!1.3三种信息与先验分布在1.1节中,我们初步了解到统计学中有两个主要学派:经典统计学派与贝叶斯统计学派。在本节我们将从这两个学派使用的信息种类来讨论它们之间的异同。首先我们来了解统计推断问题中存在的三种信息。1.3.1总体与总体信息我们从已学课程知道统计学中总体就是根据一定的目的和要求所确定的研究对象的全体。例如,如果要统计调查全国大学男生的身高,那么,我们就可以把全国大学男生的集合作为总体,而大学男生身高这个指标就是关于该总体的一个数量,可以用一个符号X来标记它。由于在对随机抽出的一个大学男生具体测量之前,并不知道该大学男生的确切身高,而且人的身高是受遗传、营养等随机因素影响而确定的,所以X是一个随机变量并且服从某种概率分布。再如,我们要考察一个经济指标Y(可以把它设想为某一只股票的收益率或一个国家的GDP),由于受各种各样的随机因素的影响,Y是一个随机变量,它的所有可能取值就构成了一个总体并且也服从某一种概率分布。由于一个随机变量的概率分布完全刻画了该随机变量的统计规律性,因此,我们实际上甚至可以抽象地把这个随机变量的概率分布看作总体。总体信息就是我们对总体概率分布的了解或知识,一般而言,对总体信息最大的了解是知道总体概率分布所属的分布族,例如,若我们知道总体服从正态分布族N(,2),虽然这时两个参数还是未知的,我们也知道它的密度函数是一条关于总体均值对称的钟形曲线并且它的各阶矩都存在,同时也知道第一个参数是分布的均值,第二个参数2是分布的方差。当然,总体到底服从怎样的概率分布族对一个新研究问题而言通常不得而知,这正是统计学的一个分支非参数统计所要研究的。显而易见,要获得总体信息往往必须投入大量的人力、物力,例如,美国军队为了获得某种新的电子元件的寿命分布,购买了上万个此种电子元件,做了大量的寿命实验,在获得大量数据后才确认其寿命概率分布是什么。简言之,总体信息非常重要,要获得它虽然不容易但又是必须要做的,因为它是统计推断的基础。1.3.2样本信息为了对所研究的总体有更多的了解,我们必须从总体抽取(观察或收集)一定的样本x=(x1,x2,,xn),这些样本给我们提供的信息就是样本信息,也称为抽样信息。样本信息两种最重要的表现形式是样本的联合分布与样本统计量的抽样分布,其次是样本对总体特征的各种估计,例如,样本均值、样本方差(标准差)等。样本是统计学(无论是频率学派还是贝叶斯学派)的粮食,没有样本就如同巧妇难为无米之炊一样,做不成统计学上的任何事情,也就没有统计学了。仅仅基于总体信息和样本信息进行统计推断的统计学理论和方法称为经典统计学。它的历史悠久,但大发展却是从19世纪末到20世纪上半叶。由于统计学家皮尔逊(K.Pearson,18571936)、费雪(R.A.Fisher,18901962)和奈曼(J.Neyman,18941981)等人的杰出工作,经典统计学理论得到了空前的发展,成为当时统计学的主流。在20世纪下半叶,经典统计学在工业、农业、医学、经济、金融、管理、军事等领域里获得了广泛的应用,并取得了巨大的成功,同时,在这些领域又不断提出新的统计问题,于是又反过来促进了经典统计学的进一步发展。但是,伴随着经典统计学的持续发展与广泛应用,它本身的缺陷与某些方面的矛盾也逐渐暴露出来了。1.3.3先验信息与先验分布所谓先验信息是指在抽样之前对所研究的统计问题的了解或知识,一般说来,先验信息主要来源于研究者的知识和经验以及历史资料(数据),而且常常是零散的,需要进行提炼加工才可以应用。先验信息是人们对所研究的统计问题长期观察或研究积累起来的重要历史信息,理应加以利用到统计推断中来,以提高统计推断的质量。从后面的章节我们可以看到经典统计学由于忽视了先验信息的使用,有时会导致不合理的结论。关于先验信息在帮助人们进行推断的作用,请看下面有趣的例子。例1.3统计学家萨维奇(L.J.Savage,1962)曾考察过两个统计实验:1.一位常饮奶茶的妇女声称,对于一杯奶茶,她能辨别先倒进杯子里的是茶还是奶。对此做了十次试验,她都正确地说出了。2.一位音乐家声称,他能从一页乐谱中辨别出是海顿(Haydn)还是莫扎特(Mozart)的作品。在十次这样的试验中,他都正确辨别了。现在的问题是被实验者是完全在猜测吗?假如被实验者完全是在猜测,则每次成功的概率为0.5,那么十次都猜中的概率为2-10=0.000 976 6,这是一个很小的概率,是几乎不可能发生的,所以假设被实验者完全是在猜测是不对的,被实验者每次成功的概率要比0.5大得多。换句话说,这不是纯粹的猜测了,而是由于这两位被实验者都有丰富的经验,是经验帮助他们做出了正确的判断。由此可见,经验(也就是一种先验信息)在推断中不可忽视,应被善加利用才是正确之举。例1.4(产品质量管理问题)有一句话说得好,产品质量是企业的生命线。企业能否生存下去,其产品质量是关键因素之一。我们可以用一个指标来衡量产品质量的高低,那就是不合格品率。为了了解产品的质量,某厂每天都要抽检5件产品,以获得不合格品率的估计。经过100个工作日后就积累了大量的数据,通过整理得到表1.1。表1.1产品抽查数据表
不合格品出现次数频率
0940.94130.03220.02续表
不合格品出现次数频率
310.01400.00500.00根据这些历史资料(就是一种先验信息),对过去产品的不合格率就可以构造一个分布,如表1.2所示。表1.2不合格品率先验概率分布表
不合格品率0.00.20.40.60.81.0
先验概率0.940.030.020.010.000.00从这个分布列表可以看出,不合格品率大于等于0.2的概率:P(0.2)=0.03 0.02 0.01=0.06
是一个相当小的数。对先验信息进行提炼加工获得的分布称为先验分布。在这个例子中,先验分布(表1.2)综合了该厂过去产品的质量情况。我们看到这个分布的概率绝大部分集中在=0附近。因此,该产品可认为是信得过产品。如果以后的多次抽检结果与历史资料提供的先验分布是一致或更好的,质检单位就可以按照要求授予其是免检产品,或者每月抽检一两次就足够了,这样,就省去了大量的人力、物力。可见先验信息在统计推断及统计应用中是大有用武之地的。当然,如果以后的多次抽检结果与先验分布有较大的区别,那么我们就应该考虑利用新样本对先验分布进行更新,以期获得更符合实际的新分布,这正是贝叶斯统计所要做的重要工作。基于总体信息、样本信息和先验信息进行统计推断的理论和方法被称为贝叶斯统计学。从使用信息的角度来看,它与经典统计学的差别在于是否利用先验信息。贝叶斯学派重视先验信息的收集、挖掘和提炼,并综合先验信息形成先验分布,将其应用到统计推断中来,以提高统计推断的质量。1.4一般形式的贝叶斯公式与后验分布1.4.1知识准备首先回忆一下在概率论中有关随机向量和条件分布的几个概念。我们以二维情形为例,设(X,Y)是二维随机向量且分布密度为f(x,y),则X和Y的边际密度分别是fX(x)=Rf(x,y)dy,fY(y)=Rf(x,y)dx
其中,R表示实数集,而Y在X已知的条件密度是f(y|x)=f(x,y)fX(x)=f(x,y)Rf(x,y)dy
从而又有f(x,y)=f(y|x)fX(x)=f(x|y)fY(y)其次,引入高等数学中的两个重要函数:贝塔函数()和伽马函数()。它们在贝叶斯统计中经常出现,值得记住。它们分别定义如下:
00(z,w)=10tz-1(1-t)w-1dt,(z)=0e-ttz-1dt
它们有两个重要性质(z 1)=z(z),(z,w)=(z)(w)(z w)第一个性质表明伽马函数是阶乘n!=n(n-1)!的推广,第二个性质说明贝塔函数和伽马函数密切关联。最后,引入一个在贝叶斯统计中常用的分布族,即贝塔分布族Beta(a,b),其中a0,b0是两个参数。贝塔分布的密度函数如下(x|a,b)=(a b)(a)(b)xa-1(1-x)b-1,x[0,1]
并且具有性质Mode(X)=a-1a b-2,E(X)=aa b,Var(X)=ab(a b)2(a b 1)
当a=b=1时,贝塔分布的密度函数变成(x|a=1,b=1)=1,x(0,1)
这正是均匀分布U(0,1)的密度,所以均匀分布U(0,1)是一个特殊的贝塔分布。1.4.2R语言与R软件包本书从下一小节开始就要求读者用软件进行统计计算和作图,并把这一要求贯穿全书,目的是通过动手使用软件让读者培养起自己的数据感并体验研读贝叶斯统计的乐趣,从而激发起对贝叶斯统计学的兴趣。R you ready for R?这是国外高校校园里一句时髦的问句,它表明了R在国外高校盛行的程度。那么R到底是何方神圣而在校园里如此盛行呢?R是著名的贝尔实验室(Bell Laboratory)的编程语言S的实现版,最初的两位设计者是当时任教于新西兰奥克兰大学的Ross Ihaka教授和Robert Gentleman教授。由他们的名字拼写大家可以看出这套软件系统叫R的原因了。现在R由其核心团队负责维护和发展,每半年左右会更新一次。R是用于统计计算和绘图的编程语言和软件环境;R是一个自由、免费、源代码开放的软件包;R是一套完整的用于数据处理、统计计算和制图的软件系统。R的功能还包括:数据的输入、输出以及存储;数组运算(其数组种类丰富,向量、矩阵运算功能尤其强大)。由于全球学者的贡献,R有成千上万用于不同领域的软件包,但它的基本包为base,我们可从其官网镜像(http:mirrors.xmu.edu.cnCRAN)中下载并安装,本书安装的版本是R-3.3.1-win。由于基本包base实际上还包括了stats和graphics等诸多包,所以安装好base后,我们不仅可以进行各种算术计算,而且可以进行通常的统计计算(建模)和绘图。为了方便初学者的学习和实践,本书制作了一个专用R包Bayesian-Stat,并把书中所有案例数据和主要程序都放入了此压缩包中,可通过扫描二维码进行下载。读者免费下载此压缩包至电脑后,把它复制到安装好的base所带文件夹library中即可应用,此文件夹的一个路径示例如下:
C:\\Program Files\\R\\R-3.3.1\\library从现在开始,我们就要充分利用R软件来进行贝叶斯统计的学习了。1.4.3一般形式的贝叶斯公式现在我们要对一个总体X进行统计推断,假设其分布密度为p(x|),其中是未知参数,之所以写成条件密度的形式是因为在贝叶斯统计中未知参数被看成随机变量。进一步来说,假设参数已经有了先验分布(),而且从总体X那里得到了新样本x=(x1,x2,,xn)。现在的问题是怎样利用样本对先验分布()进行更新,以期得到更适当的分布。我们知道样本信息综合体现在其联合分布密度p(x|)中,而且如果样本是简单随机样本,则p(x|)=ni=1p(xi|)现在假设更新后的分布是(|x),即的以样本x=(x1,x2,,xn)为条件的分布。根据条件密度的公式,(|x)可以写成(|x)=h(x,)m(x)
其中,h(x,)是x和参数的联合密度,m(x)是x的边际密度而且m(x)=h(x,)d(是参数空间)
另一方面,利用先验分布()和样本的分布密度p(x|),我们可得样本x和参数的联合密度h(x,)=p(x|)()于是,更新后的分布(|x)=h(x,)m(x)=p(x|)()p(x|)()d显而易见,这个公式把总体信息、样本信息和先验信息都综合进去了。这就是密度函数形式的贝叶斯公式,其中(|x)被称为的后验分布,它是集中了总体、样本和先验三种信息后对于先验分布()的更新,以期得到参数的更符合实际的分布。如果是离散参数,其先验分布可用先验分布列{(j)}来表示。则后验分布也是离散形式,而且容易得到(j|x)=p(x|j)(j)ip(x|i)(i),j=1,2,
这个公式与事件形式的贝叶斯公式是何其相似!注:(1) 从贝叶斯公式显而易见无论是样本分布p(x|),还是先验分布(),乘以一个常数都不会改变后验分布(|x)。(2) 当样本观察值x得到后,样本分布密度p(x|)也就是似然函数,并常常记为:l()=l(|x)=p(x|)。(3) 先验分布()当然也有参数(如),但是在这里假定它已知了,所以没有写出来。如果它未知或为了强调而写出来,那就是()=(|),并且我们称先验分布中的参数为超参数。1.4.4计算后验分布示例我们通过例子来加深对贝叶斯公式的理解。例1.5(例1.4续)该工厂为了进一步改善产品质量,采用了更先进可行的技术,不合格品率因此有可能发生变化。为了对的先验分布进行更新,我们来计算的后验分布。为此,我们对n件产品进行独立检测,不合格品出现的个数记为X,显然,X服从二项分布Bin(n,),即P(X=x|)=p(x|)=Cxnx(1-)n-x,x=0,1,,n再根据贝叶斯公式和的先验分布(表1.2),我们就可以把的后验分布算出来,其一般表达式是(j|x)=p(x|j)(j)ip(x|i)(i),x=0,1,2,,n;j=1,2,,6在R平台中利用如下命令就可以把以二项分布Bin(n,)为总体,参数为离散情形的后验概率分布具体计算出来,例如,若n=10,x=0,则可以算得相应的后验概率分布表1.3。从该表可以看出,通过采用新技术,产品质量有了很大的提高。为了理解整个计算过程,请读者手工计算出1=0.0时对应的后验概率。以下就是所用的R命令:library(BayesianStat)#计算后验概率的命令Bindiscrete在此包中theta0被称为形状参数,0为尺度参数,其密度函数为p(x|,)=()x-1e-x,x0
再令Y=X-1,由概率论知识,不难求得Y的密度函数p(y|,)=()1y 1exp-y,y0这个分布称为逆(或倒)伽马分布,并记为IGamma(,),它的形式与上述的似然函数形式相似。假如取这个逆伽马分布为2的先验分布,则其密度函数为(这里2要看成一个变量)(2)=()12 1exp-2
于是2的后验分布为(2|x)p(x|2)(2)12 n2 1exp-12 12ni=1(xi-)2
显然,这仍是逆伽马分布,并具有如下形式:IGamma n2, 12ni=1(xi-)2
因此逆伽马分布IGamma(,)是正态方差2(均值已知)的共轭先验分布。例2.3证明伽马分布Gamma(,)是泊松分布Poisson()的均值的共轭先验分布。泊松分布Poisson()的分布列是p(x|)=xx!e-,x=0,1,2,
设x=(x1,,xn)是来自泊松分布Poisson()的样本,则此样本的联合概率为p(x|)=ni=1xix1!x2!xn!e-n,-0
0,0
其中00,1,证明:的后验分布仍为帕累托分布,即帕累托分布是参数的共轭先验分布。6.我们知道贝塔分布Beta(a,b)是二项分布Bin(n,)中的成功概率的共轭先验分布。现在请用R程序做出超参数a=2.5,b=3.5时,(先)后验密度曲线,这里假设实验次数和成功次数有四种情形,它们分别为(n,x)=(5,3)、(n,x)=(20, 12)、(n,x)=(100,60)以及(n,x)=(1 000,600)。另外,考察n和x成比例增加时后验密度曲线的变化,你能得出什么结论?(提示:R命令为Binbeta。)7.某天空区域中的流星数量可用泊松分布Poisson()来描述。现在根据历史资料知道参数只有四个可能取值,分别为(1.2,3.1,2.0,4.2),其对应的先验概率为(0.2,0.3,0.4,0.1)。如今观察到样本y=2(即在该空域看到了两颗流星),(1)手工求后验概率P(=1.2|y=2);(2)用R函数求后验概率分布列并画出先验概率与后验概率的对比图。(提示:用函数Poisdiscrete。)8.扼要阐述充分统计量的意义和在统计推断中的作用。9.设x=(x1,,xn)是来自Gamma(,)分布的样本。证明统计量T(x)=ni=1xi,ni=1xi
是(,)的充分统计量。10.假设样本x=(x1,,xn)来自正态分布总体N(,1)。(1)验证样本均值=1nni=1xi是的充分统计量;(2)若的先验分布为正态分布N(0,2)(2已知),用的分布计算的后验分布。
从贝叶斯公式可以看出,要具体求出后验分布(后验概率),首先要寻找出适当的先验分布(先验概率)。总体而言,如果能够收集到先验信息,则我们应当充分利用先验信息来确定先验分布;如果无法取得先验信息(如所研究的是全新的问题或者得到先验信息太过昂贵),则我们试图去寻求无信息先验分布。在第2章中,我们讨论了共轭先验问题,从本质上讲,它其实是要求先验密度函数与样本联合密度函数的形式具有某种相似性(共轭)。我们对常用的几个总体参数找到了其共轭先验,但是,即使我们得到了共轭先验,其超参数实际上仍然是未知的,即先验分布并没有完全确定下来。本章的任务就是讨论如何寻找和确定适当的先验分布,我们将从先验信息最充分的情形开始讨论。3.1先验分布类型已知时超参数估计我们知道先验分布中所含的未知参数称为超参数,而先验信息最充分的情形就是先验分布所属的分布族已知并且拥有超参数的某些信息,例如,已知二项分布中成功概率的先验分布属于贝塔分布Beta(,)族(一般地,如果已知共轭先验,先验分布所属的分布族当然也已知),这时,只要把超参数估计出来就可以确定先验分布了。估计超参数其实也就是经典统计中的参数估计,因此,可以充分利用经典统计中的各种方法。我们通过一些例子来说明此时先验分布的确定。例3.1(利用先验矩确定先验分布)某大学生报社的编辑打算做一个对当前学生会主席支持率的调查,其需要确定学生会主席的支持率的先验分布。根据以往的经验,其相信可取均值是0.5,标准差是0.15的贝塔分布Beta(,)作为先验,但其是文科生,没有学过贝叶斯统计,请你帮助其确定符合其先验信念的先验分布。解由贝塔分布的性质和题目所给条件,可以得到超参数的联立方程组 =0.5,( )2( 1)=0.152
解之得==5.05,即先验分布为贝塔分布Beta(5.05,5.05)。注:00(1) 如根据历史数据整理、加工可获得支持率(成功率)的若干相当于样本的估计值1,2,,k,则可算得先验均值和先验方差S2,其中=1kki=1i,S2=1k-1ki=1(i-)2
然后令其分别等于贝塔分布Beta(,)的期望与方差,即 =,( )2( 1)=S2
解这个联立方程组,即可得超参数与的先验矩估计值
=(1-)S2-1,=(1-)(1-)S2-1
对于有类似先验信息的其他先验分布族可以类似处理。(2) 如果根据历史资料可以整理出总体未知参数的若干相当于样本的估计值1,2,,k,但是不知道先验分布的类型,我们则可以利用经典统计中的直方图法或经验分布函数法以及别的非参数统计方法来确定先验分布,有兴趣的读者可以参考有关著作。例3.2(利用先验分位数确定先验分布)设某总体分布的参数的先验信息根据历史资料知:先验中位数为0;先验分布的0.25分位数和0.75分位数分别为-1和1。(1)如果先验分布为正态分布N(,2),试求出具体先验分布。(2)如果先验分布为柯西分布Cauchy(,),具体的先验分布又是什么?解(1) 因为~N(,2),所以估计出超参数和2即可。由于正态分布是对称的,故均值和中位数相等,从而=0。另外由0.75分位数为1这个已知条件,可列出方程:
P0(k=1,2,,K)且Kk=1qk=1,又设F(x|k)(k=1,2,,K)是K个分布而p(x|k)(k=1,2,,K)是对应的密度,令F(x)=Kk=1qkF(x|k),p(x)=Kk=1qkp(x|k)
则不难看出F(x)也是一个分布,并被称为F(x|k)(k=1,2,,K)的混合分布,而p(x)则是对应的混合密度。如果我们定义一个取值为{k;k=1,2,,K}的随机变量的概率分布()为(k)=qk,k=1,2,,K
则F(x)=Kk=1(k)F(x|k),p(x)=Kk=1(k)p(x|k)
所以从混合分布F(x)中抽取一个样本x1,相当于如下二步抽样:第1步,从()抽取一个;第2步,若=k,则从F(x|k)中抽取一个样本x1。如此反复进行下去,我们就可以从混合分布F(x)抽取一个容量为n的样本x=(x1,x2,,xn),这样的样本被称为混合样本,显然其中约有[n(k)](表示方括号里那个数的整数部分)个单样本来自分布F(x|k)。从贝叶斯公式中的边际分布m(x)的公式可以看出,它实际上是混合分布的推广。当为离散随机变量时,m(x)是由有限个或可数无限个密度函数混合而成,当为连续随机变量时,m(x)是由不可数无限个密度函数混合而成。若从()抽取一个,然后再从p(x|)中抽取一个x1,这个x1就可以看作从m(x)抽取的样本。按此过程进行抽取n次,就可以获得容量为n的混合样本x=(x1,x2,,xn),即来自边际分布m(x)的样本。例3.3列举混合样本的两个例子解(1) 一批产品来自三位工人之手,三位工人产品占比分别为30%,40%,30%。现在设是随机变量,可能取值为1,2,3(分别代表三位工人)而且概率分布为(1)=P(=1)=0.3,(2)=P(=2)=0.4,(3)=P(=3)=0.3
又设三位工人生产的产品长度分别服从分布p(x|=i)。现在随机抽取n件产品并测得长度分别为x1,x2,,xn,则样本x1,x2,,xn就可以看作一个混合样本,来自混合分布p(x)=3i=1p(x|i)(i)(2)设一个大学生的贝叶斯统计课程的考试成绩服从分布p(x|),其中是其考试能力参数。依据贝叶斯统计的思想,我们可以假设服从某个分布()。现在假设有n位同学参加某次贝叶斯统计课程的考试,他们的考试能力当然是不同的,假设分别是1,2,,n,那么,1,2,,n就可看成来自分布()的样本,p(x|k)就是第k位同学的成绩分布密度。最后,假设这些同学考完的成绩是x1,x2,,xn,那么,xi就可看成从p(x|i)抽取的样本。这样一来,整个样本x1,x2,,xn就可看作混合样本。3.2.2寻求先验密度的Ⅱ型最大似然法在边际分布m(x)的公式中,除了样本密度p(x|)外,就是先验(),如果p(x|)已知,则m(x)就依赖于先验(),因而可记m(x)=m(x|)。现在设所有可能的先验密度函数的集合为={;为先验}(以下简称先验族),而且混合样本x=(x1,x2,,xn)已知,则类似于经典统计中最大似然估计的思想方法,可以把m(x|)看作先验的似然函数,如果对两个不同的先验1,2有m(x|1)m(x|2)则可认为当先验取1时,样本x出现的可能性比先验取2时大,于是,我们就是要去求解那个使m(x|)最大的先验。这种思想方法称为Ⅱ型最大似然法(或MLⅡ法),所求出的先验称为Ⅱ型最大似然先验(或MLⅡ先验)。也就是说,Ⅱ型最大似然先验是以下方程的解m(x|)=sup{m(x|)}如果先验族的先验密度函数的形式已知,未知的仅是其中的超参数,即先验密度函数族可以表示如下:={(|),}其中,是超参数集,这时寻求MLⅡ先验就是寻求这样的超参数使得m(x|)=sup{m(x|)}
从而MLⅡ先验是(|)。注:一般而言,混合样本x=(x1,x2,,xn)是简单随机样本,因而有m(x|)=sup{m(x|)}=supni=1m(xi|)
但是,因为m(x|)=p(x|)(|)d,m(xi|)=p(xi|)(|)d
所以,上式最右部分不一定更简单。例3.4设X~N(,2),其中2已知,又设均值参数~N(,2),其中=(,2)为未知超参数向量,而x=(x1,x2,,xn)是来自边际分布m(x|)的混合样本。求超参数=(,2)。解计算知 m(x|)=m(x|,2)是正态分布N(,2 2)。所以当样本x=(x1,x2,,xn)已知时,超参数=(,2)的似然函数为m(x|)=m(x|,2)=[2(2 2)]-n2exp-(xi-)22(2 2)
=[2(2 2)]-n2exp-ns22(2 2)exp-n(-)22(2 2)
其中=1nni=1xi,s2=1nni=1(xi-)2
于是,对数似然函数为l(x|,2)=ln[m(x|,2)]
=-n2ln[2(2 2)]-ns22(2 2)-n(-)22(2 2)
将对数似然函数求偏导数并令其为零,得似然方程:l=n(-)(2 2)=0
l2=-n(2 2) ns2(2 2)2 n(-)2(2 2)2=0
解似然方程,可得超参数=
2=s2-2
从而所求的MLⅡ先验为正态分布N(,s2-2)。注:混合样本x=(x1,x2,,xn)来自正态分布N(,2 2),因此样本方差s2约等于2 2,不合理的情形s20},当均值已知时是一个尺度参数族,标准差为尺度参数,正态分布N(,1)的密度为这个位置参数族的标准(分布)密度函数;(2) 伽马分布族Gamma(,),0,当形状参数已知时,是一个尺度参数族,参数0为尺度参数。事实上,伽马分布族的密度函数p(x|,)=-()x-1e-x=-11()x-1e-x,x0
具有形式-1p(x)。这个尺度参数族的标准(分布)密度函数为p(x|,=1)=1()x-1e-x,x0对于同一个尺度参数族中的密度函数来说,它们的图形的形状与这个尺度参数族的标准(分布)密度函数的图形基本相同,只不过对它进行了伸张或收缩。图3.5就是尺度参数族N(0,2)中的三个密度函数图,(从上到下)尺度参数分别为1,1.2,2,其中=1时对应的密度函数图就是标准密度函数的图形(图3.5中的实线)。
图3.5同一个尺度参数族中的三条密度曲线
现在讨论尺度参数的无信息先验问题。对X做伸缩变换,得到Y=cX,让参数也做同样的变换而得到=c,其中变换系数c0。可以证明Y有密度1py(作为练习),显然这个密度函数仍属于给定的尺度参数族,也是一个尺度参数,的参数空间与的参数空间都为(0,),可见研究对象(X,)与(Y,)的统计结构完全相同,所以的无信息先验()与的无信息先验() 应该相同(t)=(t)。另外,由变换=c(即=c)及概率论中分布密度的运算法则,可以得到的无信息先验()=(c)dd=1cc
从而可得()=()=1cc
取=c,则有(c)=1c(1)
由c0的任意性,得的无信息先验()=1(1)。再由贝叶斯公式知可令常数(1)=1(先验乘以任何非零常数都不影响后验分布的确定),最后得尺度参数的无信息先验密度为()=-1,0
这是一个非正常(或广义)无信息先验。例3.15样本x=(x1,x2,,xn)来自指数分布p(x|)=-1exp{-x},0,x0
但无参数的先验信息。试求后验分布及后验均值。解所给指数分布全体显然构成了一个尺度参数族,而且是尺度参数,又无参数的先验信息,因此的先验取无信息先验()=-1,0。在样本x=(x1,x2,,xn)给定的情况下,的后验密度函数(|x)p(x|)()
=-(n 1)ni=1exp-xi=-(n 1)exp-1ni=1xi,0
显然这是逆伽马分布IGamman,ni=1xi,它的后验均值E(|x)=1n-1ni=1xi注:这里的其实是总体均值,因此,如果用后验均值作为它的估计,即相当于用样本均值来估计它,是很合理的。3.4.4杰弗里斯先验在前两小节中,我们讨论了位置参数族和尺度参数族的无信息先验的确定问题,并且获得了相应的无信息先验。但是,有许多分布族既不是位置参数族也不是尺度参数族,例如,最常见的正态分布族{N(,2)},当两个参数都未知时就是如此。所以,对它们的无信息先验分布的确定仍然是一个问题。统计学家杰弗里斯(Jeffreys,1961)对此问题做了深入研究,提出了一般情形下确定无信息先验的方法。设分布族{f(x|),}满足Cramer-Rao正则条件,其中=(1,,p)是p维参数向量。该正则条件共五条,感兴趣的读者可参考相关高等数理统计的著作,可以放心的是大部分常见的分布族都满足该条件。在无先验信息可利用时,杰弗里斯证明了可用以下步骤来确定的无信息先验,这样的无信息先验被后人称为杰弗里斯先验。(1) 写出总体密度(概率函数)f(x|)的自然对数并记为l(,x)=l()=ln[f(x|)](2) 求总体的费雪(Fisher)信息阵(量)I()=[Iij()]pp,Iij()=Ex|lilji,j=1,,p
这里Ex|表示对总体密度f(x|)求期望,例如,在单参数(p=1)情形下I()=Ex|dld2=(dld)2f(x|)dx(3) 参数向量的无信息先验密度为()=det[I()]
其中det[I()]表示pp阶矩阵I()的行列式。特别地,在单参数情形下()=[I()]12注:(1) 如果总体f(x|)关于参数向量的各个二阶导数存在,则有简化公式Iij()=Ex|lilj=Ex|-2liji,j=1,,p
特别地,在单参数情形下I()=Ex|dld2=Ex|-d2ld2(2) 特别要注意这里想寻求的是先验密度,并不牵涉对总体的抽样,所以,有的著作把l(,x)=ln[f(x|)]看成对数似然函数是不妥的。(3) 虽然杰弗里斯先验(以及位置参数和尺度参数先验)是无信息先验,但从某个角度讲,却是客观而不是主观先验分布,因为它们主要是利用概率统计的内在逻辑和运算规则确定下来的。例3.16总体X服从泊松分布Poisson(),其分布列是p(x|)=xx!e-,x=0,1,2,
但参数无先验信息。求总体的费雪信息量及参数的无信息先验。解总体概率函数的对数为l(,x)=ln[p(x|)]=xln--ln(x!)
从而dld=x-1,d2ld2=-x2
再由E(X)=,所以参数的费雪信息量I()=-Ed2ld2=EX2=1
参数的无信息先验()=-12。注:参数的这个无信息先验相当于其共轭先验Gamma(,),当=12,=0时的情形Gamma(12,0)。例3.17总体X服从正态分布N(,2),但无参数向量(,)的任何先验信息,试求参数向量(,)的杰弗里斯先验。解容易写出总体密度的对数l(,)=-12ln(2)-ln-122(x-)2
它的各个二阶偏导数2l2=--2,2l=2l=-2(x-)-3,2l2=-2-3(x-)2-4
由于E(X)=,E(X-)2=2,故总体的Fisher信息阵I(,)=E-2l2E-2l
E-2lE-2l2=120
022
从而det[I(,)]=2-4,所以(,)的杰弗里斯先验为(,)=-2。注:(1) 对于多维参数向量,常用费雪信息阵的行列式det[I()]来表示关于总体的信息量,在本例中det[I(,)]=2-4,而2是总体分布的方差,这就说明总体分布的方差越小(即分布越集中),关于总体的信息量就越大。(2) 当已知,I()=E-2l2=12为常数,故参数的先验1()=1。这与位置参数族{N(,2),-0(1)验证伽马分布Gamma(,)是参数的共轭先验分布。(2)若从先验信息得知,先验均值为0.000 2,先验标准差为0.000 1,请确定其超参数。7.如果总体X~N(,2),其中2已知,又设的先验分布为N(,2),证明边际分布m(x|,2)服从正态分布N(,2 2)。8.设某仪器元件的失效时间X服从指数分布(时间单位:小时),其密度函数为p(x|)=-1exp{-x},x0
若未知参数的先验分布为逆伽马分布IGamma(1,0.01),试计算该元件在200小时之前失效的边际概率。9.设X1,,Xn相互独立,而且Xi~Poisson(i),i=1,,n。若1,,n是来自伽马分布Gamma(,)的样本,试找出(X1,,Xn)的联合边际密度m(x)。10.假设总体X服从泊松分布Poisson(),而参数的先验服从伽马分布,Gamma(,),x1,,xn是来自边际分布m(x)的混合样本。试利用边际矩法证明超参数的估计值:=2(s2-),=(s2-)
其中00
参数的先验分布取伽马分布Gamma(,),其密度函数(|,)=()-1e-,0
现有混合样本的均值m和方差2m,寻求超参数,的边际矩估计。13.设总体X的密度函数pX(x|)具有形式1px,参数空间为(0,)。对X做伸缩变换,得到Y=cX,让参数也做同样的变换得到=c,其中变换系数c0,证明Y有密度1py。14.对于指数分布族p(x|)=-1e-x,0,求总体的Fisher信息量及参数的无信息先验。15.在例3.18中已经算出二项分布成功概率的杰弗里斯无信息先验是贝塔分布Beta(0.5,0.5),另外均匀分布U(0,1)也是常用的先验。现在有样本n=8,x=4(8次试验成功4次),求两先验对应的后验分布并计算后验均值和方差。对此结果,你有什么评论?
良好的开始是成功的一半。在前面几章中,我们引入了各种类型的贝叶斯公式并初步讨论了后验分布(密度)的计算问题,并且了解到贝叶斯统计的所有统计推断都是基于后验分布(密度)来进行的。那么,当后验分布(密度)计算出来后,如何进行贝叶斯统计推断呢?这就是本章要讨论的主要问题。我们将介绍如何利用后验分布(密度)进行参数的点估计、区间估计、假设检验、模型选择以及统计预测等统计推断。4.1贝叶斯估计4.1.1点估计设样本x=x1,,xn有联合密度(概率函数)px|,其中是未知的待估参数。为了估计该参数,贝叶斯统计的做法是,依据的先验信息选择一个适当的先验分布(),再经由贝叶斯公式算出后验分布(|x),最后,选择后验分布(|x)的某个特征量作为参数的估计。下面给出正式定义。4.1后验密度(概率函数)(|x)的众数MD称为参数的后验众数估计(也称为广义最大似然估计和最大后验估计),后验分布的中位数ME称为的后验中位数估计,后验分布的期望(均值)E称为的后验期望估计。这三个估计也都可简称为的贝叶斯(点)估计并记为B。在一般情形下,这三种贝叶斯估计是不同的,但当后验密度函数关于均值左右对称时,这三种贝叶斯估计重合为一个数。另外,一般而言,当先验分布为共轭先验时,贝叶斯估计比较容易求得。例4.1设样本x(成功次数)来自二项分布PX=x=Cxnx1-n-x,x=0,1,,n
其中参数为成功概率。现取贝塔分布Beta(,)为的先验分布,试求参数的后验众数估计和后验期望估计。00解我们已知贝塔分布Beta(,)是参数的共轭先验分布,所以,的后验分布为贝塔分布Beta( x, n-x)。因此,的后验众数估计和后验期望估计分别为MD= x-1 n-2,E= x n注:由第3章例3.18知的杰弗里斯先验为()-12(1-)-12[即贝塔分布Beta(0.5,0.5)],而由贝叶斯假设得的先验分布为均匀分布U(0,1)[即贝塔分布Beta(1,1)],二者都是特殊的贝塔分布,因此,对应这两个无信息先验的贝叶斯估计也一并解决了。现在我们特别对先验分布取为均匀分布Beta(1,1)的情形做深入一点的讨论。显然,此时参数的两个贝叶斯估计分别为MD=xn,E=x 1n 2这里令人感到惊奇的是参数的后验众数估计居然就是经典统计中的最大似然估计,也就是说,成功概率的最大似然估计就是取特定的先验分布Beta(1,1)下的后验众数估计。这种现象不是孤立的,以后我们还会经常遇到。这种现象表明经典统计推断在许多情形下是特定的贝叶斯统计推断。考察表4.1中的数据,不难看出的后验期望估计E要比后验众数估计MD(即最大似然估计)更合理一些,而且从下一小节知道后验期望估计在所有的参数的估计中的后验均方差最小,所以人们经常选用后验期望估计作为的贝叶斯估计。这样,在这个统计模型中贝叶斯估计就优于经典统计的最大似然估计,而且这里并没有用到先验信息,因为Beta(1,1)是无信息先验。换句话说,这里参数的贝叶斯估计用到的信息与经典统计中的最大似然估计用到的信息是一样的,但是,结果是贝叶斯估计优于最大似然估计,这再一次令人感到惊奇!表4.1成功概率的两种贝叶斯估计的比较
试验编号试验次数成功次数MDE
15000.143210000.08335510.8574101010.9174.1.2贝叶斯估计优良性准则在经典统计中,比较估计量优良性的一种准则是看均方差的大小,均方差越小,估计量越好。对于贝叶斯统计,我们有类似的准则来评定一个贝叶斯估计的优良性,具体定义如下。4.2设参数的后验分布为(|x),其中x=x1,,xn是已知样本,又设是的一个贝叶斯估计,则(-)2的后验期望PMSE()=E|x(-)2=E[(-)2|x]
称为的后验均方差,其平方根[PMSE()]12称为的后验标准误。如果1和2是的两个贝叶斯估计且PMSE(1)

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.