逻辑斯谛回归是研究中最常用的统计方法之一.它是几乎所有通用商业统计软件包的组成部分,并且是最重要的统计程序之一,被应用于医疗保健分析、医疗统计、信用评级、生态学、社会统计分析和计量经济学等相关领域.许多分析师认为逻辑斯谛回归是预测分析以及建立长时六西格玛流程的重要方法.
有充分的理由相信逻辑斯谛回归方法能够普及.与传统的线性回归或标准回归不同,逻辑斯谛回归适用于二分变量模型.正如我将在第1章中详细讨论的那样,二分变量只有两个值———1和0.这些值可能被视为“成功”和“失败”,或者任何“正的”和“非正的”二分类型.如果分析师使用线性回归对一个或多个预测变量建模1或0二分变量,那么该线性模型所依据的假设就被违背了.也就是说,在统计学导论课程中讲授的线性模型并不适用于模拟二分数据,我们将在本书后面讨论为什么会出现这种情况.
研究人员和分析师通常基于如下三个目的而使用逻辑斯谛回归:
1.预测结果或响应变量等于1的概率;
2.对结果或预测进行分类;
3.评估模型预测的相关概率或风险.
唯独逻辑斯谛模型能够实现上述三个目标.本书的重点是提升分析师使用逻辑斯谛模型的能力,从而帮助分析师更好地理解其所处理的数据,做出适当的预测和分类,并确定哪一个预测值相对更加准确.此外,我将推荐一种逻辑斯谛回归建模的方法,以解决一些数据科学分析师在传统建模中发现的问题.
本书旨在对处理二分响应数据的分析师或研究人员提供帮助.对于那些过去没有使用过逻辑斯谛回归的读者,以及“不熟悉如何使用”该方法的读者,本书也是很有价值的.然而,我假定读者已经学习了统计学的基础课程,了解如何应用线性回归来研究数据.或者你自学了这些,也就足够了.有许多与回归分析相关的优秀书籍和免费在线教程可以提供这些知识.
我把本书定位为一本入门的指南,也为你我之间的沟通提供了素材.我讲授了很多年的逻辑斯谛回归课程,基于逻辑斯谛模型开展研究工作,并撰写关于这一主题的书籍和文章.我已经将逻辑斯谛回归应用于各种不同的领域,包括医疗健康、生态、渔业、天文学、交通、保险、经济、娱乐和体育等.从2003年开始,我还通过Statistics.com网站,为在线统计教育项目讲授为期一个月的逻辑斯谛回归和高级逻辑斯谛回归课程.在这个过程中,我了解到大多数分析师在使用逻辑斯谛回归时遇到的障碍和问题.因为学习我的课程的人遍布在世界各地的研究机构和大学,所以我对这一方法及其广泛应用有更多的了解.
在本书中,我将与您分享我使用逻辑斯谛回归的经验,旨在为您提供模型的基本逻辑及其相应的应用.我第一次看到这个模型的时候,就有把它写成书的想法.本书比我的另一本多达656页的LogisticRegressionModelsChapmanHallCRC2009一书更方便、简洁,那是一部基于逻辑斯谛模型的更全面的参考书.然而,这本书侧重于如何最好地理解基本逻辑斯谛回归模型的关键点,以及如何正确地使用它模拟二分响应变量.书中没有讨论有关的深奥细节,也没有提供各种建模策略的详细分析,而是关注逻辑斯谛模型最重要的特征,即如何构建逻辑斯谛模型,如何解释系数和优势比,如何基于模型得出概率,如何估计模型的适应性.在本书的最后一章,给出了贝叶斯逻辑斯谛模型,概述了它与传统频率统计方法的不同.针对实际的德国健康数据,讨论了贝叶斯模型检验是如何通过JAGS代码分步进行的.读者应该能够对如何开发和解释贝叶斯逻辑斯谛回归模型有一个基本的理解,并且能够使用书中的解释作为指导来开发自己的模型.我们将提供用于学习如何构建稍微复杂模型的资源.贝叶斯模型在研究中扮演着越来越重要的角色,每个分析师至少应该熟悉如何理解这类模型,并能够编写基本的贝
叶斯逻辑斯谛模型的程序.
R统计软件用于展示除确切逻辑斯谛回归以外的本书中涉及的所有模型.此外,R用于书中讨论的与逻辑斯谛回归相关的所有数据管理、模拟、后验估计拟合分析、检验和绘图.每个章节的结尾都提供了所有示例的SAS代码和Stata代码.本书网站提供了完整的Stata、SAS代码和输出,包括图形和表格.网站上也提供了R代码以及基于CRAN的LOGIT包.
在2005年以来发表在统计期刊上的大多数文章中都使用了R语言.R是开源软件,这意味着用户可以检查分析和建模过程中使用的实际代码.它也是免费的,下载不需要任何费用.有许多免费的资源可以用来学习R语言,通过博客可以咨询如何执行各种操作.它是目前世界上最流行的统计软件之一.因此,在这本相对简短的关于逻辑斯谛回归的书中使用它是有意义的.但如前所述,SAS软件和Stata软件用户拥有完整的代码,可以在文本中复制所有的R示例.该代码有书面格式的,也有电子格式的,供即时下载和使用.
请注意,从PDF文档中复制代码,或者从其他不兼容的文档中复制代码时,会发现可能需要重新输入一些字符才能执行成功.例如,当将程序代码从PDF或Word文档粘贴到R编辑器中时,“引号”和“负号”等字符可能无法正确转换.为了弥补这一点,您需要重新键入引号或负号.
同样要记住的是,本书不是关于R语言或任何具体的统计软件包的.我们首先感兴趣的是逻辑斯谛回归的基本问题.展示的示例旨在阐明建模过程.虽然R语言很受欢迎,功能强大,但它却很复杂,很容易犯错误,而且当你犯错误时,R是相当不宽容的.因此,我对建模和评估过程中使用的R代码给出了一些解释.目的是为您提供可以直接使用或可根据需求进行调整的代码,以使您的建模工作更简单、更高效.
我选择在每一章的末尾提供Stata代码,因为Stata是商业市场上最受欢迎和最强大的统计包之一.它有免费的技术支持和广泛使用的博客和用户LISTSERV站点.此外,使用Stata编程语言编写统计程序和测试也相对容易.Stata有更多专门用于各种基于逻辑斯谛的统计包.我和田纳西大学的BobMuenchen指出了Stata和R的异同,参见我们的530页的著作RforStataUsersSpring,2010一书.这是一本帮助Stata用户学习R语言的书,R用户更容易学习Stata.这本书以精装本、平装本和电子形式出版.
应该承认,我使用Stata语言已经有25年之久了,也是几个商业程序初始版本的作者,包括首先使用了“logistic”1990和“glm1993命令.我还在1991年创建了StataTechnicalBulle ̄tin杂志,并担任它的首席编辑,该杂志在1999年扩展为StataJournal.上世纪1980年代末和1990年代初,我也曾为该软件包制造商讲授过S ̄plus课程,往返于美国和加拿大的不同网点大约4年时间.S和S ̄plus用户群在过去的十年到十五年里已经在很大程度上发展成为R用户.此外,我还在SAS中编写了各种宏,并对SUGL给出了演示文稿,因此我也有SAS方面的背景.然而,有一段时间以来,我经常使用SAS作为基础程序,所以我邀请了专业程序员、统计学家YangLiu,将文中用于示例的R代码复制到SAS中.他为读者提供了完整的编程代码,而不仅仅是在其他文本中所找到的代码片段.本书中,SASStatGENMOD和ProcLogistic程序是两个最常用的SAS程序.Yang还和我一起审阅了证明页,检查了需要修改的地方.
可以从CRAN包LOGIT下载和安装R数据集和用户编写的函数与脚本.对我的LogisticRegressionModels2009年第一版,2016年第二版,ChapmanHallCRC一书,LOGIT包也提供了数据、函数和脚本.Stata,SAS,SPSS和Excel中数据文件和csv格式,以及Stata命令和adodo文件能在我的网站中找到,网址是:
http:works.bepress.comjoseph_hilbe
也能够在该书的网站中找到:
http:www.crcpress.comproductisbn9781498709576
关于逻辑斯谛回归的勘误与注解的PDF文件和其他资源也参见我的Bepress网站.
对于本书的创作,我希望感谢如下的同事,RafaelS.deSouza天体物理学家,匈牙利,罗兰大学,YangLiuBaylorScott&WhiteHealth.
过去15年间,我与JamesW.Hardin南卡罗来纳大学生物统计学副教授的合作工作也间接促成了本书的出版.我们合著了5本书,诸多的著作章节和杂志文章,对统计程序和建模问题进行了不计其数的讨论.我与AlainZuurCEO,HighlandsStatistics,苏格兰的合作也有助于本书的出版,我们在2013年合著了一本有关贝叶斯建模的书,这对我目前在这个领域的工作产生了极大影响.也要感谢PeterBruceCEO,统计教育学院,Statistics.com,是他首先建议我写这本书,并应用于逻辑斯谛回归网络课程中.DeSou ̄za博士为第4章的分类统计和图表提供了两个新的R函数,即ROCtest和confusion_stat.这些是非常有用的函数,可以增强R语言的逻辑斯谛建模能力.YangLiu负责编写书中提供的所有SAS代码,并利用R函数对其进行测试,并给出了全书中的图示.他还编写了SAS代码并给出了所有例子的完整输出结果,这些能在本书的网站上找到,在校稿过程中,他审阅了全书的勘误和修改建议.我也感谢ShawnCasper可靠性咨询执行主任,LLC,Monroe,MI,他读了全书手稿,检查了文本和代码,并提出大量有益的建议.感谢JamieRiggs博士西北大学预测分析硕士项目审阅了本书刚成形的初稿.还要JudithM.Simon,CRC出版社的项目编辑,负责该书的整体制作.感谢SyedMohamadShajahan,印度钦奈TechsetComposition公司的副经理,负责页面设计和书的出版.他们在本书排版中都做了出色的工作,容忍我做了大量的修改.感谢RobertCalver,ChapmanHallCRC的统计学编辑,其提供了无以言表的帮助.自从2002年开始,他就做我的著作的编辑,他的工作确实很出色,我们也成了非常要好的朋友.
谨以此书献给Heidi和SirrHilbe.Heide在40多年前就去世了,但在大约45年前的1970年,我写第一本的时候,她是我最好的伙伴,我也得到了认可.自2007年Sirr出生以来,他一直是我忠实的伙伴,在我写另一本书的时候,他让我保持理智.Sirr是一个白白净净的马耳他小孩,但不能否认他对本书的独特贡献.
约瑟夫M.西尔贝
|