THOMAS W. MILLER是美国西北大学预测分析专业方向负责人,他负责设计了市场分析、高级建模技术、数据可视化、 Web和网络数据科学以及综合实践课程。 他广泛参与了专业的教学,有丰富的经验。此外,他还从事数据科学应用的开发工作。在加入学术界之前,他有15年的IT商务和交通行业经验,曾负责 A. C. Nielsen Center for Marketing Research 的工作,并且在威斯康辛大学麦迪逊分校教授市场研究和商业策略课程。
前言斯考特,把我弹射出去。Captain Kirk(William Shatner饰)电影《星际旅行4:抢救未来》(1986年)Web是一个由众多网页相连接而形成的网络,是一个通信媒介,是一个覆盖全球的信息来源。人们花费大量的时间在Web上进行搜索,获取有用的数据与信息,并对它们进行分析。有效使用Web给人们的生活带来了很多的便利。本书将告诉你以上这一切是如何实现的。本书是根据我在西北大学(Northwestern University)讲授的一门课程的内容撰写而成的。此课程从介绍Web网站分析学入手,主要关注在Web搜索中使用数据的统计与性能。之后,我又在此课程中增加了来自网络科学和社交媒体的概念。在讲授此课程两年后,我认识到从Web上收集信息可以成为一个独立的话题,有太多关于Web与网络数据科学方面的知识可以学习。本书就像我讲授的课程那样,是关于以上这些知识的指南。Web与网络数据科学是数据科学和网络科学相结合而形成的,关注的是将Web看成一个提供信息的来源。因而,最好的学习方法就是通过实例进行讲解。因此,本书中包含大量的实例,通过提供建模技术方面的资料和参考指南给研究人员与分析师提供帮助。我们也会向编程人员展示如何基于基础代码编写能够正确运行并用于解决真实商业问题的软件。我们想要做的事情都会通过所编写的代码体现出来。本书中包含的这些代码将作为参考资料提供给每一位读者,当然会有部分读者对这些代码进行进一步调试。为了鼓励学生学习,每一段程序代码都包含详细的注释以及如何进一步分析的建议。所有的数据集以及计算机程序代码都可以直接从本书的网站http:www.ftpress.commiller下载。Python这个名字来源于Monty Python。大家会看到有些软件包的名称比较奇特,如Twisted或Scrapy。R语言拥有自己的lubridate与zoo软件开发包。好的结果来源于辛勤工作并热爱工作的人们。那些追求快乐而不是名利的人们为开源软件做出了贡献,而我很高兴自己能够成为开源软件Python和R语言社区中的一员。那就让我们一起开始这段快乐的旅程吧!对于Web和网络中存在的问题,使用Python可以有效便捷地解决某些问题,而使用R语言可以有效便捷地解决其他一些问题。常常还会出现两种语言都适用的情况,这时就需要进行权衡。总体来说,Python和R语言能够用于对Web及网络数据进行有效的收集与分析。在本书中,我们还会提到编程时会使用到的很多工具。对网站的正常运行负有责任的Web专业技术人员还会使用很多其他语言和技术,如JavaScript、Apache、.Net Web服务,以及数据库系统。本书的讨论将会涉及这些技术,但不会提供任何编程代码。本书中大多数数据来源于公共域数据源。用于支持案例的数据来源于加利福尼亚大学尔湾分校的机器学习信息库(Machine Learning Repository)和斯坦福大学的大型网络数据集(Large Network Dataset Collection)。所获取的影视方面的数据得益于互联网影视数据库(Internet Movie Database)所给予的使用许可。IMDb影视评价数据由斯坦福大学的Andrew L. Mass及同事整理完成。安然(Enron)案例数据由卡耐基-梅隆大学的William W. Cohen维护。Quake Talk(地震谈话)案例数据由Maksim Tsvetovat维护。我们对以上这些学者为我们的研究提供了丰富的数据表示深切的感谢。很多人对我这些年来的知识积累都产生过重大的影响。他们中有出色的思考者,有善良的同仁,还有我会永远感激的老师以及导师。不幸的是,尤西纽斯学院(Ursinus College)哲学系的Gerald Hahn Hinkle和语言系的Allan Lake Rice以及明尼苏达大学(University of Minnesota)哲学系的Herbert Feigl已经永远离开了我们。在此,我还要感谢明尼苏达大学心理测验学系的David J. Weiss以及曾经在俄勒冈大学(University of Oregon)经济系任教的Kelly Eakin。好的老师(没错,他们都是伟大的园丁)终身都将得到人们的尊重。感谢Stan Narusiewcz给了我职业生涯中的第一份工作,那是一个网络工程师的岗位。感谢Tom Obinger指导我成为一个成功的计算机系统和网络销售人员。还有Bill JoBush和Brian Hill,在我作为信息系统专业人员整个职业生涯的各个阶段,他们曾经是我的直接上司或同事。感谢Michael L. Rothschild、Neal M. Ford、Peter R. Dickson和Janet Christopher在威斯康星大学麦迪逊分校(University of WisconsinMadison)伴我一起度过几年美好的时光并给予我无私的帮助。特别感谢A. C. Nielsen Center for Marketing Research的学生和顾问委员会的专家以及Jeff Walkowski和Neli Esipova,后两位在我组织在线调查与专题讨论小组期间曾经同我一起工作,我们所使用的方法那时才开始在重要的研究中得到应用。我很有幸参与了西北大学成人教育学院开展的研究生远程教育的课程教学活动。感谢Glen Fogerty给我提供了讲授课程的机会,并让我负责西北大学预测分析学项目。感谢所有参与这个很有特色的研究生项目的同事和管理人员。最后,感谢帮助过我的众多学生们和老师们,你们令我受益匪浅。ToutBay是数据科学领域中一个快速成长的公司。与公司的共同创始人Greg Blence一样,我对公司的未来发展抱有很大的信心。感谢Greg让我有这样一个参与创业以及面对商业活动中的现实而能够更加脚踏实地的机会。学术以及数据科学模型毕竟有其局限性,为了能够真正产生影响,我们必须实现我们的想法和模型,并且与他人进行共享。我的家在加利福尼亚州,道奇体育馆(Dodger Stadium)以北四英里,但是我在位于伊利诺伊州埃文斯顿市(Evanston, Illinois)的西北大学任教,同时在位于佛罗里达州坦帕市(Tampa, Florida)的一个名叫ToutBay的数据科学公司指导产品研发。这样的工作和生活方式充分体现出了互联网带给我们的巨大便利。nology公司的Amy Hendrickson使本书的编排、文字、图表看上去都是那么出色和完美,这是开源软件的又一个成功实例。感谢Donald Knuth以及整个社区对这个出色的系统在编排和出版方面做出的贡献。本书中包含的内容主要源于在西北大学讲授的Web与网络数据科学这门课程。参与课程学习的学生提出了很多想法和启示。Lorena Martin对本书进行了评阅,提供了许多宝贵意见。Candice Bradley不但评阅了本书,还是本书的文字编辑。我对他们给予的帮助和鼓励表示衷心感谢。最后还要感谢我的编辑Jeanne Glasser Levine以及本书的出版商PearsonFT Press,是他们使本书的成功出版成为可能。在此特别声明,我个人对所有写作方面的事宜、存在的错误与问题以及不足负全部责任。我的好朋友Brittney和她的女儿Janiya总是抽空陪伴我。我的儿子Daniel总能与我同甘共苦,是我一辈子的朋友。我对于他们给予的信任致以崇高的敬意。Thomas W. Miller美国加利福尼亚州格伦代尔市