新書推薦:
《
数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习)
》
售價:HK$
266.6
《
500万次倾听:陪伤心的人聊聊
》
售價:HK$
53.8
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:HK$
80.6
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:HK$
87.4
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:HK$
66.1
《
周易
》
售價:HK$
44.6
《
东南亚的传统与发展
》
售價:HK$
67.2
《
乾隆制造
》
售價:HK$
87.4
|
編輯推薦: |
数据新闻只是新闻报道中的一种形式,弥补传统新闻或叙事性新闻无法呈现的效果。数据新闻 采用可视化的方法将单调的数据用一种直观、便于理解和更具说服力的方法呈献给读者。数据,特别是大量的数据比采访几十个对象获取的抽样信息做出的结论更客观、更容易阐明观点。
|
內容簡介: |
数据新闻作为一种新型的新闻报道形式,弥补了传统新闻或叙事性新闻无法呈现的效果。数据新闻采用可视化的方法将单调的数据用一种直观、便于理解、更具说服力的方法呈献给读者。大量的数据比采访几十个对象获取的信息更多,做出的结论更客观易懂,也更容易阐明观点。本书介绍在大数据环境下数据新闻的制作流程。以丰富的实践案例解析数据新闻的制作理念和方法。紧密围绕新闻人在制作数据新闻中的实际需求,全面介绍了数据新闻概述,获取数据的工具和方法,使用Openrefine清理和分析数据,数据质量分析,使用Tableau实现数据分析及可视化,以及标签云、关系图制作、Echarts和HTML5等其他数据新闻制作工具。本书理论与实践结合,偏重数据新闻的具体制作方法。不仅包含必备的理论知识,而且包含具体的实践案例,多角度启发和引导读者的创新思维,增强读者对抽象数据的把握和综合分析能力,帮助读者快速掌握数据新闻的制作过程。内容通俗易懂,简明实用,包含配套的电子教学辅助资料,可免费下载。
|
關於作者: |
刘英华,1975年出生,女,博士,副教授。研究方向:数据挖掘、隐私保护、数字媒体。已出版专著《Java2程序设计》、《数字媒体传播实务》和《基于数据发布的隐私保护模型研究》。
先后发表学术论文30余篇,参与国家自然科学基金面上资助项目基于大规模复杂结构知识库的知识发现机理、模型与算法研究和基于多关系的模糊认知图挖掘模型、算法与评价机制研究。
|
目錄:
|
目 录
第1 章 数据新闻概述1
1.1 数据新闻的概念 . 2
1.2 制作数据新闻 . 8
1.2.1 人才需求9
1.2.2 技术需要10
1.2.3 制作流程11
1.3 数据新闻奖(DJA)获奖作品12
第2 章 获取数据22
2.1 政府、国际组织与第三方机构的公开数据 . 23
2.2 政府信息公开数据的申请 . 26
2.3 众包搜集数据 . 29
2.4 搜索引擎的使用 . 30
2.4.1 搜索指令30
2.4.2 百度搜索工具33
2.4.3 百度高级搜索页面34
2.5 数据存储 . 34
2.5.1 PDF 格式转换为Excel 格式 . 35
2.5.2 在线转换工具Zamzar . 37
2.5.3 浏览器插件38
2.5.4 结构化信息表格化40
2.5.5 批量下载文件42
2.6 综合案例 . 44
2.6.1 使用联合国数据库44
2.6.2 获取北京市2014 年常住人口数量 . 46
第3 章 清理和分析数据49
3.1 脏数据(Dirty Data)50
3.1.1 脏数据的成因50
3.1.2 脏数据的表现形式 . 51
3.2 数据清理分析工具52
3.3 清理脏数据 . 53
3.3.1 安装OpenRefine 环境 . 53
3.3.2 创建项目(导入数据) . 55
3.3.3 主界面 . 56
3.3.4 归类(Facet)57
3.3.5 文本过滤器(Text filter) . 63
3.3.6 编辑单元格(Edit cells)64
3.3.7 编辑列(Edit column) . 66
3.3.8 变换(Transpose)68
3.3.9 排序(Sort)70
3.3.10 视图(View)71
3.3.11 导出(Export)71
3.3.12 函数 . 72
3.3.13 正则表达式77
3.4 使用Excel 简单分析数据81
3.4.1 常用函数81
3.4.2 筛选 . 84
3.4.3 数据透视表(PivotTable) . 85
3.4.4 在透视表里做筛选86
3.5 数据清理原则 . 87
3.6 综合案例 . 87
3.6.1 查找重复记录87
3.6.2 使用OpenRefine 清理数据 . 90
第4 章 数据质量分析102
4.1 数据合理性 . 103
4.1.1 内部合理性104
4.1.2 外部合理性109
4.2 游程检验 112
4.3 抽样分析 113
4.4 缺失数据的预测 115
4.5 时间序列预测 117
4.5.1 移动平均117
4.5.2 指数平滑119
4.5.3 回归 . 122
第5 章 数据分析及可视化工具应用124
5.1 数据可视化 . 125
5.2 数据可视化工具 . 125
5.3 Tableau 下载和安装 . 128
5.4 创建第一个可视化作品 . 131
5.4.1 首次数据连接131
5.4.2 首次创建多种图表132
5.4.3 首次创建仪表板135
5.4.4 首次输出136
5.5 连接数据 . 138
5.5.1 在图表中查看数据138
5.5.2 简单数据连接139
5.5.3 连接多个数据源141
5.5.4 连接一个数据源的多个表 . 143
5.5.5 提取数据144
5.5.6 数据类型146
5.6 数据视图 . 146
5.6.1 工作表和工作簿147
5.6.2 数据视图界面148
5.6.3 文本表、压力图和突出显示表 . 149
5.6.4 条形图150
5.6.5 线图 . 157
5.6.6 地图 . 163
5.6.7 饼图 . 166
5.6.8 树地图169
5.6.9 填充气泡图170
5.6.10 甘特图171
5.6.11 散点图173
5.6.12 双组合图和面积图175
5.6.13 盒须图179
5.6.14 标靶图180
5.7 高级分析 . 182
5.7.1 函数 . 182
5.7.2 聚合 . 184
5.7.3 注释 . 184
5.7.4 计算 . 186
5.7.5 简单预测194
5.7.6 合计 . 194
5.7.7 参数 . 196
5.7.8 分层 . 199
5.7.9 分组 . 200
5.7.10 页面功能区201
5.7.11 数据桶和直方图 . 203
5.7.12 背景图像204
5.8 仪表板 . 206
5.8.1 创建仪表板206
5.8.2 布局容器210
5.8.3 编辑仪表板211
5.8.4 仪表板和工作表212
5.8.5 操作 . 213
5.9 故事 . 219
5.10 作品发布 . 221
5.10.1 工作簿和工作表221
5.10.2 发布 . 222
5.10.3 打印 . 223
5.11 Tableau 作品 . 225
5.11.1 Is Your Country Good at Reducing CO2 Emissions 225
5.11.2 Cabs in NYC . 227
5.11.3 Analysis of Twitter Hashtags Following the Paris Attacks228
第6 章 其他数据新闻制作工具231
6.1 图表绘制工具库ECharts . 232
6.1.1 获取ECharts232
6.1.2 绘制一个简单的图表. 232
6.1.3 编辑图表234
6.1.4 图表中的地图237
6.2 标签云 . 241
6.2.1 标签云制作工具Tagul242
6.2.2 标签云制作工具Tagxedo245
6.3 关系图制作工具PeoplePlotr . 249
6.4 语义万维网服务Open Calais257
6.5 HTML5 网站制作模板 . 261
|
內容試閱:
|
前 言
写作目的
在大数据环境下,数据新闻作为一种新的报道形态受到了读者的认可和追捧。新闻工作者需要全面提升自己的专业技能,其中之一就是具备数据分析和数据呈现的能力。但无论是国内还是国外,大多数新闻工作者缺乏数据方面的知识,因为传统高校缺乏相应的课程,市场上也难以寻觅相应的图书。
现有的数据新闻方面的书籍主要研究的是数据新闻理论、点评数据新闻作品,缺少数据新闻的实战流程。本书正是为学习数据新闻制作的读者准备的,通过阅读本书可以快速获取数据、清理数据、可视化数据,独立完成数据新闻制作的全过程。
本书内容
第1 章 数据新闻概述。本章阐述数据新闻的概念、数据新闻制作人才的需求、数据新闻技术要求和制作流程,最后展示并点评了近期数据新闻奖的获奖作品。
第2 章 获取数据。本章讲解获取数据的方法和具体途径,包括政府、国际组织与第三方机构数据的获取,政府信息公开数据的申请,众包搜集数据及搜索引擎的使用,最后讲解数据的存储和综合案例。
第3 章 清理和分析数据。本章分析脏数据的成因及其表现形式,基于OpenRefine 环境清理脏数据,使用Excel 简单分析数据,阐明数据清理原则和综合案例。
第4 章 数据质量分析。本章讲解评估数据合理性的外部合理性检查和内部合理性检查,以及游程检验、抽样分析、缺失数据的预测和时间序列预测。
第5 章 数据分析及可视化工具应用。本章阐明了数据可视化的概念,介绍常见的数据可视化工具。以Tableau 为例详细讲解了数据可视化的具体方法,包括创建第一个可视化作品、连接数据、数据视图、高级分析、仪表板、故事和发布,最后分析了三个优秀的Tableau 作品。
第6 章 其他数据新闻制作工具。本章讲解其他常用的数据新闻制作工具,包括图表绘制工具库ECharts、标签云、关系图制作工具PeoplePlotr 和语义万维网服务Open Calais,最后使用 HTML5 网站制作模板将所有作品整合。
本书内容全面翔实,操作细节清楚,案例典型,方便学习,素材丰富,有利于强化读者操作能力,提高专业技能。
数据新闻实战
IV
读前准备
? Windows 操作系统,互联网接入,IE 浏览器、Firefox 浏览器和Chrome 浏览器。
? 文本编辑器,如Windows 中的记事本或者EditPlus。
? 微软Office 工具包中的Excel,版本不限。
? 安装Java 环境,具体参见本书3.3.1 小节。
? 如果是大中专学生,可以提前申请Tableau 免费一年使用权。排版约定
? 菜单项的名称放在【】中,如单击【分析】|【创建计算字段】选项。
? 代码使用Courier New 字体并增加阴影,例如:series: [{ 设置系列列表name: '销量', 设置图表系列的名称type: 'line', 设置图表类型是折线图data: [5, 20, 36, 10, 10, 20]设置系列数据}]
? 使用 表示快捷键的组合,如按【Ctrl】 【C】快捷键。
? 没有特殊说明时,单击和双击分别表示鼠标左键单击和双击。
感谢
首先,感谢购买本书的读者。您的阅读是我写作动力的源泉。数据新闻发展较快,真心希望您在阅读本书后提出宝贵的意见,我们可以共同分析探讨问题,为后续图书的撰写提供素材和经验。
其次,感谢我的爱人和父母。在写作最困难的时候,是他们为我鼓劲加油,支持我完成书稿。父母年迈,但很开心地戴着老花镜帮我校稿。
最后,感谢电子工业出版社的张慧敏编辑、杨嘉媛编辑和戴新编辑,她们的严谨细致和辛勤努力保证了本书的顺利出版。
联系作者
如果您对本书有想法和意见,或者想与作者探讨某个问题,请发送电子邮件至yinghliu@163.com。
刘英华
2016 年8 月于北京
数据新闻制作入门级工具
图片、音频和视频编辑工具。数据新闻中往往包含多媒体信息,对新闻图片处理的常用操`作包括裁剪照片;加光和减光,即将照片的局部加黑或增亮;修掉照片上由于洗印、扫描、打印而产生的污点Excel 是所有数据新闻工作者必须掌握的一个入门级数据分析工具。它用于对数据做简单的清理,如使用函数、分类汇总清理重复记录(案例参见本书3.6.1 小节查找重复记录),使用函数删除多余空格、转换数据类型等,使用分类汇总、排序、数据透视表等完成初步数据分析。
可视化工具Tableau。Tableau 是一个数据发现、数据分析和数据叙事的数据可视化平台,是数据新闻工作者的入门可视化工具。Tableau 将数据运算与美观的图表完美地结合在一起。它方便地实现了数据连接,无需编程就可以创建地图、条形图、散点图和其他图形,还可以制作数据地图等。
可视化工具Datawrapper。Datawrapper 是一个在线工具,它可以帮助用户创建交互式数据可视化。这是一个开源工具,能在几分钟内创建可嵌入的图标。因为它是开源的,任何人都可以贡献代码,软件会不断改进。它还包含一个非常棒的图表库,可以查看其他人使用Datawrapper 完成的作品。
2.数据新闻制作高级工具
爬虫编写工具Python。Python 是一种面向对象、语法简洁、大小写敏感的解释型计算机程序设计语言。它完全免费,简单易学。如果完成同一个任务,假设用C 语言要编写1000 行代码,用Java可能只需要编写100 行,而用Python 可能只需要编写20 行。读者可以到官方网站1下载程序并安装,有很多文档资源也可以在官方网站上找到。制作数据新闻时经常使用Python 语言编写爬虫程序,从其他网站抓取数据。对数据新闻工作者来说,学习Python 语言的难点是理解正则表达式,可以参考本书3.3.13 小节正则表达式。
数据分析工具SPSS。SPSS(Statistical Product and Service Solutions)是世界上最早的统计分析软件之一,它是一个专业级的统计分析、数据挖掘、预测分析和决策支持任务的软件产品。数据新闻制作中经常使用SPSS 实现专业级统计分析和统计图标。有时候获取的数据存在乱码,导入SPSS中再导出即可完美解决该问题。例如,本书2.5.4 小节结构化信息表格化中使用import.io 下载抓取CSV 的文件有乱码,就可以用上述方法解决。
数据分析工具R 语言。R 语言是用于统计分析、绘图的语言和操作环境。R 语言属于GNU 系统,是完全免费而且源代码开放的软件,数据新闻制作时经常使用R 语言进行统计计算、数据分析和统计制图。
数据可视化工具D3.js。JavaScript 是一种直译式脚本语言,而D3.js 是一个JavaScript 库,可以通过数据来操作文档。D3.js 通过使用HTML、SVG 和CSS 把数据鲜活、形象地展现出来。D3.js 严格遵循Web 标准,所以其开发的程序兼容主流浏览器。数据新闻制作时经常使用D3.js 编写代码,实现在网络上呈现数据的可视化效果,如使用D3.js 制作动态图表和漂亮的动态网页地图等。学习D3.js 对非IT 人士的确是个挑战,但ECharts2完美地解决了这个问题。ECharts 开源来自百度商业前
端数据可视化团队,基于HTML5 Canvas,是一个纯JavaScript 图表库,提供直观、生动、可交互、可个性化定制的数据可视化图表。用户可以简单修改代码完成数据可视化,内容详见本书6.1 节图表绘制工具库ECharts。
|
|