新書推薦:
《
第十三位陪审员
》
售價:HK$
53.8
《
微观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:HK$
155.7
《
Python贝叶斯深度学习
》
售價:HK$
89.4
《
启微·狂骉年代:西洋赛马在中国
》
售價:HK$
78.4
《
有趣的中国古建筑
》
售價:HK$
67.0
《
十一年夏至
》
售價:HK$
76.2
《
如何打造成功的商业赛事
》
售價:HK$
89.5
《
万千教育学前·透视学前儿童的发展:解析幼儿教师常问的那些问题
》
售價:HK$
58.2
|
內容簡介: |
本书详细介绍了计算传播学与网络爬虫技术的应用,由浅入深地介绍了计算传播学与网络爬虫的概念、发展与应用,重点介绍了八爪鱼网络爬虫工具。本书内容包括导论、网络爬虫概念综述、网络爬虫技术原理、八爪鱼软件概述,以及4个与计算传播学相关的实战案例。本书体系完整、内容丰富,尤为注重实战教学。
本书可以作为普通高校计算传播学的基础教材,也可作为职业培训教育机构的教材及相关技术人员的参考书。
|
目錄:
|
第1章 导论 1
1.1 计算传播学概述 1
1.1.1 计算传播学的发展 2
1.1.2 计算传播学的概念 2
1.1.3 计算传播学的基本内容 3
1.1.4 计算传播学的应用 3
1.2 大数据与人工智能 4
1.2.1 大数据的概念与发展历程 5
1.2.2 人工智能的概念与发展历程 6
1.2.3 大数据和人工智能与计算传播学的关系 7
1.3 计算传播学与网络爬虫的关系 7
本章小结 8
第2章 网络爬虫概念综述 9
2.1 网络爬虫简介 9
2.1.1 概念与作用 9
2.1.2 应用场景 10
2.2 反爬虫技术 11
2.3 网络爬虫的算法分析 15
2.3.1 深度优先搜索算法 16
2.3.2 广度优先搜索算法 16
2.3.3 优先搜索算法 17
2.4 网络爬虫种类 17
2.4.1 通用网络爬虫 17
2.4.2 主题网络爬虫 19
2.4.3 增量式网络爬虫 20
2.4.4 深层网络爬虫 21
2.5 网络爬虫工具 22
2.5.1 八爪鱼 22
2.5.2 Python 23
2.5.3 Puppeteer 25
本章小结 27
第3章 网络爬虫技术原理 28
3.1 Chrome开发者工具 28
3.1.1 Elements面板 30
3.1.2 Network面板 31
3.2 网址分析 33
3.2.1 HTTP介绍 34
3.2.2 URL地址分析 37
3.3 网页构成 38
3.3.1 HTML 38
3.3.2 CSS与JavaScript 42
3.3.3 网页类型 45
3.4 模拟登录与验证码 46
3.4.1 模拟登录场景介绍 46
3.4.2 登录信息与Cookie简介 46
3.4.3 模拟登录验证处理 56
3.5 代理 58
3.5.1 IP地址 58
3.5.2 代理的作用 59
3.5.3 代理的获取与使用 59
3.5.4 使用八爪鱼软件设置代理IP地址 61
3.6 解析网页内容 62
3.6.1 XPath介绍 63
3.6.2 XPath实例 67
本章小结 70
第4章 八爪鱼软件概述 71
4.1 八爪鱼软件简介 71
4.1.1 八爪鱼功能介绍 72
4.1.2 八爪鱼工作界面介绍 73
4.2 采集模式 78
4.2.1 模板采集模式 78
4.2.2 智能模式 82
4.2.3 自定义模式 85
4.3 步骤参数设置 89
4.3.1 打开网页 90
4.3.2 点击元素 92
4.3.3 提取数据 93
4.3.4 循环 95
4.3.5 判断条件 97
4.3.6 输入文本 98
4.3.7 识别验证码 99
4.3.8 切换下拉选项 100
4.3.9 移动鼠标到元素上 101
本章小结 102
第5章 基于关键字的新闻网页爬取 103
5.1 新闻简介 103
5.1.1 新闻的价值 104
5.1.2 新闻的特点 104
5.1.3 新闻的作用 105
5.2 新闻网页采集需求分析 105
5.2.1 人民网简介 105
5.2.2 需求介绍 108
5.3 新闻网页采集流程设计 109
5.3.1 新建任务 109
5.3.2 搜索 110
5.3.3 自动识别搜索页 113
5.3.4 自动识别详情页 119
5.3.5 字段介绍 122
5.3.6 采集设置 123
5.4 新闻网页采集数据结果 125
本章小结 125
第6章 基于关键字的微信公众号爬取 126
6.1 微信公众号简介 126
6.1.1 微信公众号的作用 126
6.1.2 微信公众号与新媒体传播 127
6.2 微信公众号采集需求分析 128
6.3 微信公众号采集流程设计 129
6.3.1 新建任务 129
6.3.2 登录 130
6.3.3 关键字列表循环 131
6.3.4 设置翻页循环 133
6.3.5 循环列表 136
6.3.6 点击进入正文 139
6.3.7 获取正文信息 140
6.3.8 采集设置 143
6.4 微信公众号采集数据结果查看 144
本章小结 144
第7章 微博博文评论爬取 145
7.1 微博简介 145
7.1.1 微博的传播特征 145
7.1.2 微博的作用 147
7.2 微博评论采集需求分析 148
7.2.1 微博可获取数据 148
7.2.2 网址分析 149
7.2.3 流程与步骤 150
7.3 微博评论采集流程设计 150
7.3.1 新建任务 150
7.3.2 判断是否要登录 151
7.3.3 循环翻页 157
7.3.4 循环列表 159
7.3.5 获取正文信息 163
7.3.6 启动采集 166
7.4 微博评论采集数据结果查看 167
本章小结 168
第8章 网络舆情热点数据的获取与追踪 169
8.1 背景说明 169
8.1.1 舆情热点发展的过程 169
8.1.2 舆情热点的获取 170
8.2 热点数据采集需求分析 173
8.2.1 百度指数 173
8.2.2 百度搜索风云榜 176
8.3 热点数据采集流程设计 178
8.3.1 百度指数 178
8.3.2 百度搜索风云榜 184
8.4 热点数据采集数据结果查看 192
本章小结 193
参考文献 194
|
內容試閱:
|
随着数字化进程的推进,数据不仅改变了人类的生活方式和传播行为,还改变了人类观察和认识世界的方式。人工智能与大数据驱动的计算范式延伸至社会科学领域。受传统传播学定量研究范式、数据科学和网络科学的影响,计算传播学方兴未艾,已经成为计算社会科学的重要分支学科之一。 当前,进行计算传播学研究的一个重要条件是海量的互联网数据。虽然搜索引擎可以帮助人们寻找到这些数据,但有局限性。面对结构越来越复杂且信息量越来越密集的海量数据,计算传播学的研究者需要能够使用具有高度自主性、个性化的网络爬虫技术收集网上的行为数据。 本书以网络爬虫技术为主题,采用深入浅出的叙述方式,简明扼要地阐述了计算传播学的发展、概念与应用,以及网络爬虫技术的概念、类型、工具,并对网络爬虫技术的基本原理、网页构成、解析方式方法等做了进一步的阐述,目的是让广大读者掌握网络爬虫技术相关的知识,从而能够在计算传播学的研究中不受网络爬虫技术的限制。 在编写原则上,本书既注重网络爬虫技术的系统性和理论性,又通过八爪鱼软件详细讲解了计算传播学网页数据爬取的项目案例。读者在学习的过程中,不仅能收获理论知识,还能动手实操,从而真正掌握网络爬虫技术的方法。 本书的出版得到中央引导地方科技发展资金项目(桂科AD20238065)、广西自然科学基金项目(2018GXNSFDA050014)及广西高等教育本科教学改革工程项目(2019JGA227)、广西壮族自治区信息中心、广西壮族自治区大数据研究院、广西“八桂学者”建设工程专项经费、广西高等学校高水平创新团队及卓越学者计划、南宁师范大学教材建设基金资助。本书由徐健担任主编,由梁颖涛、郑振锋、覃冠玉和王春峰担任副主编。陈鸣、陈羽峰、郭琳、林秀梅、邓科、周飞伶、陈喜凤、陈秋凌、胡中全参与编写。具体编写分工如下:第1章由徐健和陈鸣编写;第2章由梁颖涛和陈羽峰编写;第3章由郑振锋和郭琳编写;第4章由覃冠玉和林秀梅编写;第5章由王春峰和邓科编写;第6章由周飞伶和陈喜凤编写;第7章由陈秋凌和胡中全编写;第8章由邓科和胡中全编写。 南师智能科技有限公司针对本书的内容从产业的角度给予指导性建议,并为本书项目案例的结构提供了部分素材。深圳视界信息技术有限公司提供了八爪鱼软件技术环境支持,在此一并致谢。 由于编者水平有限,加之时间仓促,书中难免存在疏漏和不足之处,恳请广大读者批评指正。 编 者 2021年5月
|
|