新書推薦:
《
美国小史(揭秘“美国何以成为美国”,理解美国的经典入门读物)
》
售價:HK$
81.4
《
中国古代北方民族史丛书——东胡史
》
售價:HK$
87.8
《
巨人传(插图珍藏本)
》
售價:HK$
705.6
《
地下(村上春树沙林毒气事件的长篇纪实)
》
售價:HK$
76.7
《
偿还:债务与财富的阴暗面
》
售價:HK$
80.2
《
清华大学藏战国竹简校释(壹):《命训》诸篇
》
售價:HK$
94.4
《
封建社会农民战争问题导论(光启文库)
》
售價:HK$
68.4
《
虚弱的反攻:开禧北伐
》
售價:HK$
92.0
|
編輯推薦: |
本书在内容编排上采用“基础知识” “代码示例” “应用案例”的模式,涵盖了互联网数据采集中最主要的知识点,通过真实的案例使用场景,让读者能举一反三,从而将技术应用到实际工作中。
|
內容簡介: |
本书基于“基础知识” “代码示例” “应用案例”的模式编写,共包括 7个项目。项目 1主要介绍互联网数据采集的入门知识;项目 2通过一个入门级的简单案例,介绍互联网数据采集的基本流程;项目 3通过一个进阶的案例,详细介绍在没有给出官方开放 API的情况下,如何通过抓包工具获取 XHR请求地址;项目 4主要介绍 HTML文档数据的采集,对 HTML进行解析,以及如何提取数据的属性与文本;项目 5主要讲解批量获取数据的整理与合并技巧;项目 6重点讲解如何通过 Python的 pymysql库对 MySQL进行读写;项目 7给出了对半结构化数据进行处理的最佳实践。 本书内容条理清晰、案例丰富,可以作为职业院校大数据、人工智能、云计算等相关专业的教材,也可以作为行业从业人员的参考用书。
本书封面贴有清华大学出版社防伪标签,无标签者不得销售。
|
目錄:
|
项目 1.基础开发环境的安装与配置 1
任务 1.1.通过 Anaconda3安装基础开发环境 4
任务 1.2.常见问题与解决方案 13
项目总结 20
项目巩固与提高 20
项目 2.通过国务院新闻网官方 API获取时政新闻 21
任务 2.1.从开放的 API采集数据 23
任务 2.2.将数据存储到 Excel文件 27
项目总结 28
项目巩固与提高 29
项目 3.采集巨潮资讯网的股票财经信息 30
任务 3.1. Chrome网络抓包工具的使用 33
任务 3.2. 通过截获 XHR请求采集数据 35
任务 3.3. 采集更多信息 41
项目总结 44
项目巩固与提高 45
IV
互联网数据采集技术与应用
项目4 采集网络个性头像 46
任务4.1 采集图片数据 52
任务4.2 二进制数据的存储 60
项目总结76
项目巩固与提高77
项目5 获取全国主要城市未来5 天的天气情况 78
任务5.1 申请API 接口 79
任务5.2 采集天气数据 81
项目总结89
项目巩固与提高90
项目6 对多个MySQL 数据库进行数据整合 91
任务6.1 数据读取与合并 104
项目总结 109
项目巩固与提高 110
项目7 通过MongoDB 对半结构化Excel 数据进行高效存储 111
任务7.1 MongoDB 安装 113
任务7.2 MongoDB shell 工具 122
任务7.3 pymongo 的安装与使用 124
任务7.4 批量将Excel 数据存入MongoDB 128
项目总结 130
项目巩固与提高 130
参考文献 131
|
內容試閱:
|
当今社会已经进入大数据时代,大数据与我们的工作、学习息息相关,深刻影响着生活的方方面面。大数据技术主要涉及数据采集、数据清洗、数据存储、数据分析与挖掘、数据可视化等多个环节。数据采集是其中必不可少的基础环节,所有的大数据项目都要从数据采集开始。本书正是基于此编写而成。
本书在内容编写上采用“基础知识” “代码示例” “应用案例”的模式,内容涵盖了互联网数据采集中最主要的知识点,通过真实案例的使用场景和实现代码,帮助读者举一反三,从而将技术应用到实际工作中。
本书以 Windows系统的 jupyter notebook作为主要开发工具,对互联网数据采集技术进行讲解。全书共 7个项目,各项目主要内容如下。
项目 1主要介绍互联网数据采集的入门知识,包括数据采集的概念和用途、常用的采集工具与常用库、开发工具与开发环境搭建等。通过本项目的学习,读者将对互联网数据采集的技术与应用建立初步的认识。
项目 2通过一个入门级的案例,介绍了互联网数据采集的基本流程。通过本项目的学习,读者可以掌握通过 Python请求数据、解析数据、提取关键数据、存储数据的基本知识。
项目 3通过一个进阶的案例,详细介绍了在没有给出官方开放 API的情况下,如何通过抓包工具获取 XHR请求地址,并详细介绍了 json数据解析的小技巧。通过本项目的学习,读者可以掌握 Chrome抓包工具的使用与技巧,以及 json解析。
项目 4主要介绍了通过 Beautifulsoup库对 HTML进行解析,然后通过 CSS选择器定位数据,提取数据的属性与文本。通过本项目的学习,读者可以掌握 HTML文本解析与采集的方法,了解如何使用正则表达式提取数据,掌握二进制(图片、视频、音频)数据的下载方法及文本采集的技巧。
项目 5重点讲解了 API请求参数的附加,通过 Key获取权限,多城市数据的合并分析。通过本项目的学习,读者可以掌握批量获取数据的整理与合并技巧。
项目 6重点学习了如何通过 Python的 pymysql库对 MySQL进行读写,结合 Pandas库对读取到的数据进行合并,以及 merge方法合并和 concat方法合并。
项目 7是对半结构化数据进行处理的最佳实践,通过简洁但功能强大的代码实现真正的数据高效处理。本项目重点考查读者对全书工具与知识点的灵活应用。
本书以基础、实用为原则,知识点基本覆盖“1 X职业技能等级证书(数据采集)”的要求。数据采集需要读者掌握的基础知识非常广泛,但本书对读者要求并不高,读者仅需对 Python、MySQL等知识有基础的了解,即可轻松完成书中的案例与代码。
本书由北京市昌平职业学校的周林娥担任主编,方荣卫、王钰坤担任副主编。周林娥负责整体结构设计和全书统稿工作。参加编写工作的还有北京市昌平职业学校的郭英杰和陆少雄。本书的项目 1、项目 2、项目 5和项目 6由周林娥和方荣卫编写,项目 3和项目 7由王钰坤编写,项目 4由郭英杰和陆少雄编写。杭州新华三集团产教方案规划设计院院长于鹏、联想教育科技(北京)有限公司产品总监鲁维、百度科技有限公司产品经理陈灿和北京信息职业技术学院人工智能学院教学院长马东波在本书编写的过程中,提供了大量的参考案例,对本书的结构和内容提出了宝贵的建议,在此一并表示感谢。
由于编者的水平和能力有限,书中难免有疏漏和欠缺的地方,敬请广大读者提出宝贵的意见。
编者 2022年 6月
|
|