新書推薦:
《
积极心理学
》
售價:HK$
55.8
《
自由,不是放纵
》
售價:HK$
54.9
《
甲骨文丛书·消逝的光明:欧洲国际史,1919—1933年(套装全2册)
》
售價:HK$
277.8
《
剑桥日本戏剧史(剑桥世界戏剧史译丛)
》
售價:HK$
201.6
《
中国高等艺术院校精品教材大系:材料的时尚表达??服装创意设计
》
售價:HK$
76.2
《
美丽与哀愁:第一次世界大战个人史
》
售價:HK$
143.4
《
国家豁免法的域外借鉴与实践建议
》
售價:HK$
188.2
《
大单元教学设计20讲
》
售價:HK$
76.2
|
內容簡介: |
本书基于具有实用性和普适性的案例来编写,将数据的收集、获取、预处理、分析与可视化贯穿其中。根据当前高职高专教学实际需要,结合企业实际需求,采用“理实结合”的思路,以“案例导入”的形式详细介绍了大数据实训项目。包括使用requests 库获取天气信息,然后通过JupyterNotebook进行分析处理;使用Scrapy 框架分页获取诗词网站的信息,使用jieba 库对诗词的内容进行分词,然后在JupyterNotebook 中对文本数据进行处理;在Pycharm 中编写代码获取店面信息,然后在JupyterNotebook 中对信息进行数据聚合与分组;使用requests 库获取页面的HTML 标签,使用XPath 路径表达式获取解析之后的首页面的数据信息,再使用循环语句获取所有页面的数据信息。
|
關於作者: |
于晓荷,北京政法职业学院信息媒体学院教师,主要讲授的课程有《Python大数据分析及应用》《Python技术基础》、《静态网页设计与制作》等。主编或参编的教材有《Dreamweaver网页设计案例教程》《网页设计与制作Dreamweaver CS3》《办公自动化案例教程》《ASP.NET动态网页设计案例教程C#版》和《 NUKE影视后期合成技能》。多次带领学生参加技能大赛获得佳绩,本人获评国赛优秀指导教师称号。
|
目錄:
|
项目一 大数据分析开发环境的搭建
知识链接
一、数据分析的概念
二、数据分析的应用
三、数据分析的流程
四、数据分析前的准备
项目实施
一、Python 的下载及安装
二、Pycharm 的下载及安装
三、Anaconda 的下载及安装
四、Jupyter Notebook 的使用
项目拓展
一、插件的安装
二、常用的插件
项目二 Beautiful Soup 库和Matplotlib 库的使用
知识链接
一、Requests 库
二、Beautiful Soup 库
三、Pandas 库的concat() 函数
四、数据的聚合与分组运算
五、Matplotlib 库
六、bar() 函数
七、plot() 函数
项目实施
一、新建项目
二、安装Requests 库
三、使用Requests 库获取页面HTML 标签
四、使用Beautiful Soup 库对页面进行解析
五、将获取的信息保存为csv 格式文件
六、在Jupyter 中处理数据并进行可视化分析
项目拓展
一、find_all() 方法速查表(见表2 - 2)
二、find() 方法速查表(见表2 - 3)
三、select() 方法速查表(见表2 - 4)
四、其他方法
五、HTML 速查表(见表2 - 6)
项目三 Scrapy 框架与Matplotlib 库中bar 函数的使用
知识链接
一、Scrapy 框架
二、jieba 库
三、Matplotlib 库中pyplot 模块的bar 函数
项目实施
一、创建Scrapy 项目
二、创建爬虫文件
三、参数配置
四、编写爬虫文件,获取第1 页的20 条诗词信息
五、分页信息的获取
六、爬取信息的保存
七、在Jupyter 中处理文本并进行可视化分析
项目拓展
一、创建Scrapy 项目和爬虫文件
二、配置settings.py 文件
三、编写items.py 文件
四、编写pipelines.py 文件
五、编写爬虫文件
项目四 Selenium 库和Matplotlib 库的使用
知识链接
一、Selenium 库
二、Selenium 库的常用操作
三、Pandas 库的sort_values() 函数
四、Matplotlib 库的pie() 函数
五、使用loc 和iloc 进行索引
项目实施
一、新建项目
二、安装Selenium 库
三、下载Chrome 浏览器和浏览器驱动
四、使用Selenium 库获取第1 页的文本信息
五、获取前3 个页面的页面文本信息
六、将获取的信息保存为csv 格式文件
七、在Jupyter 中处理数据并进行可视化分析
项目五 XPath 和Matplotlib 库中barh 函数的使用
知识链接
一、lxml 库
二、XPath
三、Xpath 的路径表达式
四、Matplotlib 库的barh() 函数
项目实施
一、新建项目
二、安装lxml 库和requests 库
三、使用requests 库获取第一页的HTML 标签信息
四、用etree 模块的HTML() 方法对获取的标签进行解析
五、使用XPath 提取解析后的HTML 中的文本信息
六、获取所有页面的信息
七、将获取的信息保存为csv 格式文件
八、在Jupyter 中处理数据并进行可视化分析
项目六 pyecharts 库的使用
知识链接 1
一、pyecharts 概述
二、柱状图的绘制
三、折线图的绘制
四、饼图和环形图的绘制
五、多图叠加
项目实施
一、使用柱状图可视化“平均每股收益(元)”和“平均每股净资产(元)
二、 使用柱状图与折线图对“营业收入(元)”“营业成本(元)”
“ 营业利润(元)”进行数据可视化分析
三、使用饼图可视化2018 至2021 年的毛利率
项目拓展
一、其他类型图表的绘制
二、组合图的创建
|
內容試閱:
|
项目一
大数据分析开发环境的搭建——大数据分析概述及准备工作
项目导读
随着计算机技术全面融入社会生活,网络数据实现了爆发性增长,驱使着人们进入一个崭新的大数据时代。数据分析技术可以帮助人们从海量数据中获得潜藏的、有价值的信息,预测事物发展趋势,未雨绸缪。不管从事什么工作,掌握了数据分析技术,往往更具岗位竞争力。在进行数据分析之前,需要搭建开发环境,常用的开发环境有Pycharm 和Anaconda 等。
项目要点
● 数据分析的概念。
● 数据分析的应用场景。
● 数据分析的流程。
● 常用的数据分析工具。
● 数据分析的开发环境搭建。
● 数据分析的常用类库。
职业素养
依据数据分析得出的结论,可以通过前端技术、网页开发技术或移动开发技术等进行二次发布和展示,既可以进行技术经验的交流与资源的分享,又可以起到取其精华去其糟粕并弘扬正能量的作用。
项目分析
首先在Python、Pycharm 和Anaconda 的官网上下载安装文件,并按照Python、Pycharm 和Anaconda 的顺序进行安装; 在Pycharm 中新建项目, 使用Anaconda中常用的命令查看版本、包文件列表、安装包、更新包和删除包等,最后启动JupyterNotebook,在其中编写代码并调试。
知识链接
一、数据分析的概念
数据分析是指使用适当的统计分析方法对收集来的大量数据进行分析,从中提取有用的信息,形成结论,并加以详细研究和概括总结的过程。
数据分析的目的是在海量的、看似杂乱无章的数据信息集中提炼出有用的数据,以找出研究对象的内在规律。
|
|