新書推薦:
《
我们身边的小鸟朋友:手绘观鸟笔记
》
售價:HK$
78.2
《
拯救免疫失衡
》
售價:HK$
55.8
《
收尸人
》
售價:HK$
72.8
《
大模型应用开发:RAG入门与实战
》
售價:HK$
89.4
《
不挨饿快速瘦的减脂餐
》
售價:HK$
67.0
《
形而上学与存在论之间:费希特知识学研究(守望者)(德国古典哲学研究译丛)
》
售價:HK$
110.7
《
卫宫家今天的饭9 附画集特装版(含漫画1本+画集1本+卫宫士郎购物清单2张+特制相卡1张)
》
售價:HK$
132.2
《
化妆品学原理
》
售價:HK$
55.8
|
內容簡介: |
如何定义大数据?如何应用大数据?什么是大数据思维?如何学习大数据?如何构建大数据平台?如何在行业中应用大数据?这一系列的问题,是当前在大数据热的时代背景里,让人感到非常迷茫的问题。许云峰、徐华、张妍、王杨君、马瑞编*的《大数据技术及行业应用》直面这些问题,在从业者角度解答以上问题,希望能给大数据行业的初学者提供一些帮助。
|
目錄:
|
第1章 大数据相关概念 1.1 什么是大数据? 1.2 大数据有多大? 1.3 大数据是一种思维方式 1.4 大数据思维的应用案例 1.5 大数据是如何产生的? 1.6 美国和中国的大数据产业生态系统 1.7 如何学习大数据技术 本章小结 参考文献 第2章 搭建私有大数据处理平台 2.1 FreeBSD操作系统安装 2.2 基础软件安装 2.2.1 安装Java运行环境 2.2.2 安装bash 2.3 Hadoop安装配置 2.3.1 系统规划 2.3.2 配置conf/masters、con.f/slaves文件 2.3.3 Hadoop安装 2.4 Hadoop开发环境配置 2.4.1 编译Hadoopeclipseplugin-1.1.2.jar插件 2.4.2 eclipse配置 2.4.3 测试 2.5 Hadoop升级 2.6 Zookeeper安装 2.6.1 在FreeBSD上安装Zookeeper 2.6.2 启动并测试Zookeeper 2.7 HBase安装配置 2.8 FreeBSD上网配置 2.8.1 VPN上网配置 2.8.2 网页认证上网配置 2.9 配置杀毒软件 本章小结 第3章 大数据平台虚拟化解决方案 3.1 Ubuntu上安装Docker 3.1.1 Docker简介 3.1.2 Docker安装 3.1.3 Docker镜像相关命令 3.1.4 Docker容器相关命令 3.1.5 Dockerfile创建镜像 3.1.6 Docker实现Spark集群 3.1.7 Docker集中化Web界面管理平台shipyard 3.1.8 DockerUI 3.2 OpenStack搭建 3.2.1 下载工具和镜像 3.2.2 配置网桥 3.2.3 安装fuel 3.2.4 安装OpenStack平台 3.2.5 使用OpenStack平台 本章小结 参考文献 第4章 大数据平台解决方案 4.1 大数据平台比较 4.2 CDH大数据平台搭建 4.2.1 Cloudera Manager安装 4.2.2 添加服务 4.3 HDP大数据平台搭建 4.3.1 部署Ambari 4.3.2 用Amban_web部署HDP平台 本章小结 第5章 Spark在大数据处理中的应用 5.1 Spark集群搭建 5.1.1 Scala在Ubuntu下的安装和配置 5.1.2 Spark集群搭建 5.1.3 Spark集群启动测试 5.2 Sparkshell统计社交网络中节点的度 5.2.1 启动HDFS和Spark 5.2.2 运行Sparkshell 5.2.3 统计社交网络中节点的度 5.3 Spark GraphX 5.3.1 属性图 5.3.2 图操作 5.3.3 构建图 5.3.4 图计算相关算法 5.3.5 GraphX图计算实例 本章小结 参考文献 第6章 大数据技术在环境科学中的应用 6.1 大气环境科学的数值模式的介绍 6.1.1 气象模式 6.1.2 区域空气质量模式 6.2 高分辨率实时观测的大数据 本章小结 参考文献 第7章 大数据在DrugBank药物数据库聚类方面的应用 7.1 简介 7.2 开发环境及编程语言 7.3 算法设计 7.3.1 算法设计流程 7.3.2 相似度的计算 7.4 算法实现 7.4.1 文件的解析 7.4.2 对靶标、作用酶的分析 7.4.3 对分子中原子百分比的处理过程 7.4.4 结果的整合 7.4.5 最终结果展示 本章小结 参考文献 第8章 大数据在电子商务数据分析中的应用 8.1 研究现状 8.2 相关技术及概念 8.2.1 网络爬虫 8.2.2 HtmlUnit工具包 8.2.3 Mahout 8.2.4 朴素贝叶斯算法 8.2.5 文档向量 8.2.6 TF-IDF改进加权 8.2.7 中文分词 8.3 需求分析 8.3.1 系统功能 8.3.2 系统界面 8.4 概要设计 8.4.1 系统模块设计 8.4.2 数据库设计 8.5 详细设计 8.5.1 用户登录模块 8.5.2 爬虫管理模块 8.5.3 算法管理模块 8.5.4 用户管理模块 8.6 系统测试 8.6.1 训练集准备 8.6.2 新数据准备 8.6.3 训练模型 8.6.4 数据分类 8.6.5 分类结果分析 本章小结 参考文献 第9章 大数据技术在社交网络研究中的应用 9.1 社区发现研究简介 9.2 社区发现相关研究工作 9.2.1 相关工作 9.2.2 研究动机 9.3 模型与问题的形式化 9.3.1 社区森林模型 9.3.2 问题形式化 9.4 骨干度算法 9.4.1 骨干度算法框架 9.4.2 算法的时间复杂度 9.4.3 算法比较 9.5 实验分析 9.5.1 数据集 9.5.2 一个特定人际关系网络的测试 9.5.3 Zachary的空手道俱乐部测试 9.5.4 美国大学橄榄球队 9.5.5 安然电子邮件公司数据集 9.5.6 DBLP合作网络 9.5.7 结论 本章小结 参考文献 第10章 大数据技术在文本挖掘和情感分类中的应用 10.1 研究综述 lO.1.1 基于产品特征的观点挖掘研究 10.1.2 产品评论结构化信息抽取方法 10.1.3 评论信息分类相关研究方法 10.2 评论文本的结构化信息抽取 10.2.1 产品特征抽取 10.2.2 基于关联规则抽取评论的隐式特征 10.2.3 基于监督学习抽取评论的隐式特征 10.3 情感分类研究综述 10.3.1 基于词典与语言规则进行情感分类 10.3.2 观点挖掘结果归纳 10.4 算法评估结果与分析 10.4.1 隐式特征抽取实验结果及分析 10.4.2 篇章 粒度情感分类实验结果及分析 10.4.3 语句粒度情感分类实验结果及分析 本章小结 参考文献 第11章 大数据技术在电力系统中的应用 11.1 一种云可视化机网协调控制响应特性数据挖掘方法 11.1.1 技术领域 11.1.2 背景技术 11.1.3 方案内容 11.2 基于电力数据分析的河北南网电力市场化风险对冲方法 11.2.1 电网对发电侧市场化风险对冲分析 11.2.2 电网对用电侧市场化风险对冲分析 11.2.3 基于方差偏离规律的统计套利对冲方法 本章小结 附录 FreeBSD操作系统安装
|
|