大數據技術基礎及應用教程(Linux+Hadoop+Spark)

大數據技術基礎及應用教程(Linux+Hadoop+Spark)

作者: 井超 樊永生等
出版社: 機械工業
出版在: 2022-07-29
ISBN-13: 9787111710912
ISBN-10: 7111710916
裝訂格式: 平裝
總頁數: 228 頁





內容描述


本書從大數據技術相關概念出發,系統介紹了構建大數據平台的相關技術,並在此基礎上進行離線數據分析和在線數據分析。
全書共三篇,分為7章,內容包括技術基礎篇、分佈式集群篇、平台構建篇,
第壹篇包括大數據技術概述、大數據分析技術,
第二篇包括Linux技術基礎、Hadoop技術基礎及構建Hadoop集群、Spark技術基礎及構建Spark集群,
第三篇包括構建基於Spark的實時交易數據統計平台、構建基於Hadoop的離線電商大數據分析平台。
本書以理論為基礎,以實例為引導,完整闡述瞭如何從無到有搭建大數據平台,並在此平台基礎上進行應用。
本書配套資源豐富,包括教學PPT、所有程序的源代碼、相關集群虛擬機、
擴展學習視頻、課後練習題及答案,可方便授課教師教學及學生自學。
本書可作為高校數據科學與大數據技術等相關專業的教材,也可作為對大數據技術感興趣的相關人員的參考用書。


目錄大綱


目錄
前言
第一篇  技術基礎篇
第1章  大數據技術概述2
1.1  大數據的基本概念2
1.1.1  大數據的產生階段2
1.1.2  大數據的特徵2
1.1.3  大數據在各個領域的應用3
1.1.4  大數據的核心技術和計算模式3
1.2  分佈式技術與集群4
1.2.1  分佈式技術概述4
1.2.2  分佈式大數據集群概述4
1.3  大數據技術生態圈7
1.3.1  Linux操作系統7
1.3.2  Hadoop生態系統9
1.3.3  Spark對Hadoop的完善13
本章小結13
本章練習13
第2章  大數據分析技術15
2.1  大數據分析流程及相關技術15
2.1.1  數據採集與預處理15
2.1.2  大數據存儲16
2.1.3  大數據分析與挖掘17
2.1.4  數據可視化18
2.2  大數據分析常用方法18
2.2.1  數理統計分析18
2.2.2  聚類分析18
2.2.3  分類分析19
2.2.4  回歸分析19
2.3  數據分析基礎工具19
2.3.1  數據採集工具—Selenium和
PhantomJS19
2.3.2  數據清洗工具—Kettle20
2.3.3  數據存儲工具—MongoDB和
MySQL21
2.3.4  機器學習工具—Scikit-learn23
2.3.5  數據可視化工具—Matplotlib、
PyEcharts、Superset23
本章小結25
本章練習26 
第二篇  分佈式集群篇
 
第3章  Linux技術基礎28
3.1  用戶與組管理28
3.1.1  用戶管理相關命令28
3.1.2  組管理相關命令29
3.1.3  其他命令29
3.2  文件與目錄管理29
3.2.1  常用文件操作命令29
3.2.2  目錄操作命令31
3.2.3  改變文件或目錄訪問權限32
3.2.4  文件備份和壓縮33
3.3  進程管理與作業控制33
3.3.1  進程查看34
3.3.2  進程調度34
3.4  磁盤存儲管理34
3.4.1  磁盤管理命令35
3.4.2  存取命令35
3.5  系統管理與常用網絡命令35
3.5.1  系統管理35
3.5.2  常用網絡命令36
3.6  在線幫助系統36
3.7  實踐:Linux操作系統的
安裝與部署37
3.7.1  Linux的安裝和卸載37
3.7.2  局域網主機間遠程複製文件/
目錄38
3.7.3  XML文件介紹38
3.7.4  VMware安裝及CentOS系統
環境準備40
3.7.5  克隆虛擬機48
3.7.6  配置主機名50
3.7.7  配置網絡IP地址51
本章小結53
本章練習53
第4章  Hadoop技術基礎及構建
Hadoop集群55
4.1  Hadoop技術基礎55
4.1.1  Hadoop的組成55
4.1.2  Hadoop的運行模式62
4.1.3  HDFS文件的存取63
4.1.4  Hadoop集群的環境配置64
4.1.5  Hadoop集群的搭建65
4.1.6  啟動Hadoop集群69
4.2  ZooKeeper技術基礎及部署70
4.2.1  ZooKeeper簡介70
4.2.2  ZooKeeper的安裝部署73
4.2.3  Leader選舉機制75
4.2.4  ZooKeeper客戶端訪問集群
(命令行操作方式)82
4.3  HDFS與YARN高可用技術
基礎84
4.3.1  HDFS高可用的工作機制84
4.3.2  HDFS高可用配置85
4.3.3  YARN高可用的工作機制93
4.3.4  YARN高可用配置94
4.4  實踐:HDFS及MapReduce的
應用示例98
4.4.1  讀寫HDFS文件98
4.4.2  MapReduce操作 1:二次排序105
4.4.3  MapReduce操作 2:計數器110
4.4.4  MapReduce操作 3:Join操作113
本章小結119
本章練習119
第5章  Spark技術基礎及構建
Spark集群121
5.1  Spark核心機制121
5.1.1  Spark基本原理121
5.1.2  Spark系統架構122
5.1.3  Spark Shell操作123
5.2  Hive原理及實踐124
5.2.1  Hive定義124
5.2.2  Hive架構124
5.2.3  Hive表分類及查詢操作126
5.3  HBase原理及實踐130
5.3.1  HBase定義130
5.3.2  HBase集群架構130
5.3.3  HBase數據模型131
5.4  Kafka原理及實踐133
5.4.1  Kafka定義133
5.4.2  Kafka消息隊列133
5.4.3  Kafka基礎架構134
5.5  Flume原理及實踐135
5.5.1  Flume簡介135
5.5.2  Flume基礎架構135
5.6  實踐:搭建基於Spark的實時
大數據平台137
5.6.1  Spark安裝部署137
5.6.2  MySQL安裝部署140
5.6.3  Hive安裝部署141
5.6.4  HBase安裝部署143
5.6.5  Kafka安裝部署147
5.6.6  Flume安裝部署149
5.6.7  Spark集群典型應用150
本章小結158
本章練習158
 
第三篇  平台構建篇
 
第6章  構建基於Spark的實時交易
數據統計平台161
6.1  系統需求與架構161
6.1.1  系統背景介紹161
6.1.2  系統功能需求162
6.1.3  系統架構設計162
6.2  Redis簡介163
6.2.1  Redis數據庫的作用163
6.2.2  Redis部署與啟動163
6.2.3  Redis常用命令165
6.3  系統開發流程166
6.4  數據獲取模塊實現174
6.4.1  模擬訂單數據174
6.4.2  向Kafka集群發送訂單數據175
6.5  數據分析與處理模塊實現178
6.5.1  分析訂單數據178
6.5.2  生成結果182
6.6  數據可視化模塊實現182
6.6.1  搭建Web開發環境183
6.6.2  實現數據展示功能185
6.6.3  可視化平台展示192
本章小結192
本章練習192
第7章  構建基於Hadoop的離線
電商大數據分析平台194
7.1  系統需求與架構194
7.1.1  系統背景介紹194
7.1.2  系統功能需求195
7.1.3  系統架構設計195
7.2  數據採集模塊實現196
7.2.1  商品信息爬取196
7.2.2  調試分析210
7.3  數據處理與存儲模塊實現211
7.3.1  信息分析與處理211
7.3.2  商品信息存儲220
7.3.3  調試分析222
7.4  數據可視化模塊實現222
7.4.1  使用Superset連接MySQL
數據庫223
7.4.2  調試分析223
本章小結226
本章練習227
參考文獻228




相關書籍

網絡服務器搭建、配置與管理——Linux(RHEL 8/CentOS 8)(微課版)(第4版)

作者 楊雲 魏堯 王雪蓉

2022-07-29

Linux 設備驅動開發 (Linux Device Driver Development)

作者 John Madieu 袁鵬飛 劉壽永譯

2022-07-29

C++ 程式設計導論, 3/e (Introduction to Programming with C++, 3/e)

作者 Y. Daniel Liang 蔡明志 譯

2022-07-29