0 0 0

离线和实时大数据开发实战.epub

晨光熹微
9天前 180
我用夸克网盘分享了「离线和实时大数据开发实战.epub」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
离线和实时大数据开发实战 作者: 朱松岭 出版社: 机械工业出版社 出版年: 2018-5-1 页数: 223 定价: 59元 装帧: 平装 丛书: 大数据技术丛书 ISBN: 9787111596783

内容简介

本书分为三篇。第壹篇:从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;第二篇:介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;第三篇:集中介绍实时数据处理的各项技术,包含Storm、SparkSteaming、Flink、Beam等。

作者简介

阿里巴巴大数据开发专家撰写,源于十余年工作实践,只讲实用有效的“招式” 庖丁解牛式讲解离线和实时开发平台架构、原理实现、开发示例,涵盖查询与优化、建模、数仓开发、流计算开发等核心技术

网友热评

魑魅魍魉: 入门读物,了解大数据开发的相关生态和一些基本概念,没有深入实战与细节,不过对我来说够了。只看了工作中相关的一些章节 Bob Song: 终于看完了。实时计算后面要关注下FLINK,毕竟有阿里在后面推。

图书目录

前言 第一篇数据大图和数据平台大图 第1章数据大图2 1.1数据流程2 1.1.1数据产生3 1.1.2数据采集和传输5 1.1.3数据存储处理6 1.1.4数据应用7 1.2数据技术8 1.2.1数据采集传输主要技术9 1.2.2数据处理主要技术10 1.2.3数据存储主要技术12 1.2.4数据应用主要技术13 1.3数据相关从业者和角色14 1.3.1数据平台开发、运维工程师14 1.3.2数据开发、运维工程师15 1.3.3数据分析工程师15 1.3.4算法工程师16 1.3.5业务人员16 1.4本章小结17 第2章数据平台大图18 2.1离线数据平台的架构、技术和设计19 2.1.1离线数据平台的整体架构19 2.1.2数据仓库技术20 2.1.3数据仓库建模技术23 2.1.4数据仓库逻辑架构设计26 2.2实时数据平台的架构、技术和设计27 2.2.1实时数据平台的整体架构28 2.2.2流计算技术29 2.2.3主要流计算开源框架29 2.3数据管理32 2.3.1数据探查32 2.3.2数据集成33 2.3.3数据质量33 2.3.4数据屏蔽34 2.4本章小结35 第二篇离线数据开发:大数据开发的主战场 第3章Hadoop原理实践38 3.1开启大数据时代的Hadoop38 3.2HDFS和MapReduce优缺点分析40 3.2.1HDFS41 3.2.2MapReduce42 3.3HDFS和MapReduce基本架构43 3.4MapReduce内部原理实践46 3.4.1MapReduce逻辑开发46 3.4.2MapReduce任务提交详解47 3.4.3MapReduce内部执行原理详解48 3.5本章小结52 第4章Hive原理实践53 4.1离线大数据处理的主要技术:Hive53 4.1.1Hive出现背景53 4.1.2Hive基本架构55 4.2HiveSQL56 4.2.1Hive关键概念57 4.2.2Hive数据库59 4.2.3Hive表DDL60 4.2.4Hive表DML63 4.3HiveSQL执行原理图解65 4.3.1select语句执行图解66 4.3.2groupby语句执行图解67 4.3.3join语句执行图解69 4.4Hive函数73 4.5其他SQLonHadoop技术74 4.6本章小结76 第5章Hive优化实践77 5.1离线数据处理的主要挑战:数据倾斜77 5.2Hive优化79 5.3join无关的优化79 5.3.1groupby引起的倾斜优化79 5.3.2countdistinct优化80 5.4大表join小表优化80 5.5大表join大表优化82 5.5.1问题场景82 5.5.2方案1:转化为mapjoin83 5.5.3方案2:join时用casewhen语句84 5.5.4方案3:倍数B表,再取模join84 5.5.5方案4:动态一分为二87 5.6本章小结89 第6章维度建模技术实践90 6.1大数据建模的主要技术:维度建模90 6.1.1维度建模关键概念91 6.1.2维度建模一般过程95 6.2维度表设计96 6.2.1维度变化96 6.2.2维度层次99 6.2.3维度一致性100 6.2.4维度整合和拆分101 6.2.5维度其他102 6.3深入事实表104 6.3.1事务事实表104 6.3.2快照事实表106 6.3.3累计快照事实表107 6.3.4无事实的事实表108 6.3.5汇总的事实表108 6.4大数据的维度建模实践109 6.4.1事实表109 6.4.2维度表110 6.5本章小结110 第7章Hadoop数据仓库开发实战111 7.1业务需求112 7.2Hadoop数据仓库架构设计113 7.3Hadoop数据仓库规范设计114 7.3.1命名规范115 7.3.2开发规范115 7.3.3流程规范116 7.4FutureRetailer数据仓库构建实践118 7.4.1商品维度表118 7.4.2销售事实表120 7.5数据平台新架构——数据湖121 7.6本章小结123 第三篇实时数据开发:大数据开发的未来 第8章Storm流计算开发127 8.1流计算技术的鼻祖:Storm技术128 8.1.1Storm基本架构129 8.1.2Storm关键概念130 8.1.3Storm并发132 8.1.4Storm核心类和接口133 8.2Storm实时开发示例133 8.2.1语句生成spout134 8.2.2语句分割bolt135 8.2.3单词计数bolt136 8.2.4上报bolt136 8.2.5单词计数topology137 8.2.6单词计数并发配置139 8.3Storm高级原语Trident142 8.3.1Trident引入背景142 8.3.2Trident基本思路142 8.3.3Trident流操作143 8.3.4Trident的实时开发实例145 8.4Storm关键技术147 8.4.1spout的可靠性147 8.4.2bolt的可靠性148 8.4.3Storm反压机制149 8.5本章小结150 第9章SparkStreaming流计算开发151 9.1Spark生态和核心概念151 9.1.1Spark概览151 9.1.2Spark核心概念153 9.1.3Spark生态圈157 9.2Spark生态的流计算技术:SparkStreaming158 9.2.1SparkStreaming基本原理159 9.2.2SparkStreaming核心API159 9.3SparkStreaming的实时开发示例161 9.4SparkStreaming调优实践162 9.5SparkStreaming关键技术164 9.5.1SparkStreaming可靠性语义164 9.5.2SparkStreaming反压机制165 9.6本章小结166 第10章Flink流计算开发167 10.1流计算技术新贵:Flink167 10.1.1Flink技术栈168 10.1.2Flink关键概念和基本原理169 10.2FlinkAPI172 10.2.1API概览172 10.2.2DataStreamAPI173 10.3Flink实时开发示例180 10.4Flink关键技术详解182 10.4.1容错机制182 10.4.2水位线184 10.4.3窗口机制185 10.4.4撤回187 10.4.5反压机制187 10.5本章小结188 第11章Beam技术189 11.1意图一统流计算的Beam190 11.1.1Beam的产生背景190 11.1.2Beam技术191 11.2Beam技术核心:BeamModel193 11.3BeamSDK196 11.3.1关键概念196 11.3.2BeamSDK197 11.4Beam窗口详解202 11.4.1窗口基础202 11.4.2水位线与延迟数据203 11.4.3触发器204 11.5本章小结205 第12章StreamSQL实时开发实战206 12.1流计算SQL原理和架构207 12.2流计算SQL:未来主要的实时开发技术208 12.3StreamSQL209 12.3.1StreamSQL源表209 12.3.2StreamSQL结果表209 12.3.3StreamSQL维度表210 12.3.4StreamSQL临时表211 12.3.5StreamSQLDML211 12.4StreamSQL的实时开发实战212 12.4.1select操作212 12.4.2join操作214 12.4.3聚合操作218 12.5撤回机制221 12.6本章小结222 参考文献224

离线和实时大数据开发实战.epub"网盘下载"

版权说明

1、本站不保存、不存储任何实质资源,以上二维码指向为网盘资源链接,其内容归对应版权方所有
2、如有侵犯版权的情况,请点击下面举报/反馈按钮反馈或发送邮件76556431@qq.com投诉说明情况
3、我们核实后将第一时间删除相关页面内容,谢谢理解和配合

这些人下载过 (12)
  • mirage妄想
  • 眼睛很疲惫
  • 唯我独尊
  • 墨色年华
  • 没有梦想、何必远方
  • 地球两端
  • 爱腻
  • 我旳城府深到不见底
  • 温润如酒
  • 给不了她未来别毁她现在
  • 拥千山
  • 你会发光呦
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!