0 0 0

Spark高级数据分析.第2版.pdf

七里安黥
2天前 110
我用夸克网盘分享了「 Spark高级数据分析.第2版.pdf」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
作者: [美] 桑迪 · 里扎/[美] 于里 · 莱瑟森/[英] 肖恩 · 欧文/[美] 乔希 · 威尔斯 出版社: 人民邮电出版社 译者: 龚少成/邱 鑫 出版年: 2018-5 页数: 226 定价: 69.00元 装帧: 平装 ISBN: 9787115482525

内容简介

作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。 本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。 第2版根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。 本书涵盖模式如下: ● 音乐推荐和Audioscrobbler数据集 ● 用决策树算法预测森林植被 ● 基于K均值聚类进行网络流量异常检测 ● 基于潜在语义算法分析维基百科 ● 用GraphX分析伴生网络 ● 对纽约出租车轨迹进行空间和时间数据分析 ● 通过蒙特卡罗模拟来评估金融风险 ● 基因数据分析和BDG项目 ● 用PySpark和Thunder分析神经图像数据

作者简介

【作者简介】 桑迪·里扎(Sandy Ryza),Spark项目代码提交者、Hadoop项目管理委员会委员,Time Series for Spark项目创始人。曾任Cloudera公司高级数据科学家,现就职于Remix公司从事公共交通算法开发。 于里·莱瑟森(Uri Laserson),MIT博士毕业,致力于用技术解决遗传学问题,曾利用Hadoop生态系统开发了可扩展的基因组学和免疫学技术。目前是西奈山伊坎医学院遗传学助理教授,曾任Cloudera公司核心数据科学家。 肖恩·欧文(Sean Owen),Spark、Mahout项目代码提交者,Spark项目管理委员会委员。现任Cloudera公司数据科学总监。 乔希·威尔斯(Josh Wills),Crunch项目发起人,现任Slack公司数据工程主管。曾任Cloudera公司高级数据科学总监。 【译者简介】 龚少成 现任万达科技集团数据工程部总经理,清华大学自动化系研究生毕业,国内专注企业级大数据平台建设的先驱者之一,曾经在Intel和Cloudera公司担任大数据技术负责人,Cloudera公司认证大数据培训讲师。 邱鑫 毕业于武汉大学,目前就职于英特尔亚太研发有限公司,是Intel大数据团队高级工程师。主要研究大数据与深度学习技术,是基于Spark的深度学习框架BigDL的核心贡献者。

网友热评

Hiteration: Scala语言, 变成PySpark会更适合我

图书目录

推荐序  ix 译者序  xi 序  xiii 前言  xv 第1章 大数据分析  1 1.1数据科学面临的挑战  2 1.2认识ApacheSpark  4 1.3关于本书  5 1.4第2版说明  6 第2章 用Scala和Spark进行数据分析  8 2.1数据科学家的Scala  9 2.2Spark编程模型  10 2.3记录关联问题  10 2.4小试牛刀:Sparkshell和SparkContext  11 2.5把数据从集群上获取到客户端  16 2.6把代码从客户端发送到集群  19 2.7从RDD到DataFrame  20 2.8用DataFrameAPI来分析数据  23 2.9DataFrame的统计信息  27 2.10DataFrame的转置和重塑  29 2.11DataFrame的连接和特征选择  32 2.12为生产环境准备模型  33 2.13评估模型  35 2.14小结  36 第3章 音乐推荐和Audioscrobbler数据集  37 3.1数据集  38 3.2交替最小二乘推荐算法  39 3.3准备数据  41 3.4构建第一个模型  44 3.5逐个检查推荐结果  47 3.6评价推荐质量  50 3.7计算AUC  51 3.8选择超参数  53 3.9产生推荐  55 3.10小结  56 第4章 用决策树算法预测森林植被  58 4.1回归简介  59 4.2向量和特征  59 4.3样本训练  60 4.4决策树和决策森林  61 4.5Covtype数据集  63 4.6准备数据  64 4.7第一棵决策树  66 4.8决策树的超参数  72 4.9决策树调优  73 4.10重谈类别型特征  77 4.11随机决策森林  79 4.12进行预测  81 4.13小结  82 第5章 基于K均值聚类的网络流量异常检测  84 5.1异常检测  85 5.2K均值聚类  85 5.3网络入侵  86 5.4KDDCup  1999数据集  86 5.5初步尝试聚类  87 5.6k的选择  90 5.7基于SparkR的可视化  92 5.8特征的规范化  96 5.9类别型变量  98 5.10利用标号的熵信息  99 5.11聚类实战  100 5.12小结  102 第6章 基于潜在语义分析算法分析维基百科  104 6.1文档-词项矩阵  105 6.2获取数据  106 6.3分析和准备数据  107 6.4词形归并  109 6.5计算TF-IDF  110 6.6奇异值分解  111 6.7找出重要的概念  113 6.8基于低维近似的查询和评分  117 6.9词项-词项相关度  117 6.10文档-文档相关度  119 6.11文档-词项相关度  121 6.12多词项查询  122 6.13小结  123 第7章 用GraphX分析伴生网络  124 7.1对MEDLINE文献引用索引的网络分析  125 7.2获取数据  126 7.3用ScalaXML工具解析XML文档  128 7.4分析MeSH主要主题及其伴生关系  130 7.5用GraphX来建立一个伴生网络  132 7.6理解网络结构  135 7.6.1连通组件  136 7.6.2度的分布  138 7.7过滤噪声边  140 7.7.1处理EdgeTriplet  141 7.7.2分析去掉噪声边的子图  142 7.8小世界网络  144 7.8.1系和聚类系数  144 7.8.2用Pregel计算平均路径长度  145 7.9小结  150 第8章 纽约出租车轨迹的空间和时间数据分析  151 8.1数据的获取  152 8.2基于Spark的第三方库分析  153 8.3基于EsriGeometryAPI和Spray的地理空间数据处理  153 8.3.1认识EsriGeometryAPI  154 8.3.2GeoJSON简介  155 8.4纽约市出租车客运数据的预处理  157 8.4.1大规模数据中的非法记录处理  159 8.4.2地理空间分析  162 8.5基于Spark的会话分析  165 8.6小结  168 第9章 基于蒙特卡罗模拟的金融风险评估  170 9.1术语  171 9.2VaR计算方法  172 9.2.1方差-协方差法  172 9.2.2历史模拟法  172 9.2.3蒙特卡罗模拟法  172 9.3我们的模型  173 9.4获取数据  173 9.5数据预处理  174 9.6确定市场因素的权重  177 9.7采样  179 9.8运行试验  182 9.9回报分布的可视化  185 9.10结果的评估  186 9.11小结  188 第10章 基因数据分析和BDG项目  190 10.1分离存储与模型  191 10.2用ADAMCLI导入基因学数据  193 10.3从ENCODE数据预测转录因子结合位点  201 10.4查询1000Genomes项目中的基因型  207 10.5小结  210 第11章 基于PySpark和Thunder的神经图像数据分析  211 11.1PySpark简介  212 11.2Thunder工具包概况和安装  215 11.3用Thunder加载数据  215 11.4用Thunder对神经元进行分类  221 11.5小结  225 作者介绍  226 封面介绍  226

Spark高级数据分析.第2版.pdf"网盘下载"

版权说明

1、本站不保存、不存储任何实质资源,以上二维码指向为网盘资源链接,其内容归对应版权方所有
2、如有侵犯版权的情况,请点击下面举报/反馈按钮反馈或发送邮件76556431@qq.com投诉说明情况
3、我们核实后将第一时间删除相关页面内容,谢谢理解和配合

这些人下载过 (12)
  • 北阁
  • 因为太美被罚5块
  • 回眸一笑很倾城
  • 谈笑风云
  • 白首有我共你
  • 可怜至今不知是谁用情太深
  • 酷女撩瘾
  • 已渡
  • 我矮得可以让你抬不起头
  • 得不到的不如不要
  • 孤影行
  • 我喂女神袋盐
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!