0 0 0

探寻数据背后的逻辑:R语言数据挖掘之道.epub

温书来了
5天前 130
我用夸克网盘分享了「探寻数据背后的逻辑:R语言数据挖掘之道.epub」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
探寻数据背后的逻辑:R语言数据挖掘之道 作者: 宋云生/张坚洪/黎新年 出版社: 电子工业出版社 出版年: 2018-8 页数: 432 定价: 89.00元 装帧: 平装 ISBN: 9787121338618

内容简介

数据分析、数据挖掘的本质是探寻数据背后的逻辑,挖掘人们的欲望、需求、态度等。《探寻数据背后的逻辑:R语言数据挖掘之道》不仅仅教会读者如何掌握数据挖掘相关技能,更教会读者如何从数据挖掘结果中分析出更深层次的逻辑。 《探寻数据背后的逻辑:R语言数据挖掘之道》主要介绍使用R语言进行数据挖掘的过程。具体内容包括R软件的安装及R语言基础知识、数据探索、数据可视化、回归预测分析、时间序列分析、算法选择流程及十大算法介绍、数据抓取、社交网络关系分析、情感分析、话题模型、推荐系统,以及数据挖掘在生物信息学中的应用。另外,《探寻数据背后的逻辑:R语言数据挖掘之道》还介绍了R脚本优化相关内容,使读者的数据挖掘技能更上一层楼。 《探寻数据背后的逻辑:R语言数据挖掘之道》适合从事数据挖掘、数据分析、市场研究的工作者及学生群体,以及对数据挖掘和数据分析感兴趣的初级读者

作者简介

宋云生,中山大学生命科学学院硕士毕业,混迹于医药商业、汽车制造等多个行业,先后从事市场研究、BI(商业智能)、质量控制等多个领域的数据研究和落地应用,现主攻自然语言理解领域的实际应用。 张坚洪,华南农业大学数学与应用数学本科毕业,先后从事汽车、金融等行业,主要工作方向为数据仓库、数据挖掘在互联网金融领域的应用。 黎新年,中山大学生命科学学院博士毕业,主要研究方向为基因组的进化、群体演化和系统发育。

网友热评

那鲁: 其实学语言本身不难,难得是构建用语言去做分析建模的逻辑思维,这本和其他编程相比,不是告诉你怎么编一段代码的,而是编代码后的逻辑思考应该怎样。受益匪浅。

图书目录

第1章万事不只开头难1 1.1工欲善其事,必先利其器:安装1 1.1.1安装R和RStudio1 1.1.2安装数据包3 1.1.3数据包加载、卸载、升级,查看帮助文档5 1.1.4什么样的R包值得相信7 1.2了解R的对象8 1.2.1如何进行常见的算术运算8 1.2.2R语言的三大数据类型10 1.2.3向量及其运算12 1.2.4因子变量鲜有人知的秘密15 1.2.5矩阵相关运算及神奇的特征值17 1.2.6数据框及其筛选、替换、添加、排序、去重18 1.2.7与数组(array)相比,表单(list)的用处更加广泛22 1.2.8如何进行数据结构之间的转化23 1.3R语言的重器:函数26 1.3.1自编函数26 1.3.2有用的R字符串函数29 1.4控制流在R语言里只是一种辅助工具31 1.4.1判断32 1.4.2循环33 1.5数据的读入与输出35 1.5.1常见数据格式的输入/输出(CSV、TXT、RDATA、XLSX)35 1.5.2数据库连接:Oracle、MySQL及Hive37 1.5.3乱码就像马赛克一样让人讨厌39 第2章数据探索,招招都是利器41 2.1不要在工作后才认识“脏数据”41 2.1.1以老板信服的方式处理缺失数据42 2.1.2异常值预警48 2.1.3字符处理正则表达式不再是天书49 2.2数据透视、数据整形、关联融合与批量处理50 2.2.1还忘不掉Excel的数据透视表吗50 2.2.2你能给数据做整形手术吗:long型和wide型52 2.2.3关联合并表54 2.2.4数据批处理:R语言里最重要的一个函数家族:*pply55 2.3一招完成数据探索报告58 2.4拯救你的很多时候是基础理论61 2.4.1参数检验及非参检验62 2.4.2学了很多算法却忘了方差分析68 2.4.3多因素方差分析及协方差作用70 2.4.4很多熟悉的数据处理方法已经成笑话,工具箱该换了73 第3章从商务气质的数据可视化说起84 3.1说说数据可视化的专业素养84 3.1.1数据可视化历史上有多少背影等你仰望84 3.1.2商务图表应该具有哪些素质87 3.1.3那些你不知道的图表误导性伎俩94 3.1.4如何快速解构著名杂志的图表98 3.2ggplot2包:一个价值8万美元的态度103 3.2.1一张图学会ggplot2包的绘图原理105 3.2.2基础绘图科学:ggplot2包的主题函数继承关系图(关系网络图)127 3.2.3基础图表一网打尽132 3.2.4古老的地图焕发新颜151 3.3将静态图转为D3交互图表:plotly156 3.4从基础到进阶的变形图表157 3.4.1马赛克图(分类变量描述性分析)157 3.4.2Sankey图和chordDiagram图158 第4章分位数回归模拟股票指数风险通道163 4.1用线性回归预测医院的药品销售额163 4.2多项式回归及常见回归方程的书写168 4.3Lasso回归和回归评价的常见指标170 4.4分位数回归拟合上证指数风险通道175 第5章时间序列分析181 5.1时间序列分析:分析带有时间属性的数列181 5.2不是所有序列都叫时间序列181 5.3时间序列三件宝:趋势、周期、随机波动183 5.3.1趋势183 5.3.2周期184 5.3.3随机波动186 5.4预测分析186 5.4.1指数平滑法186 5.4.2ARIMA模型预测188 第6章选择什么算法也有一套流程192 6.1重新审视一下这几个模型192 6.1.1Logistic回归192 6.1.2我要的不是一棵树,而是整座森林:随机森林195 6.1.3神奇的神经网络196 6.2银行信用卡评估模型之变量筛选197 6.2.1变量构建197 6.2.2Logistic回归变量筛选198 6.2.3随机森林变量筛选203 6.2.4人工神经网络建模204 6.3必须面对的模型评估204 第7章深入浅出十大算法208 7.1C5.0算法208 7.1.1一个重要的概念:信息熵208 7.1.2非列变量选择的实例209 7.1.3C5.0算法的R实现210 7.2K-means算法212 7.2.1K-means算法的R实现212 7.2.2怎么确定聚类数213 7.3支持向量机(SVM)算法213 7.3.1通俗理解SVM214 7.3.2SVM的R实现216 7.4Apriori算法216 7.4.1举例说明Apriori217 7.4.2Apriori算法的R实现219 7.5EM算法220 7.5.1举例说明EM算法221 7.5.2EM算法的R实现222 7.6PageRank算法223 7.7AdaBoost算法224 7.8KNN算法与K-means算法有什么不同226 7.9NaiveBayes(朴素贝叶斯)算法227 7.10CART算法228 第8章数据抓取231 8.1数据挖掘工程师不可抱怨“巧妇难为无米之炊”231 8.2抓取股市龙虎榜数据,碰碰运气232 8.2.1了解XML和Html树状结构,才能庖丁解牛233 8.2.2了解RCurl包和网页解析函数234 8.2.3抓取股票龙虎榜235 8.2.4资金流入分析237 8.3抓取某家医药信息网站全站药品销售数据240 8.3.1所有医药公司名称一网打尽240 8.3.2为什么抓取数据时可以使用For循环242 8.3.3不要把代码写复杂244 8.3.4用Sankey数据流描绘医药市场份额流动248 第9章不可不说的社交网络关系254 9.1社交网络图254 9.1.1社交网络图告诉你和谁交朋友254 9.1.2这几个基本概念你需要抓牢256 9.1.3还有比本章任务更有趣的数据挖掘吗259 9.2你还要装备几个评价指标260 9.2.1社交网络大小260 9.2.2社交网络关系的完备性261 9.2.3节点实力评价262 9.3全球某货物贸易中的亲密关系263 9.3.1全球某货物贸易数据整合清洗263 9.3.2分组和社交网络中心267 9.3.3全球某货物交易圈:寻找各自的小伙伴270 9.4中国电影演艺圈到底有没有“圈”276 9.4.1数据清洗与整形276 9.4.2看看演艺圈长什么样279 9.4.3谁才是演艺圈的“关系户”281 9.4.4用Apriori算法查查演艺圈合作的“朋友”关系283 9.4.5给范冰冰推荐合作伙伴284 第10章情感分析:一种准确率高达90%的新方法?287 10.1情感分析及其应用:这是老生常谈287 10.1.1情感分析的用途287 10.1.2情感分析的方法论288 10.1.3有关情感分析的一些知识和方向289 10.2文本分析的基本武器:R290 10.2.1RJava包配置290 10.2.2Rwordseg包安装291 10.2.3jieba分词包安装291 10.3基于词典的情感分析的效果好过瞎猜吗292 10.3.1数据整理及词典构建292 10.3.2分词整理297 10.3.3情感指数计算299 10.3.4方法评价:优、缺点分析300 10.4监督式情感分析:挑选训练数据集是所有人心中的痛301 10.4.1TFIDF指标301 10.4.2构建语料库302 10.4.3随机森林模型304 10.4.4算法评估:随机森林应该建多少棵树308 10.5一种准确率高达90%的新方法316 10.5.1拿来主义的启示316 10.5.2情感词典和规则构建317 10.5.3朴素贝叶斯情感分析器329 10.5.4支持向量机(SVM)、决策树等情感分析器330 10.5.5如何选择支持SVM的核函数339 10.5.6情感分类器方法评价343 10.6谈谈情感分析的下一步思考344 第11章话题模型:很多牛人过不去的坎儿346 11.1话题模型与文案文本集346 11.1.1任务仍然是以处理dirtydata开始347 11.1.2数据清洗348 11.2话题模型中几个重要的数据处理步骤350 11.2.1中文分词350 11.2.2数据整型352 11.2.3怎样设定“阈值”353 11.3上帝有多少个色子:话题数量估计356 11.3.1通俗地说一遍话题模型356 11.3.2主题数估计与交叉检验357 11.3.3如何使用复杂度、对数似然值确定主题数362 11.4LDA话题模型竟然能输出这么多关系368 11.4.1输出主题——词汇及其概率矩阵368 11.4.2输出主题——文档归属及其概率矩阵369 11.5话题之间也有社交(衍生)关系吗370 11.6话题模型的几个强大衍生品372 11.6.1话题模型提取特征词372 11.6.2三种方法确定聚类的类数和文本层次聚类373 11.6.3漂亮的文本聚类树和批量绘制大类词云图375 第12章排名就是简单的推荐系统吗?378 12.1全球宜居城市综合实力排行378 12.1.1综合实力排行:专家法VS数据驱动法379 12.1.2怎么比较两个排名结果382 12.2协同过滤推荐系统383 12.2.1基于商品的协同过滤系统(ItemCF)386 12.2.2基于用户的系统过滤系统(UserCF)388 12.2.3推荐系统效果评比390 第13章生物信息学中的数据挖掘案例392 13.1生物信息学与R语言392 13.2生物信息学中常用的软件包392 13.2.1软件包简介392 13.2.2数据表示方式——对象类(class)393 13.2.3生物信息学R包简介:Bioconductor和CRAN393 13.2.4ape包394 13.2.5读懂你的对象404 13.2.6修改工具包中的函数以适应新情况407 第14章产品化:关于内存、速度和自动化411 14.1不同终端调用、自动化执行R脚本及参数传递411 14.2与速度、内存、并行相关的程序优化414

探寻数据背后的逻辑:R语言数据挖掘之道.epub"网盘下载"

版权说明

1、本站不保存、不存储任何实质资源,以上二维码指向为网盘资源链接,其内容归对应版权方所有
2、如有侵犯版权的情况,请点击下面举报/反馈按钮反馈或发送邮件76556431@qq.com投诉说明情况
3、我们核实后将第一时间删除相关页面内容,谢谢理解和配合

这些人下载过 (12)
  • 毕竟爱过
  • 青澜饮舟
  • 酒醉心
  • 守护在此方
  • 对不起我心软了
  • 相忘难吗
  • 有鬼
  • 等风走
  • 伤会慢慢愈合
  • 繁花落尽冬雪来
  • 毕竟我的初衷是让你快乐
  • 深刻
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!