0 0 0

利用Python进行数据分析(原书第2版).epub

海边做诗意
14天前 200
我用夸克网盘分享了「利用Python进行数据分析(原书第2版).epub」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
利用Python进行数据分析 (原书第2版) 作者: [美] Wes McKinney 出版社: 机械工业出版社 出品方: 华章科技 原作名: Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython 译者: 徐敬一 出版年: 2018-7 页数: 489 定价: 119.00元 装帧: 平装 丛书: O'Reilly动物系列(中译本) ISBN: 9787111603702

内容简介

本书由pandas项目创始人Wes McKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas、NumPy、IPython和Jupyter,并增加大量实际案例,可以帮助你高效解决一系列数据分析问题。 第2版中的主要更新包括: • 所有的代码,包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7) • 更新了Python第三方发布版Anaconda和其他所需Python包的安装指引 • 更新pandas库到2017年的新版 • 新增一章,关于更多高级pandas工具和一些使用提示 • 新增statsmodels和scikit-learn的简明使用介绍

作者简介

Wes McKinney,Python 开源数据分析库 pandas 的创始人。一名活跃的演讲者,也是 Python 数据社区和 Apache 软件基金会的 Python/C 开源开发者。目前在纽约从事软件架构师工作。

网友热评

不孤单的猫: 用了10多天看完啦,读起来很流畅,结构很清晰。 猴子: 这本书是数据分析必读书了,但是需要注意的是,看这本书前提是你要会Python基础语法,所以不建议零基础的小伙伴一上来就看这本书。建议结合这个资料一起学习效果更好https://www.bilibili.com/cheese/play/ss34977 大朵奇葩花۶: 看了此书,再回头看之前写project 从 StackOverflow 搬下来的看不懂的 code 都能看懂了(

图书目录

译者序 前言 第1章准备工作 1.1本书内容 1.1.1什么类型的数据 1.2为何利用Python进行数据分析 1.2.1Python作为胶水 1.2.2解决“双语言”难题 1.2.3为何不使用Python 1.3重要的Python库 1.3.1NumPy 1.3.2pandas 1.3.3matplotlib 1.3.4IPython与Jupyter 1.3.5SciPy 1.3.6scikit-learn 1.3.7statsmodels 1.4安装与设置 1.4.1Windows 1.4.2Apple(OSX和macOS) 1.4.3GNU/Linux 1.4.4安装及更新Python包 1.4.5Python2和Python3 1.4.6集成开发环境和文本编辑器 1.5社区和会议 1.6快速浏览本书 1.6.1代码示例 1.6.2示例数据 1.6.3导入约定 1.6.4术语 第2章Python语言基础、IPython及Jupyternotebook 2.1Python解释器 2.2IPython基础 2.2.1运行IPython命令行 2.2.2运行Jupyternotebook 2.2.3Tab补全 2.2.4内省 2.2.5%run命令 2.2.6执行剪贴板中的程序 2.2.7终端快捷键 2.2.8关于魔术命令 2.2.9matplotlib集成 2.3Python语言基础 2.3.1语言语义 2.3.2标量类型 2.3.3控制流 第3章内建数据结构、函数及文件 3.1数据结构和序列 3.1.1元组 3.1.2列表 3.1.3内建序列函数 3.1.4字典 3.1.5集合 3.1.6列表、集合和字典的推导式 3.2函数 3.2.1命名空间、作用域和本地函数 3.2.2返回多个值 3.2.3函数是对象 3.2.4匿名(Lambda)函数 3.2.5柯里化:部分参数应用 3.2.6生成器 3.2.7错误和异常处理 3.3文件与操作系统 3.3.1字节与Unicode文件 3.4本章小结 第4章NumPy基础:数组与向量化计算 4.1NumPyndarray:多维数组对象 4.1.1生成ndarray 4.1.2ndarray的数据类型 4.1.3NumPy数组算术 4.1.4基础索引与切片 4.1.5布尔索引 4.1.6神奇索引 4.1.7数组转置和换轴 4.2通用函数:快速的逐元素数组函数 4.3使用数组进行面向数组编程 4.3.1将条件逻辑作为数组操作 4.3.2数学和统计方法 4.3.3布尔值数组的方法 4.3.4排序 4.3.5唯一值与其他集合逻辑 4.4使用数组进行文件输入和输出 4.5线性代数 4.6伪随机数生成 4.7示例:随机漫步 4.7.1一次性模拟多次随机漫步 4.8本章小结 第5章pandas入门 5.1pandas数据结构介绍 5.1.1Series 5.1.2DataFrame 5.1.3索引对象 5.2基本功能 5.2.1重建索引 5.2.2轴向上删除条目 5.2.3索引、选择与过滤 5.2.4整数索引 5.2.5算术和数据对齐 5.2.6函数应用和映射 5.2.7排序和排名 5.2.8含有重复标签的轴索引 5.3描述性统计的概述与计算 5.3.1相关性和协方差 5.3.2唯一值、计数和成员属性 5.4本章小结 第6章数据载入、存储及文件格式 6.1文本格式数据的读写 6.1.1分块读入文本文件 6.1.2将数据写入文本格式 6.1.3使用分隔格式 6.1.4JSON数据 6.1.5XML和HTML:网络抓取 6.2二进制格式 6.2.1使用HDF5格式 6.2.2读取MicrosoftExcel文件 6.3与WebAPI交互 6.4与数据库交互 6.5本章小结 第7章数据清洗与准备 7.1处理缺失值 7.1.1过滤缺失值 7.1.2补全缺失值 7.2数据转换 7.2.1删除重复值 7.2.2使用函数或映射进行数据转换 7.2.3替代值 7.2.4重命名轴索引 7.2.5离散化和分箱 7.2.6检测和过滤异常值 7.2.7置换和随机抽样 7.2.8计算指标/虚拟变量 7.3字符串操作 7.3.1字符串对象方法 7.3.2正则表达式 7.3.3pandas中的向量化字符串函数 7.4本章小结 第8章数据规整:连接、联合与重塑 8.1分层索引 8.1.1重排序和层级排序 8.1.2按层级进行汇总统计 8.1.3使用DataFrame的列进行索引 8.2联合与合并数据集 8.2.1数据库风格的DataFrame连接 8.2.2根据索引合并 8.2.3沿轴向连接 8.2.4联合重叠数据 8.3重塑和透视 8.3.1使用多层索引进行重塑 8.3.2将“长”透视为“宽” 8.3.3将“宽”透视为“长” 8.4本章小结 第9章绘图与可视化 9.1简明matplotlibAPI入门 9.1.1图片与子图 9.1.2颜色、标记和线类型 9.1.3刻度、标签和图例 9.1.4注释与子图加工 9.1.5将图片保存到文件 9.1.6matplotlib设置 9.2使用pandas和seaborn绘图 9.2.1折线图 9.2.2柱状图 9.2.3直方图和密度图 9.2.4散点图或点图 9.2.5分面网格和分类数据 9.3其他Python可视化工具 9.4本章小结 第10章数据聚合与分组操作 10.1GroupBy机制 10.1.1遍历各分组 10.1.2选择一列或所有列的子集 10.1.3使用字典和Series分组 10.1.4使用函数分组 10.1.5根据索引层级分组 10.2数据聚合 10.2.1逐列及多函数应用 10.2.2返回不含行索引的聚合数据 10.3应用:通用拆分-应用-联合 10.3.1压缩分组键 10.3.2分位数与桶分析 10.3.3示例:使用指定分组值填充缺失值 10.3.4示例:随机采样与排列 10.3.5示例:分组加权平均和相关性 10.3.6示例:逐组线性回归 10.4数据透视表与交叉表 10.4.1交叉表:crosstab 10.5本章小结 第11章时间序列 11.1日期和时间数据的类型及工具 11.1.1字符串与datetime互相转换 11.2时间序列基础 11.2.1索引、选择、子集 11.2.2含有重复索引的时间序列 11.3日期范围、频率和移位 11.3.1生成日期范围 11.3.2频率和日期偏置 11.3.3移位(前向和后向)日期 11.4时区处理 11.4.1时区的本地化和转换 11.4.2时区感知时间戳对象的操作 11.4.3不同时区间的操作 11.5时间区间和区间算术 11.5.1区间频率转换 11.5.2季度区间频率 11.5.3将时间戳转换为区间(以及逆转换) 11.5.4从数组生成PeriodIndex 11.6重新采样与频率转换 11.6.1向下采样 11.6.2向上采样与插值 11.6.3使用区间进行重新采样 11.7移动窗口函数 11.7.1指数加权函数 11.7.2二元移动窗口函数 11.7.3用户自定义的移动窗口函数 11.8本章小结 第12章高阶pandas 12.1分类数据 12.1.1背景和目标 12.1.2pandas中的Categorical类型 12.1.3使用Categorical对象进行计算 12.1.4分类方法 12.2高阶GroupBy应用 12.2.1分组转换和“展开”GroupBy 12.2.2分组的时间重新采样 12.3方法链技术 12.3.1pipe方法 12.4本章小结 第13章Python建模库介绍 13.1pandas与建模代码的结合 13.2使用Patsy创建模型描述 13.2.1Patsy公式中的数据转换 13.2.2分类数据与Patsy 13.3statsmodels介绍 13.3.1评估线性模型 13.3.2评估时间序列处理 13.4scikit-learn介绍 13.5继续你的教育 第14章数据分析示例 14.1从Bitly获取1.USA.gov数据 14.1.1纯Python时区计数 14.1.2使用pandas进行时区计数 14.2MovieLens1M数据集 14.2.1测量评价分歧 14.3美国1880~2010年的婴儿名字 14.3.1分析名字趋势 14.4美国农业部食品数据库 14.52012年联邦选举委员会数据库 14.5.1按职业和雇主的捐献统计 14.5.2捐赠金额分桶 14.5.3按州进行捐赠统计 14.6本章小结 附录A高阶NumPy A.1ndarray对象内幕 A.1.1NumPydtype层次结构 A.2高阶数组操作 A.2.1重塑数组 A.2.2C顺序和Fortran顺序 A.2.3连接和分隔数组 A.2.4重复元素:tile和repeat A.2.5神奇索引的等价方法:take和put A.3广播 A.3.1在其他轴上广播 A.3.2通过广播设定数组的值 A.4高阶ufunc用法 A.4.1ufunc实例方法 A.4.2使用Python编写新的ufunc方法 A.5结构化和记录数组 A.5.1嵌套dtype和多维字段 A.5.2为什么要使用结构化数组 A.6更多关于排序的内容 A.6.1间接排序:argsort和lexsort A.6.2其他的排序算法 A.6.3数组的部分排序 A.6.4numpy.searchsorted:在已排序的数组寻找元素 A.7使用Numba编写快速NumPy函数 A.7.1使用Numba创建自定义numpy.ufunc对象 A.8高阶数组输入和输出 A.8.1内存映射文件 A.8.2HDF5和其他数组存储选择 A.9性能技巧 A.9.1连续内存的重要性 附录B更多IPython系统相关内容 B.1使用命令历史 B.1.1搜索和复用命令历史 B.1.2输入和输出变量 B.2与操作系统交互 B.2.1shell命令及其别名 B.2.2目录书签系统 B.3软件开发工具 B.3.1交互式调试器 B.3.2对代码测时:%time和%timeit B.3.3基础分析:%prun和%run-p B.3.4逐行分析函数 B.4使用IPython进行高效代码开发的技巧 B.4.1重载模块依赖项 B.4.2代码设计技巧 B.5高阶IPython特性 B.5.1使你自定义的类对IPython友好 B.5.2配置文件与配置 B.6附录小结

利用Python进行数据分析(原书第2版).epub"网盘下载"

版权说明

1、本站不保存、不存储任何实质资源,以上二维码指向为网盘资源链接,其内容归对应版权方所有
2、如有侵犯版权的情况,请点击下面举报/反馈按钮反馈或发送邮件[email protected]投诉说明情况
3、我们核实后将第一时间删除相关页面内容,谢谢理解和配合

这些人下载过 (12)
  • 琴声伴耳
  • 无人缘
  • 别向往社会
  • 鲜明
  • 笑往刀里藏
  • 收穫
  • 清风熄灯
  • 无与伦比的大傻吊
  • 众里寻你
  • 及格
  • 骑着詹姆欺扣篮
  • 多么亢奋
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!