Python数据科学手册

从计算环境配置到机器学习实战书籍 大量示例 逐步讲解 举一反三 掌握用Scikit-Learn NumPy等工具高效存储 处理和分析数据 切实解决工作痛点

企业采购书卡&书目服务电话 028-83157118(法定工作日9:00-17:00)

定  价 :
¥109.00
文 轩 价 :
¥83.90 (7.7折)
配 送 至 :
中国四川省成都市
中国
四川省
成都市
请选择
    现在有货
    (配送详情)
    作  者 :
    (美)杰克·万托布拉斯(Jake VanderPlas) 著;陶俊杰,陈小莉
    所属分类 :
    图书 > 行业\职业 > 计算机/网络 > 编程语言
    促销活动 :
    ❤文轩图书惠
    ❤图书音像单笔满99减10,299减35!(0.65折内图书、电子书除外)
    ❤老客户回馈,积分换礼券,购书更实惠
    ❤大陆非新疆西藏地区包邮,新疆西藏运费每单20元
    详情 >>
    购买数量 :
    -+
    服  务 :
    由"文轩网"直接销售和发货,并提供售后服务
    正品低价|闪电发货|货到付款|高效退换货
    Python数据科学手册
    • 作 者:(美)杰克·万托布拉斯(Jake VanderPlas) 著;陶俊杰,陈小莉
    • 出版社:人民邮电出版社
    • 出版时间:2018-02-01
    • 开 本:16开
    • 页 数:448
    • 印刷时间:2018-02-01
    • 字 数:691000.0
    • 装 帧:平装
    • 语  种:语种
    • 版 次:1
    • 印 次:1
    • I S B N:9787115475893
    小学教辅
    中学教辅
    幼儿园

    目录

    译者序xiii
    前言xv
    章IPython:超越Python1
    1.1shell还是Notebook1
    1.1.1启动IPythonshell2
    1.1.2启动JupyterNotebook2
    1.2IPython的帮助和文档3
    1.2.1用符号获取文档3
    1.2.2通过符号获取源代码4
    1.2.3用Tab补全的方式探索模块5
    1.3IPythonshell中的快捷键7
    1.3.1导航快捷键7
    1.3.2文本输入快捷键7
    1.3.3命令历史快捷键8
    1.3.4其他快捷键9
    1.4IPython魔法命令9
    1.4.1粘贴代码块:%paste和%cpaste9
    1.4.2执行外部代码:%run10
    1.4.3计算代码运行时间:%timeit11
    1.4.4魔法函数的帮助:、%magic和%lsmagic11
    1.5输入和输出历史12
    1.5.1IPython的输入和输出对象12
    1.5.2下划线快捷键和以前的输出13
    1.5.3禁止输出13
    1.5.4相关的魔法命令13
    1.6IPython和shell命令14
    1.6.1shell快速入门14
    1.6.2IPython中的shell命令15
    1.6.3在shell中传入或传出值15
    1.7与shell相关的魔法命令16
    1.8错误和调试17
    1.8.1控制异常:%xmode17
    1.8.2调试:当阅读轨迹追溯不足以解决问题时19
    1.9代码的分析和计时21
    1.9.1代码段计时:%timeit和%time22
    1.9.2分析整个脚本:%prun23
    1.9.3用%lprun进行逐行分析24
    1.9.4用%memit和%mprun进行内存分析25
    1.10IPython参考资料26
    1.10.1网络资源26
    1.10.2相关图书27
    第2章NumPy入门28
    2.1理解Python中的数据类型29
    2.1.1Python整型不仅仅是一个整型30
    2.1.2Python列表不仅仅是一个列表31
    2.1.3Python中的固定类型数组32
    2.1.4从Python列表创建数组32
    2.1.5从头创建数组33
    2.1.6NumPy标准数据类型34
    2.2NumPy数组基础35
    2.2.1NumPy数组的属性36
    2.2.2数组索引:获取单个元素37
    2.2.3数组切片:获取子数组38
    2.2.4数组的变形41
    2.2.5数组拼接和分裂42
    2.3NumPy数组的计算:通用函数44
    2.3.1缓慢的循环44
    2.3.2通用函数介绍45
    2.3.3探索NumPy的通用函数46
    2.3.4通用函数特性49
    2.3.5通用函数:更多的信息51
    2.4聚合:*小值、*大值和其他值51
    2.4.1数组值求和51
    2.4.2*小值和*大值52
    2.4.3示例:美国总统的身高是多少54
    2.5数组的计算:广播55
    2.5.1广播的介绍55
    2.5.2广播的规则57
    2.5.3广播的实际应用60
    2.6比较、掩码和布尔逻辑61
    2.6.1示例:统计下雨天数61
    2.6.2和通用函数类似的比较操作62
    2.6.3操作布尔数组64
    2.6.4将布尔数组作为掩码66
    2.7花哨的索引69
    2.7.1探索花哨的索引69
    2.7.2组合索引70
    2.7.3示例:选择随机点71
    2.7.4用花哨的索引修改值72
    2.7.5示例:数据区间划分73
    2.8数组的排序75
    2.8.1NumPy中的快速排序:np.sort和np.argsort76
    2.8.2部分排序:分隔77
    2.8.3示例:K个*近邻78
    2.9结构化数据:NumPy的结构化数组81
    2.9.1生成结构化数组83
    2.9.2更不错的复合类型84
    2.9.3记录数组:结构化数组的扭转84
    2.9.4关于Pandas85
    第3章Pandas数据处理86
    3.1安装并使用Pandas86
    3.2Pandas对象简介87
    3.2.1Pandas的Series对象87
    3.2.2Pandas的DataFrame对象90
    3.2.3Pandas的Index对象93
    3.3数据取值与选择95
    3.3.1Series数据选择方法95
    3.3.2DataFrame数据选择方法98
    3.4Pandas数值运算方法102
    3.4.1通用函数:保留索引102
    3.4.2通用函数:索引对齐103
    3.4.3通用函数:DataFrame与Series的运算105
    3.5处理缺失值106
    3.5.1选择处理缺失值的方法106
    3.5.2Pandas的缺失值107
    3.5.3处理缺失值110
    3.6层级索引113
    3.6.1多级索引Series113
    3.6.2多级索引的创建方法116
    3.6.3多级索引的取值与切片119
    3.6.4多级索引行列转换121
    3.6.5多级索引的数据累计方法124
    3.7合并数据集:Concat与Append操作125
    3.7.1知识回顾:NumPy数组的合并126
    3.7.2通过pd.concat实现简易合并126
    3.8合并数据集:合并与连接129
    3.8.1关系代数129
    3.8.2数据连接的类型130
    3.8.3设置数据合并的键132
    3.8.4设置数据连接的集合操作规则134
    3.8.5重复列名:suffixes参数135
    3.8.6案例:美国各州的统计数据136
    3.9累计与分组140
    3.9.1行星数据140
    3.9.2Pandas的简单累计功能141
    3.9.3GroupBy:分割、应用和组合142
    3.10数据透视表150
    3.10.1演示数据透视表150
    3.10.2手工制作数据透视表151
    3.10.3数据透视表语法151
    3.10.4案例:美国人的生日153
    3.11向量化字符串操作157
    3.11.1Pandas字符串操作简介157
    3.11.2Pandas字符串方法列表159
    3.11.3案例:食谱数据库163
    3.12处理时间序列166
    3.12.1Python的日期与时间工具166
    3.12.2Pandas时间序列:用时间作索引169
    3.12.3Pandas时间序列数据结构170
    3.12.4时间频率与偏移量172
    3.12.5重新取样、迁移和窗口173
    3.12.6更多学习资料178
    3.12.7案例:美国西雅图自行车统计数据的可视化179
    3.13高性能Pandas:eval()与query()184
    3.13.1query()与eval()的设计动机:复合代数式184
    3.13.2用pandas.eval()实现高性能运算185
    3.13.3用DataFrame.eval()实现列间运算187
    3.13.4DataFrame.query()方法188
    3.13.5性能决定使用时机189
    3.14参考资料189
    第4章Matplotlib数据可视化191
    4.1Matplotlib常用技巧192
    4.1.1导入Matplotlib192
    4.1.2设置绘图样式192
    4.1.3用不用show()?如何显示图形192
    4.1.4将图形保存为文件194
    4.2两种画图接口195
    4.2.1MATLAB风格接口195
    4.2.2面向对象接口196
    4.3简易线形图197
    4.3.1调整图形:线条的颜色与风格199
    4.3.2调整图形:坐标轴上下限200
    4.3.3设置图形标签203
    4.4简易散点图204
    4.4.1用plt.plot画散点图205
    4.4.2用plt.scatter画散点图206
    4.4.3plot与scatter:效率对比208
    4.5可视化异常处理208
    4.5.1基本误差线209
    4.5.2连续误差210
    4.6密度图与等高线图211
    4.7频次直方图、数据区间划分和分布密度215
    4.8配置图例219
    4.8.1选择图例显示的元素221
    4.8.2在图例中显示不同尺寸的点222
    4.8.3同时显示多个图例223
    4.9配置颜色条224
    4.9.1配置颜色条224
    4.9.2案例:手写数字228
    4.10多子图230
    4.10.1plt.axes:手动创建子图230
    4.10.2plt.subplot:简易网格子图231
    4.10.3plt.subplots:用一行代码创建网格233
    4.10.4plt.GridSpec:实现更复杂的排列方式234
    4.11文字与注释235
    4.11.1案例:节假日对美国出生率的影响236
    4.11.2坐标变换与文字位置237
    4.11.3箭头与注释239
    4.12自定义坐标轴刻度241
    4.12.1主要刻度与次要刻度242
    4.12.2隐藏刻度与标签243
    4.12.3增减刻度数量244
    4.12.4花哨的刻度格式245
    4.12.5格式生成器与定位器小结247
    4.13Matplotlib自定义:配置文件与样式表248
    4.13.1手动配置图形248
    4.13.2修改默认配置:rcParams249
    4.13.3样式表251
    4.14用Matplotlib画三维图255
    4.14.1三维数据点与线256
    4.14.2三维等高线图256
    4.14.3线框图和曲面图258
    4.14.4曲面三角剖分259
    4.15用Basemap可视化地理数据261
    4.15.1地图投影263
    4.15.2画一个地图背景267
    4.15.3在地图上画数据269
    4.15.4案例:美国加州城市数据270
    4.15.5案例:地表温度数据271
    4.16用Seaborn做数据可视化273
    4.16.1Seaborn与Matplotlib274
    4.16.2Seaborn图形介绍275
    4.16.3案例:探索马拉松比赛成绩数据283
    4.17参考资料290
    4.17.1Matplotlib资源290
    4.17.2其他Python画图程序库290
    第5章机器学习291
    5.1什么是机器学习291
    5.1.1机器学习的分类292
    5.1.2机器学习应用的定性示例292
    5.1.3小结299
    5.2Scikit-Learn简介300
    5.2.1Scikit-Learn的数据表示300
    5.2.2Scikit-Learn的评估器API302
    5.2.3应用:手写数字探索309
    5.2.4小结313
    5.3超参数与模型验证313
    5.3.1什么是模型验证314
    5.3.2选择模型317
    5.3.3学习曲线322
    5.3.4验证实践:网格搜索326
    5.3.5小结327
    5.4特征工程327
    5.4.1分类特征327
    5.4.2文本特征329
    5.4.3图像特征330
    5.4.4衍生特征330
    5.4.5缺失值填充332
    5.4.6特征管道332
    5.5专题:朴素贝叶斯分类333
    5.5.1贝叶斯分类333
    5.5.2高斯朴素贝叶斯334
    5.5.3多项式朴素贝叶斯336
    5.5.4朴素贝叶斯的应用场景339
    5.6专题:线性回归340
    5.6.1简单线性回归340
    5.6.2基函数回归342
    5.6.3正则化346
    5.6.4案例:预测自行车流量349
    5.7专题:支持向量机353
    5.7.1支持向量机的由来354
    5.7.2支持向量机:边界*大化355
    5.7.3案例:人脸识别363
    5.7.4支持向量机总结366
    5.8专题:决策树与随机森林367
    5.8.1随机森林的诱因:决策树367
    5.8.2评估器集成算法:随机森林371
    5.8.3随机森林回归373
    5.8.4案例:用随机森林识别手写数字374
    5.8.5随机森林总结376
    5.9专题:主成分分析376
    5.9.1主成分分析简介377
    5.9.2用PCA作噪音过滤383
    5.9.3案例:特征脸385
    5.9.4主成分分析总结387
    5.10专题:流形学习388
    5.10.1流形学习:“HELLO”388
    5.10.2多维标度法(MDS)389
    5.10.3将MDS用于流形学习391
    5.10.4非线性嵌入:当MDS失败时393
    5.10.5非线性流形:局部线性嵌入395
    5.10.6关于流形方法的一些思考396
    5.10.7示例:用Isomap处理人脸数据397
    5.10.8示例:手写数字的可视化结构400
    5.11专题:k-means聚类402
    5.11.1k-means简介403
    5.11.2k-means算法:期望*大化404
    5.11.3案例409
    5.12专题:高斯混合模型415
    5.12.1高斯混合模型(GMM)为什么会出现:k-means算法
    的缺陷415
    5.12.2一般化E-M:高斯混合模型417
    5.12.3将GMM用作密度估计421
    5.12.4示例:用GMM生成新的数据425
    5.13专题:核密度估计427
    5.13.1KDE的由来:直方图428
    5.13.2核密度估计的实际应用431
    5.13.3示例:球形空间的KDE433
    5.13.4示例:不是很朴素的贝叶斯436
    5.14应用:人脸识别管道439
    5.14.1HOG特征440
    5.14.2HOG实战:简单人脸识别器441
    5.14.3注意事项与改进方案445
    5.15机器学习参考资料446
    5.15.1Python中的机器学习446
    5.15.2通用机器学习资源447
    关于作者448
    关于封面448

    作者简介

    杰克·万托布拉斯,是Python科学栈的深度用户和开发人员,目前是华盛顿大学eScience学院物理科学研究院院长,研究方向为天文学。同时,他还为很多领域的科学家提供建议和咨询。

    主编推荐

    Python语言拥有大量可用于存储、操作和洞察数据的程序库,已然成为深受数据科学研究人员推崇的工具。本书以IPython、NumPy、Pandas、Matplotlib和Scikit-Learn这5个能完成数据科学大部分工作的基础工具为主,从实战角度出发,讲授如何清洗和可视化数据、如何用数据建立各种统计学或机器学习模型等常见数据科学任务,旨在让各领域与数据处理相关的工作人员具备发现问题、解决问题的能力。·IPython和Jupyter:为使用Python提供计算环境·NumPy:用ndarray实现高维数组的高效存储与操作·Pandas:用DataFrame实现带标签 列式数据的高效存储与操作·Matplotlib:实现各种数据可视化·Scikit-Learn:用高效整洁的Python实现重要的机器学习算法

    内容简介

    《Python数据科学手册》是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第 2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的 列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为重要的机器学习算法提供了高效整洁的Python版实现。《Python数据科学手册》适合有编程背景,并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。

    价格说明

    定价:为出版社全国统一定价;

    文轩价:为商品的销售价,是您最终决定是否购买商品的依据;受系统缓存影响,最终价格以商品放入购物车后显示的价格为准;

    关于新广告法声明

    新广告法规定所有页面信息中不得出现绝对化用词和功能性用词。

    本店非常支持新广告法,但为了不影响消费者正常购买,页面明显区域本店已在排查修改,对于不明显区域也将会逐步排查并修改,我们此郑重声明:本店所有页面上的绝对化用词与功能性用词在此声明全部失效,不作为赔付理由。涉及“教育部声明”中的商品,均不代表教育部指定、推荐的具体版本,仅代表该商品的内容为指定、推荐书目。因极限用词引起的任何形式的商品赔付,本店不接收且不妥协。希望消费者理解并欢迎联系客服帮助完善,也请职业打假人士高抬贵手。