光环大数据--大数据培训&人工智能培训
http://hadoop.aura-el.com Python 中的可视化工具介绍_光环大数据Python培训
R语言社区经历了一场关于画图工具的讨论。对于我们这种外人来说,具体的细节并不重要,但是我们可以将一些有用的观点运用到 Python 中。讨论的重点是 R 语言自带的绘图工具 base R 和 Hadley Wickham 开发的绘图工具 ggplot2 之间的优劣情况。如果你想了解更多细节内容,请阅读以下几篇文章:
http://simplystatistics.org/2016/02/11/why-i-dont-use-ggplot2/
http://varianceexplained.org/r/why-I-use-ggplot2/
http://flowingdata.com/2016/03/22/comparing-ggplot2-and-r-base-graphics/
其中最重要的两个内容是:
其中一个工具能够实现的功能另一个工具也同样能实现。 ggplot2 非常适合用于探索性分析。
不是所有人都认同第二个观点,ggplot2确实无法绘制出所有的图表类型,但是我会利用它来做分析。
综述
以下是 2016 年 4 月写的关于绘图工具的概述。出于多方面的原因,绘图工具的选取更多地取决于个人偏好,因此本文介绍的 Python 绘图工具也仅代表我的个人使用偏好。
Matplotlib
光环大数据 http://hadoop.aura-el.com
光环大数据--大数据培训&人工智能培训
http://hadoop.aura-el.com Matplotlib 是一个强大的工具,它是 Pandas’ builtin-plotting 和 Seaborn 的基础。Matplotlib 能够绘制许多不同的图形,还能调用多个级别的许多 API。我发现pyplot api非常好用,你可能用不上Transforms 或者 artists,但是如果你有需求的话可以查阅帮助文档。我将从 pandas 和 seaborn 图开始介绍,然后介绍如何调用 pyplot 的API。
Pandas’ builtin-plotting
DataFrame 和 Series 拥有 .plot 的命名空间,其中有许多图形类别可供选择(line, hist, scatter, 等等)。 Pandas 对象还提供了额外的用于增强图形展现效果的数据,如索引变量。
由于 pandas 具有更少的向后兼容的,所以它具有更好的美学特性。从这方面来说,我认为 pandas 中的DataFrame.plot 是一个非常实用的快速探索性分析的工具。
Seaborn
Michael Waskom 所开发的 Seaborn 提供了一个高层次的界面来绘制更吸引人统计图形。Seaborn 提供了一个可以快速探索分析数据不同特征的 API 接口,接下来我们将重点介绍它。
Bokeh
Bokeh 是一款针对浏览器开发的可视化工具。
和 matplotlib 一样,Bokeh 拥有一系列 API 接口。比如 glpyhs 接口,该接口和 matplotllib 中的 Artists 接口非常相似,它主要用于绘制环形图、方形图和多边形图等。最近 Bokeh 又开放了一个新的图形接口,该接口主要用于处理词典数据或 DataFrame 数据,并用于绘制罐头图。
其他工具:
以下是一些本文没有提到的可视化工具:
光环大数据 http://hadoop.aura-el.com
光环大数据--大数据培训&人工智能培训
http://hadoop.aura-el.com
Lightning HoloViews Glueviz vispy bqplot 案例介绍
我们将利用 ggplot2 中的 diamonds 数据集,你可以在 Vincent Arelbundock
’
s
RDatasets
中
找
到
它
(pd.read_csv(‘http://vincentarelbundock.github.io/Rdatasets/csv/ggplot2/diamonds.csv’)) ,
此外我们还需要检测是否已经安装feather。
Bokeh 提供了两个 API,一个是低级的 glyph API,另一个是高级的 Charts API。
我还不是很清楚我们应该在啥时候利用 Bokeh 来进行探索性分析,不过它的交互式功能可以激发我的兴趣。就个人而言,由于习惯问题我平时仍然一直使用 matplotlib 来绘图,我还无法完全切换到 Bokeh 中。
我非常喜欢 Bokeh 的仪表盘功能和 bokeh server 的 webapps。 Matplotlib
光环大数据 http://hadoop.aura-el.com
光环大数据--大数据培训&人工智能培训
http://hadoop.aura-el.com
matplotlib 并不局限于处理 DataFrame 数据,它支持所有使用 getitem 作为键值的数据类型。
Pandas Built-in Plotting
我们从列变量的名字中提取出轴标签,利用 Pandas 可以更加便捷地绘制一系列共享 x 轴数据的图形。
Seaborn
本文中的剩余部分将重点介绍 seaborn和为什么我认为它是探索性分析的强大工具。
我强烈建议你阅读 Seaborn 的 introductory notes,这上面介绍了 seaborn 的设计逻辑和应用领域。
Seaborn 主要目的是将探索和理解数据核心部分的过程进行可视化处理。
我们可以通过一个稳定的且易懂的 API 接口来调用 Seaborn。 绘图函数通过调用尽量少的参数来实现可视化的过程,此外还可以通过修改附加参数的形式来自定义选项。
事实上,seaborn 是基于 matplotlib 开发的,这意味着如果你熟悉 pyplot API的话,那么你可以很容易地掌握 seaborn。
大多数 seaborn 绘图函数的参数都由 x, y, hue, 和 data 构成(并不是所有的参数都是必须的)。如果你处理的对象是 DataFrame,那么你可以直接将列变量的名称和数据集的名称一同传递到绘图函数中。
光环大数据 http://hadoop.aura-el.com
光环大数据--大数据培训&人工智能培训
http://hadoop.aura-el.com
我们可以很轻易地探究两个变量之间的关系:
或者一次探究多个变量之间的关系:
pariplot 是 PairGrid 的一个包装函数,它提供了 seaborn 一个重要的抽象功能——Grid。Seaborn 的 Grid 将 matplotlib 中Figure 和数据集中的变量联系起来了。
我们有两种方式可以和 grids 进行交互操作。其一,seaborn 提供了类似于 pairplot 的包装函数,它提前设置了许多常见任务的参数;其二,如果你需要更多的自定义选项,那么你可以直接利用 Grid 方法。
34312 rows × 7 columns
FaceGrid 可以通过控制分面变量来生成 Grid图形,其中PairGrid是它的一个特例。接下来的案例中,我们将以数据集中的 cut 变量为分面变量来绘制图像:
最后一个案例展示了如何将 seaborn 和 matplotlib 结合起来。g.axes是matplotlib.Axes的一个数组,g.fig是matplotlib.Figure的一个特例。这是
光环大数据 http://hadoop.aura-el.com
光环大数据--大数据培训&人工智能培训
http://hadoop.aura-el.com 使用 seaborn 时常见的一个模式:利用 seaborn 的方法来绘制图像,然后再利用 matplotlib 来调整细节部分。
我认为 seaborn 之所以吸引人是因为它的绘图语法具有很强的灵活性。你不会被作者所设定的图表类型所局限住,你可以根据自己的需要创建新的图表。
本来,我打算准备更多的例子来介绍 seaborn,但是我会将相关链接分享给大家。Seaborn 的说明文档写的非常详细。
最后,我们将结合 scikit-learn 来介绍如何利用 GridSearch 来寻找最佳参数。
为什么大家选择光环大数据!
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据领域具有多年经验的讲师,提高教学的整体质量与教学水准。讲师团及时掌握时代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现就业梦想。
光环大数据启动了推进人工智能人才发展的“AI智客计划”。光环大数据专注国内大数据和人工智能培训,将在人工智能和大数据领域深度合作。未来三年,光环大数据将联合国内百所大学,通过“AI智客计划”,共同推动人工智能产业人才生态建设,培
光环大数据 http://hadoop.aura-el.com
光环大数据--大数据培训&人工智能培训
http://hadoop.aura-el.com 养和认证5-10万名AI大数据领域的人才。
参加“AI智客计划”,享2000元助学金!
【报名方式、详情咨询】
光环大数据网站报名:http://hadoop.aura-el.com 手机报名链接:http:// hadoop.aura-el.com /mobile/
光环大数据 http://hadoop.aura-el.com