提交 e811e455 编写于 作者: J JNYan

update 3.md

上级 148a0f04
......@@ -2,11 +2,10 @@
统计分析是了解数据集中的变量如何相互关联以及这些关系如何依赖于其他变量的过程。可视化是此过程的核心组件,这是因为当数据被恰当地可视化时,人的视觉系统可以看到指示关系的趋势和模式。
我们将在本教程中讨论三个seaborn函数。 我们最常用的是[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot"). 这是一个[figure-level function](../introduction.html#intro-func-types),可以用散点图和线图两种通用的方法来可视化统计关系。[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")[`FacetGrid`](../generated/seaborn.FacetGrid.html#seaborn.FacetGrid "seaborn.FacetGrid") 与两个axes-level函数组合在一起:
* [`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot") (with `kind="scatter"`; 默认值)
* [`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot") (with `kind="line"`)
我们将在本教程中讨论三个seaborn函数。我们最常用的是[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")。这是一个[figure-level](../introduction.html#intro-func-types)的函数,可以用散点图和线图两种通用的方法来可视化统计关系。[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")[`FacetGrid`](../generated/seaborn.FacetGrid.html#seaborn.FacetGrid "seaborn.FacetGrid") 与两个[axes-level]()函数组合在一起:
* [`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot") (`kind="scatter"`; 默认值)
* [`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")(`kind="line"`)
正如我们将要看到的,这些函数可能非常有启发性,因为他们使用简单且易于理解的数据表示形式,且仍然能够表示复杂的数据集结构。之所以可以这样,是因为它们可以通过色调、大小和样式的语义映射最多三个额外的变量来增强绘制的二维图形。
......@@ -23,7 +22,7 @@ sns.set(style="darkgrid")
散点图是数据可视化的支柱,它通过点云描绘了两个变量的联合分布,其中每个点代表数据集中的一个观测值。这种描述能够使我们通过视觉推断出许多信息,他们之间是否存在任何有意义的关系。
有几种方法可以在seaborn中绘制散点图。当两个变量的是数值型时,最基本的是函数[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")。在 [类别可视化](categorical.html#categorical-tutorial),我们将会看到使用散点图来显示类别数据的专用工具。[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")`kind`的默认类型(也可以通过`kind="scatter"`来设置):
在seaborn中有多种方式绘制散点图。当两个变量的是数值型时,最基本的是函数[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")。在 [类别可视化](categorical.html#categorical-tutorial),我们将会看到使用散点图来显示类别数据的专用工具。[`scatterplot()`](../generated/seaborn.scatterplot.html#seaborn.scatterplot "seaborn.scatterplot")[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")`kind`的默认类型(也可以通过`kind="scatter"`来设置):
```py
tips = sns.load_dataset("tips")
......@@ -104,7 +103,7 @@ sns.relplot(x="total_bill", y="tip", size="size", sizes=(15, 200), data=tips);
## 强调线图的连续性
散点图是非常有效的,但是没有普遍的最优的可视化类型。相反,可视表示应该适应数据集的细节以及您试图用图表回答的问题。
散点图是非常有效的,但是没有通用的最优可视化类型。相反,可视表示应该适应数据集的细节以及您试图用图表回答的问题。
对于某些数据集,您可能希望了解一个变量中的变化关于时间的函数,或者类似的连续变量。在这种情况下,一个很好的选择是绘制线图。
在seaborn中,这可以通过[`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")函数直接实现,也可以通过设置[`relplot()`](../generated/seaborn.relplot.html#seaborn.relplot "seaborn.relplot")的参数`kind="line"`来实现:
......@@ -119,7 +118,7 @@ g.fig.autofmt_xdate()
![http://seaborn.pydata.org/_images/relational_21_0.png](img/41ec1c6b7e5de5ac6cc5f6020ac029fc.jpg)
因为[`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")假设您想要将`y`绘制为`x`的函数,默认行为是在绘制之前按数字`x`对数据进行排序。但是,这可以被禁用:
由于[`lineplot()`](../generated/seaborn.lineplot.html#seaborn.lineplot "seaborn.lineplot")假设您想要将`y`绘制为`x`的函数,默认行为是在绘制之前按数字`x`对数据进行排序。但是,这可以被禁用:
```py
df = pd.DataFrame(np.random.randn(500, 2).cumsum(axis=0), columns=["x", "y"])
......@@ -150,7 +149,7 @@ sns.relplot(x="timepoint", y="signal", ci=None, kind="line", data=fmri);
![http://seaborn.pydata.org/_images/relational_27_0.png](img/95ca0b5950c77a49aceb9f22e148ba9c.jpg)
尤其是对于较大的数据,另一个不错的选择是通过绘制标准差而不是置信区间来表示分布在每个时间点的分布范围:
尤其是对于较大的数据,另一个不错的选择是通过绘制标准差而不是置信区间来表示分布在每个时间点的分布范围:
```py
sns.relplot(x="timepoint", y="signal", kind="line", ci="sd", data=fmri);
......@@ -159,7 +158,7 @@ sns.relplot(x="timepoint", y="signal", kind="line", ci="sd", data=fmri);
![http://seaborn.pydata.org/_images/relational_29_0.png](img/318e42d583df0fc8e01c6d7c565d758c.jpg)
可以通过设置`estimator`参数为`None`,来完全关闭聚合。当数据在每个点上有多个观察值时,这可能会产生奇怪的效果。
可以通过设置`estimator`参数为`None`,来完全停用聚合。当数据在每个点上有多个观察值时,这可能会产生奇怪的效果。
```py
sns.relplot(x="timepoint", y="signal", estimator=None, kind="line", data=fmri);
......@@ -312,7 +311,7 @@ sns.relplot(x="total_bill", y="tip", hue="smoker",
![http://seaborn.pydata.org/_images/relational_55_0.png](img/68f664bef239fbf14e3fa497f5ff9a02.jpg)
您还可以通过这种方式显示两个变量的影响:一个是通过在列上分面而另一个是在行上分面。 当您开始向网格添加更多变量时,您可能希望减小图形大小。 请记住,大小[`FacetGrid`](../generated/seaborn.FacetGrid.html#seaborn.FacetGrid "seaborn.FacetGrid")由每个切面的高度和长宽比参数化的:
您还可以通过这种方式显示两个变量的影响:一个是通过在列上切面而另一个是在行上切面。当您开始向网格添加更多变量时,您可能希望减小图形大小。请记住,大小[`FacetGrid`](../generated/seaborn.FacetGrid.html#seaborn.FacetGrid "seaborn.FacetGrid")由每个切面的高度和长宽比参数化的:
```py
sns.relplot(x="timepoint", y="signal", hue="subject",
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册