Seaborn加载数据集

65

我正在尝试使用Seaborn制作分组箱线图,就像示例中所示

我可以使上述示例工作,但是这行代码:

tips = sns.load_dataset("tips")

完全没有解释。我已经找到了tips.csv文件,但似乎找不到关于load_dataset具体做什么的充分文档。我尝试创建自己的csv并加载它,但无济于事。我也重命名了tips文件,它仍然可以工作...

因此我的问题是:

load_dataset实际上在哪里查找文件? 我能否将其用于我的箱形图?

编辑:我使用自己的DataFrame成功地制作出了自己的箱形图,但我仍然想知道load_dataset是否用于除神秘教程示例之外的任何内容。


4
load_dataset 只是 seaborn 文档中的一个方便函数。 - mwaskom
5个回答

78

load_dataset函数会在https://github.com/mwaskom/seaborn-data上查找在线CSV文件。这是它的文档字符串:

从在线代码库中加载数据集(需要网络连接)。

参数


name : str 数据集的名称(name.csv 在 https://github.com/mwaskom/seaborn-data)。您可以使用 :func:get_dataset_names 函数获取可用数据集名称列表。

kws : dict, 可选项 传递给 pandas.read_csv 的参数。

如果您想修改在线数据集或导入自己的数据,则可能需要使用pandas。实际上,load_dataset将返回一个pandas DataFrame对象,您可以使用 type(tips) 来确认。

如果您已经创建了一个名为tips2.csv的csv文件,并将其保存在与脚本相同的位置,请使用以下命令(在安装了pandas之后)加载它:

import pandas as pd

tips2 = pd.read_csv('tips2.csv')

很奇怪load_dataset的文档并没有明确说明它返回什么。我知道对于那些使用过几次的人来说这是显而易见的,但是为什么不记录这个基本事实呢?https://seaborn.pydata.org/generated/seaborn.load_dataset.html - Mike Wise

10

仅补充 'selwyth' 的回答。

import pandas as pd
Data=pd.read_csv('Path\to\csv\')
Data.head(10)

一旦您成功完成了这些步骤。 现在绘图实际上是这样的。

假设你想绘制一个条形图。

sns.barplot(x=Data.Year,y=Data.Salary) //year and salary attributes were present in my dataset.

这实际上适用于 seaborn 中的每个绘图。

此外,我们将无法在 Seaborn Git 上添加自己的数据集。


0

load_dataset 用于 seaborn 数据集;如果你想使用自己的数据集,应该用 Pandas 打开(或读取)它,然后可以使用 seaborn 方法来绘制图表和可视化任务。例如,在 Jupyter Notebook 中,我把我的自己的数据集放在本地驱动器并且读取了本地机器上的文档:

import pandas as pd
import seaborn as sns

AI_df=pd.read_csv('AI.csv')
ai_cor=AI_df.corr()
sns.heatmap(ai_cor,annot=True,cmap='coolwarm',linewidths=1)

-1

这里下载所有的csv文件(已压缩),用于您的示例

将zip文件解压到本地目录,并从相同目录启动您的jupyter笔记本。 在jupyter笔记本中运行以下命令:

import pandas as pd
tips = pd.read_csv('seaborn-data-master/tips.csv')

现在你可以愉快地使用你的示例了!


-1

由于CSV文件不在您的本地计算机上,因此您需要拥有互联网连接,以便下载数据集,因此您的计算机需要在线。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接