我有几个csv文件,每个文件都包含一个月份的股票价格,并且有数百万条数据。
原始csv数据如下:
AA_Candy.csv
我使用Python和Pandas处理数据,在加载并合并一些数据文件后,现在有一个类似于下面的DataFrame:
frame:
时间031231145958代表2013年12月31日14:59:58。
现在我想获取每家公司每小时的最高价和最终价,并获得一个输出文件,如下所示:
因此,我想按CompanyName和Time的前8个字符对数据进行分组,以获取同一小时内相同公司的数据,然后进行计算以找到每个公司的最大价格值和最终价格值,并在同一起始小时输出带有公司名称/Max或Close的结果;让公司名称/Max或Close成为新列名。
因为我真的很新于pandas和dataframe,所以我有以下问题:
Index CompanyName Time Price
1 AA Candy 030101090355 1.78
2 AA Candy 030101091533 1.79
.......
333498 AA Candy 031231145556 2.18
BB_Cookie.csv
1 BB Cookie 030101090225 3.20
2 BB Cookie 030101090845 3.14
.......
391373 BB Cookie 031231145958 3.88
我使用Python和Pandas处理数据,在加载并合并一些数据文件后,现在有一个类似于下面的DataFrame:
frame:
Index CompanyName Time Price
1 AA Candy 030101090355 1.78
2 AA Candy 030101091533 1.79
.......
333498 AA Candy 031231145556 2.18
333499 BB Cookie 030101090225 3.20
333500 BB Cookie 030101090845 3.14
.......
712871 BB Cookie 031231145958 3.88
时间031231145958代表2013年12月31日14:59:58。
现在我想获取每家公司每小时的最高价和最终价,并获得一个输出文件,如下所示:
range_start AA Candy/Max AA Candy/Close BB Cookie/Max BB Cookie/Close
0301010900 1.79 1.77 3.20 3.10
........
0312311400 2.24 2.18 3.88 3.88
因此,我想按CompanyName和Time的前8个字符对数据进行分组,以获取同一小时内相同公司的数据,然后进行计算以找到每个公司的最大价格值和最终价格值,并在同一起始小时输出带有公司名称/Max或Close的结果;让公司名称/Max或Close成为新列名。
因为我真的很新于pandas和dataframe,所以我有以下问题:
- 如何按Time列(Object)的前8个字符分组,然后得到我期望的值?
- 如何形成一个新的输出数据框/矩阵作为我期望的输出?