我有一个大数据框,其中存储了很多冗余值,这使得处理我的数据变得困难。我的数据框的格式如下:
import pandas as pd
df = pd.DataFrame([["a","g","n1","y1"], ["a","g","n2","y2"], ["b","h","n1","y3"], ["b","h","n2","y4"]], columns=["meta1", "meta2", "name", "data"])
>>> df
meta1 meta2 name data
a g n1 y1
a g n2 y2
b h n1 y3
b h n2 y4
我有新列的名称列表,存储在 name
中,相应的数据存储在 data
中。
我希望生成一个形如以下的数据框:
df = pd.DataFrame([["a","g","y1","y2"], ["b","h","y3","y4"]], columns=["meta1", "meta2", "n1", "n2"])
>>> df
meta1 meta2 n1 n2
a g y1 y2
b h y3 y4
名为meta
的列包含大约15个其他包含大部分数据的列,我认为不特别适合用于索引。我的想法是,目前在meta
中存储了很多重复/冗余数据,并且我想生成更紧凑的数据框。
我找到了一些类似的问题,但无法确定需要执行哪种操作:透视、重新索引、堆叠或取消堆叠等等?
附注-原始索引值对我的目的不重要。
非常感谢任何帮助。
我认为相关的问题:
我认为以下问题与我正在尝试完成的任务有关,但我不知道如何应用它,因为我不想生成更多的索引。
aggfunc='first'
对于文本数据非常棒! - Jarad