我刚开始学习Python。我正在处理从 Kaggle 下载的 netflix_tiles 数据集。导演一列中的一些条目有多个由逗号分隔的导演名称,我正在尝试使用 split 函数将导演名称分开。
以下是从文件加载到数据框架的原始值之一:
s7 电影 小马宝莉:新一代, Robert Cullen, José Luis Ucha Vanessa Hudgens, ..
我正在使用以下代码进行拆分:
def strip(x):
x = x.strip().split(',')
return x
director_counts = df["director"].apply(strip)
在上述代码执行后,输出如下:
s7 [Robert Cullen, José Luis Ucha]
导演名称没有根据逗号分割,当我只将导演列传递给函数时,也看到了索引(s7)从函数返回。有人能告诉我为什么会这样吗? 编辑: 也尝试过这个
director_counts = df['director'].str.split(',\s*')
协作链接: https://colab.research.google.com/drive/1OXJ9XKCBVg4-6W8Hiqfy4ZTkgz0IVqbR?usp=sharing
apply(strip)
在代码块之外)。另外,您使用了没有括号的strip
,因此未调用它。 - Caridorc