Python 3 Pandas使用Startswith +或选择Dataframe

Question

Python 3 Pandas使用Startswith +或选择Dataframe

regexpython-3.xpandasdataframestartswith

4

我想要查找符合多个条件的字符串，类似于str.startswith()的语法。

目前我的代码只能返回以字母"N"开头的office：

new_df = df[df['Office'].str.startswith("N", na=False)]

寻找一个能够返回以字母"N"、"M"、"V"或者"R"开头的办公室的代码。以下代码似乎无法实现：

    new_df = df[df['Office'].str.startswith("N|M|V|R", na=False)]

我缺少什么？谢谢！

- Arthur D. Howland

如果我理解正确的话，那么 new_df = df[df['Office'].str.contains("^N|^M|^V|^R", na=False)] 应该可以工作。 - EdChum

EdChum，请将其作为答案添加，似乎可以工作！谢谢。这些小尖角符号 ^ 是什么意思？ - Arthur D. Howland

MaxU的答案模式更好，基本上^表示以后面的字符开头，因此我们在这里使用contains，因为它支持正则表达式模式。 - EdChum

2个回答

4

方法 startswith 允许将 字符串 或元组作为其第一个参数：

# Option 1
new_df = df[df['Office'].str.startswith(('N','M','V','R'), na=False)

例子：

df = pd.DataFrame(data=[np.nan, 'Austria', 'Norway', 'Madagascar', 'Romania', 'Spain', 'Uruguay', 'Yemen'], columns=['Office'])
print(df)
df.Office.str.startswith(('N','M','V','R'), na=False)

输出：

       Office
0         NaN
1     Austria
2      Norway
3  Madagascar
4     Romania
5       Spain
6     Uruguay
7       Yemen


0    False
1    False
2     True
3     True
4     True
5    False
6    False
7    False

@MaxU 指出的其他选项包括：

# Option 2
df[df['Office'].str.contains("^(?:N|M|V|R)")]

# Option 3
df[df['Office'].str.contains("^[NMVR]+")]

性能（非全面测试）：

from datetime import datetime

n = 100000

start_time = datetime.now()
for i in range(n):
    df['Office'].str.startswith(('N','M','V','R'), na=False)
print ("Option 1: ", datetime.now() - start_time)

start_time = datetime.now()
for i in range(n):
    df['Office'].str.contains("^(?:N|M|V|R)", na=False)
print ("Option 2: ", datetime.now() - start_time)

start_time = datetime.now()
for i in range(n):
    df['Office'].str.contains("^[NMVR]+", na=False)
print ("Option 3: ", datetime.now() - start_time)

结果：

Option 1:  0:00:22.952533
Option 2:  0:00:23.502708
Option 3:  0:00:23.733182

最终选择：由于时间上并没有太大的差别，因此我会选择选项1，因为其语法更简单，性能更好。

- Israel Varea

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MaxU - stand with Ukraine · Accepted Answer

试试这个：

df[df['Office'].str.contains("^(?:N|M|V|R)")]

或者：

df[df['Office'].str.contains("^[NMVR]+")]

演示:

In [91]: df
Out[91]:
        Office
0        No-No
1         AAAA
2    MicroHard
3       Valley
4        vvvvv
5   zzzzzzzzzz
6  Risk is fun

In [92]: df[df['Office'].str.contains("^(?:N|M|V|R)")]
Out[92]:
        Office
0        No-No
2    MicroHard
3       Valley
6  Risk is fun

In [93]: df[df['Office'].str.contains("^[NMVR]+")]
Out[93]:
        Office
0        No-No
2    MicroHard
3       Valley
6  Risk is fun