如何在使用tqdm进度映射时使用pandas.Series.str.contains？

Question

如何在使用tqdm进度映射时使用pandas.Series.str.contains？

3

我正在尝试根据另一个数据框（dfB）的值向数据框（dfA）添加新列：

最初的回答：

s = dfA['value'].tolist() 
dfB['value'] = dfB['text_bod'].str.contains('|'.join(s))

这个设置下能使用 progress_map 吗？

dfB['value'] = dfB['text_bod'].progress_map(func)

或者有其他方法可以实现 tqdm 吗？

使用 FlashText 的替代方法：

注：Original Answer 翻译为“最初的回答”。

from flashtext import KeywordProcessor

s = dfA['value'].tolist()

processor = KeywordProcessor()
processor.add_keywords_from_list(s)

dfB['value'] = dfB['text_bod'].progress_map(lambda x: processor.extract_keywords(x))

- yololo

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- cs95 · Accepted Answer

我不知道有没有str.contains的方法，但是你可以使用progress_map和一个回调函数来完成相同的任务，只不过这个回调函数使用re.search实现：

Original Answer翻译成"最初的回答"

import re
dfB['value'] = dfB['text_bod'].progress_map(
    lambda x: bool(re.search('|'.join(s), x))
)

作为一个函数，你可以使用

def extract(x, p):
    m = p.search(x)
    if m:
        return m.groups(0)
    return np.nan

p = re.compile('|'.join(s))
dfB['value'] = dfB['text_bod'].progress_map(lambda x: extract(x, p))

这应该比lambda更灵活。翻译后的内容：

这样做会比使用lambda更加灵活。