我有一个以下的清单:
remove_words = ['abc', 'deff', 'pls']
以下是我拥有的包含列名为“string”的数据框。 data['string']
0 abc stack overflow
1 abc123
2 deff comedy
3 definitely
4 pls lkjh
5 pls1234
我想在 Pandas 数据框的列中检查 remove_words 列表中的单词,并删除 Pandas 数据帧中的这些单词。 我想检查独立出现的单词而不是与其他单词一起出现。
例如,如果 Pandas 数据框中有'abc',则将其替换为'',但如果它与'abc123'一起出现,则需要保留原样。 输出应该如下所示:
data['string']
0 stack overflow
1 abc123
2 comedy
3 definitely
4 lkjh
5 pls1234
在我的实际数据中,我有2000个单词在“remove_words”列表中,以及Pandas数据框架中的50亿条记录。所以我正在寻找最佳高效的方式来处理这个问题。
我已经尝试了一些Python方法,但没有取得太大成功。有人可以帮助我吗?任何想法都会很有帮助。
谢谢