84得票2回答
何时使用哪种模糊函数来比较2个字符串

我正在学习Python中的fuzzywuzzy。 我了解fuzz.ratio,fuzz.partial_ratio,fuzz.token_sort_ratio和fuzz.token_set_ratio的概念。我的问题是在何时使用哪个函数? 我应该首先检查两个字符串的长度,如果不相似,则排...

54得票1回答
“以下软件包将被更高优先级通道取代”是什么意思?

我正在尝试在64位Linux上的Anaconda发行版中安装fuzzywuzzy。在这样做时,它会尝试更改我的conda和conda-env为conda-forge频道。具体如下: 我通过编写以下内容在anaconda中搜索fuzzy wuzzy: anaconda search -t f...

29得票3回答
如何使用 Pandas 中的 apply 函数并行比较许多(模糊)字符串?

我有以下问题 我有一个数据框master,其中包含诸如以下句子:master Out[8]: original 0 this is a nice sentence 1 this is another one 2 stackoverflo...

19得票4回答
使用fuzzywuzzy时出现错误:UserWarning: 使用缓慢的纯Python SequenceMatcher。安装python-Levenshtein以消除此警告。

我遇到了以下错误。有没有不安装python-Levenshtein的方法来修复它,如果没有,那么如何在linux上安装python-Levenshtein。 UserWarning: Using slow pure-python SequenceMatcher. Install python...

18得票4回答
在 Pandas 列上对 Fuzzywuzzy 字符串匹配进行向量化或加速

我正在尝试在一个包含组织名称的PANDAS列中寻找潜在匹配项。目前我正在使用iterrows()方法,但对于大约70,000行的数据帧来说速度非常慢。经过查阅StackOverflow后,我尝试实现了lambda row(apply)方法,但似乎几乎没有提升速度。 数据帧的前四行如下所示:i...

18得票3回答
Python中的模糊字符串匹配

我有两个超过一百万个名称的列表,其命名约定略有不同。目标是使用95%置信度逻辑匹配那些类似的记录。 我知道可以利用一些库来解决这个问题,例如Python中的FuzzyWuzzy模块。 然而,在处理方面,似乎将每个列表中的每个字符串与另一个列表进行比较将占用太多资源,在这种情况下,需要进行1...

15得票3回答
Python模糊匹配库Fuzzywuzzy的process.extract()函数:它是如何工作的?

我想要了解 Python 模块 fuzzywuzzy 的 process.extract() 函数是如何工作的? 我主要在这里阅读关于 fuzzywuzzy 包的内容:http://chairnerd.seatgeek.com/fuzzywuzzy-fuzzy-string-matching...

14得票1回答
R中的模糊匹配

我正在尝试在一个开放的文本字段(即:混乱的!)和一组名称向量之间检测匹配项。我创建了一个愚蠢的水果示例来突出我的主要挑战。 我正在尝试将含有杂乱信息的开放文本字段与一组名称向量进行匹配。我创建了一个简单的水果示例,以突显我的主要挑战。df1 <- data.frame(id = c(1...

12得票1回答
在数据框的列中应用模糊匹配,并将结果保存在新列中。

我有两个数据框,每个都有不同数量的行。下面是每个数据集中的几行。df1 = Company City State ZIP FREDDIE LEES AMERICAN GOURMET SAU...

11得票3回答
Python Fuzzy Matching (FuzzyWuzzy) - 仅保留最佳匹配

我正在尝试模糊匹配两个csv文件,每个文件包含一个名称列,这些名称相似但不完全相同。 到目前为止,我的代码如下:import pandas as pd from pandas import DataFrame from fuzzywuzzy import process import csv...