49得票10回答
确定一个企业名称是否与另一个名称非常相似 - Python

我正在处理一个大型的企业数据库。 我想比较两个企业名称的相似度,以查看它们是否可能是重复的。 以下是一些企业名称列表,应该测试出具有高重复概率的名称,如何进行比较呢? George Washington Middle Schl George Washington School San...

8得票3回答
算法:信封和信件的配对

免责声明:这不是任何作业,这个问题只是在我翻阅所有圣诞卡时浮现出来的。 问题如下:我们有M个信封和N封信,每个信封和信件都由一对正整数描述。信封和信件都是矩形的,可以旋转。如果信件的两个维度都小于或等于信封,则信件适合放入信封中。目标是找到最大的信封-信件匹配。 该问题很容易转换为最大二分...

16得票3回答
构造字符串的排列,使其跳回最少。

寻找一个多项式时间算法或证明以下问题的NP难度: 给定两个字符串 s1=a1, a2,...,ak 和 s2=b1,...,bk,其中 s2 是 s1 的随机排列。 现在我们想要用 s2 构建出 s1。构建的过程如下: 从 s2 中选择一个与 a1 相等的字母并将其删除。 继续进行,选...

7得票1回答
具有重叠时间段的会议安排算法

我想使用Hopcroft-Karp算法做类似于约会安排算法(N个人和N个空闲繁忙时间段,约束满足)的事情。但我的额外要求是我的时间间隔有重叠。例如,时间段可以是上午10点到11点或上午10点15分到11点15分。因此,如果我选择了上午10点到11点的时间段,我就不想选择上午10点15分到11点...

12得票5回答
在Swift中获取字符串中子串的所有范围

我有一个字符串,例如 "ab ad adk fda kla kad ab ab kd"。我想获取所有“ab”的范围。(在这里,“ab”出现在第3个位置,所以我应该得到3个范围)。在正常情况下,我的代码可以正常工作,但如果搜索文本是“.”,那么我会得到错误的结果。 do { let r...

8得票2回答
在R中进行非常快速的字符串模糊匹配

我有一组 40,000 行 x 4 列的数据,需要将每一列与自己进行比较,以找到最接近的结果或最小的莱文斯坦距离。目的是为每一行获取一个“几乎相同”的副本。我用“adist”计算了一下,但速度似乎太慢。例如,对于只有一列的情况,将 5,000 行与整个数据集的 40,000 行进行比较,需要近...

9得票4回答
我想要在列之间匹配相似的单词。

1.0 2.0 3.0 loud complaint problems pain stress confused dull pain stress 这是我的数据集,我想重新组织行,以便如果每列中都出现一个单词,则将其转移到相应的行。例如 1.0 2....

10得票4回答
不要使用grep将相邻匹配的上下文合并在一起

如果我在以下文件上运行grep -C 1 match: a b match1 c d e match2 f match3 g 我获得了以下输出:b match1 c -- e match2 f match3 g 可以看到,由于相邻匹配“match2”和“match3”的上下文重叠,它们被合并了...

9得票5回答
比较1000万个实体

我需要编写一个程序来比较超过10'000'000个实体之间的差异。这些实体基本上是数据库/CSV文件中的平面行。 比较算法必须相当灵活,它基于一个规则引擎,其中最终用户输入规则,然后每个实体与其他每个实体进行匹配。 我正在思考如何将此任务分解为更小的工作负载,但我还没有找到任何东西。由于规...

61得票9回答
如何在MYSQL中使用PHP进行模糊匹配公司名称以实现自动完成?

我的用户将通过剪切和粘贴导入一个包含公司名称的大字符串。 我已经拥有一个现有且增长中的MYSQL公司名称数据库,每个公司都有唯一的company_id。 我希望能够遍历该字符串,并为每个用户输入的公司名称分配一个模糊匹配。 目前,仅进行简单的字符串匹配也很慢。 Soundex索引会更快吗...