32得票14回答
模糊日期算法

我正在寻找一个模糊日期算法。我刚开始写了一个,但意识到这是多么繁琐的任务。它很快就变成了许多可怕的代码,以应对特殊情况,例如“昨天”、“上周”和“上个月末”,在某些情况下,它们都可以指同一天,但根据今天的日期分别是正确的。 我确信必须有一个开源的模糊日期格式化程序,但我找不到它。理想情况下,...

32得票3回答
Django模糊字符串翻译未显示出来。

为什么有时候我在django.po语言文件中会得到一个fuzzy的项目。实际上,在我的项目中,fuzzy字符串项目是完全独特的。 #: .\users\views.py:81 .\users\views.py:101 #, fuzzy msgid "username or email" ms...

24得票4回答
Clang用于模糊解析C++。

使用clang及其现有的libclang API,是否有可能解析具有不完整声明的C++代码?也就是说,可以在不包含所有头文件的情况下解析.cpp文件,并动态推断声明。例如,以下文本:A B::Foo(){return stuff();} 将检测未知符号A,调用我的回调函数,使用我的魔法启发式推...

20得票6回答
少于指数时间的模糊匹配去重?

我有一个庞大的数据库(可能有数百万条记录),其中包含相对较短的文本字符串(例如街道地址、姓名等)。 我正在寻找一种策略来删除不精确的重复项,模糊匹配似乎是最佳选择的方法。问题在于:许多文章和Stack Overflow问题处理将单个字符串与数据库中的所有记录进行匹配。我希望一次性对整个数据库...

15得票4回答
在CPython中,字符串不可变性被破坏了。

我在尝试理解一个Python模块时遇到了一个比较有趣的现象,这更多是一种“有趣”的现象,而不是寻求帮助(尽管解决方案也很有用)。>>> import fuzzy >>> s = fuzzy.Soundex(4) >>> a = "apple...

13得票2回答
计算相对Levenshtein距离 - 有意义吗?

我正在使用 Daitch-Mokotoff 算法和 Damerau-Levenshtein 算法来判断用户输入和应用程序中的值是否“相同”。 Levenshtein 距离是否应该被用作绝对值?如果一个单词有 20 个字母,距离为 4 就不算太糟糕。但如果这个单词只有 4 个字母…… 我现在...

12得票1回答
Emacs模糊自动完成

我非常喜欢emacs中ido的模糊匹配。我希望能够在自动完成中实现这样的功能,最好是使用auto-complete,因为我已经设置了ac-python和其他相关内容。我知道auto-complete在没有正常匹配时提供模糊匹配,但我希望能够通常使用。

11得票2回答
在Unicode中查找类似的ASCII字符

有没有一种简单的方法可以找到与ASCII字符类似的Unicode字符。例如,"CYRILLIC SMALL LETTER DZE (ѕ)"。我想查找并替换类似的字符。所谓相似是指人类可读的字符,仅凭外观无法区分。

10得票2回答
Django的makemessages创建了许多模糊条目

每次我向Django项目添加一些字符串时,我都会运行“django-admin.py makemessages -all”命令为所有语言环境生成.PO文件。 问题在于,即使我只添加了5个新字符串,makemessages命令也会将50个字符串标记为模糊,在.PO文件中,这给我们的本地化维护者...

9得票1回答
聚类与Matlab

我正在尝试对来自KDD 1999杯数据集的一些数据进行聚类。文件的输出如下所示: 0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0...