11得票1回答
在R中将带音符的字符进行制表

我想将字符串中出现的电话(字符)制表,但是变音符号会被单独列为字符。理想情况下,我有一个用国际音标表示的单词列表,其中包括相当多的变音符号以及与基本字符组合的几种组合。我在这里提供了一个只有一个单词的 MWE,但对于单词列表和更多���型的组合,情况也是如此。> word <- "...

8得票9回答
有没有一种相对简单的方法让脚本能够从上下文中判断“her”是否为所有格代词?

我正在编写一个脚本,以颠倒一段文本中的所有性别词汇,例如“man”被替换为“woman”,“she”被替换为“he”等等。但是,“her”应该被替换成“him”还是“his”存在歧义。

16得票1回答
使用中缀正则表达式的Spacy自定义分词器,只将连字符词作为标记包含进去。

我希望在Spacy中包含连字符词,例如:长期,自尊心等作为一个标记。在查看了StackOverflow、Github、它的documentation和elsewhere上的一些类似帖子后,我编写了下面的自定义分词器: import re from spacy.tokenizer import...

30得票3回答
通过语法检查(Python),从一组可能性中选择最流畅的文本

一些背景 我是佛罗里达新学院的文学专业学生,目前正在进行一个非常雄心勃勃的创意项目。该项目旨在通过算法生成诗歌。这个项目是用Python编写的。我的Python知识和自然语言处理知识都只来自于通过互联网自学。我已经从事这方面的工作约一年了,所以并不无助,但在各个阶段我都曾遇到过一些难题。目前...

14得票5回答
用 Python 翻译人类语言

有没有 Python 模块可以将文本从一种自然语言翻译成另一种?我计划使用 Python 脚本进行预处理和后处理文本。还有哪些集成了 Python 的方法可供使用?

9得票5回答
构建一个自然语言模型,可以修正拼写错误。

有哪些关于如何构建类似以下自然语言解析程序的书籍: 输入:I got to TALL you 输出:I got to TELL you 输入:Big RAT box 输出:Big RED box 输入:hoo un thum zend three 输出:one thousand thr...

18得票6回答
寻找一组集合的“最佳”组合方式

我有一个包含英语句子的字符串集合,名为 sentences。 我想创建一个名为 sentences2 的子集,该子集仅包含具有20个唯一单词的句子。当然,可以存在很多这样的子集,但是我想找到最“好”的那一个,所谓的“好”指的是这个子集中所有单词在 sentences2 中的表示都尽可能高。 ...

7得票5回答
检查字符串中是否包含英语句子

目前,我决定采用字典并遍历整个字典。每次我看到一个换行符,我就创建一个包含从该换行符到下一个换行符的字符串,然后我使用string.find()来查找该英文单词是否在其中。这需要很长时间,每个单词需要大约1/2至1/4秒才能验证。 它完美地工作,但我需要每秒检查成千上万个单词。我可以运行几个...

13得票2回答
计算相对Levenshtein距离 - 有意义吗?

我正在使用 Daitch-Mokotoff 算法和 Damerau-Levenshtein 算法来判断用户输入和应用程序中的值是否“相同”。 Levenshtein 距离是否应该被用作绝对值?如果一个单词有 20 个字母,距离为 4 就不算太糟糕。但如果这个单词只有 4 个字母…… 我现在...

10得票1回答
Linux上的Qt5-语言家在哪里?

我正在使用Linux Mint 16,遇到了一个问题。 我从Qt官网下载了二进制包安装了Qt Creator 5.2.1。但我没有Qt Linguist... 我已经从仓库安装了qtcreator和qt5-dev-tools(或类似命名),但仍然没有Linguist。我在哪里可以下载到它? 我...