21得票7回答
Python提取包含指定单词的句子

我正试图从文本中提取所有包含特定单词的句子。txt="I like to eat apple. Me too. Let's go buy some apples." txt = "." + txt re.findall(r"\."+".+"+"apple"+".+"+"\.", txt) 但它...

15得票3回答
一个可行的解决方案,用于分割高棉语单词?

我正在研究一种将长的高棉语(柬埔寨语)行分割成单词(UTF-8编码)的解决方案。高棉语不使用单词间的空格。虽然已经有一些解决方案存在,但它们远非足够令人满意(这里和这里),并且这些项目已被搁置。 以下是需要分割的高棉语样本行(它们可以比这个更长): 创建一个可行的解决方案以分割高棉语单词的...

19得票7回答
使用Python字典查找修复带空格的单词?

我提取了一份文件中的句子清单,正在对这些句子进行预处理以使其更有意义。我遇到了以下问题: 我有这样的句子:"more recen t ly the develop ment, wh ich is a po ten t " 我想使用查找字典来纠正这样的句子,以删除不必要的空格。 最终的输...

15得票3回答
如何使用自然语言处理将非结构化文本内容分成不同的段落?

以下未结构化文本涵盖三个明显主题:史泰龙、费城和美国革命。但您会使用哪种算法或技术将此内容分成不同的段落? 分类器在这种情况下不起作用。我还尝试使用Jaccard相似性分析器来查找连续句子之间的距离,并尝试将连续句子分组为一个段落,如果它们之间的距离小于给定值。是否有更好的方法? 这是我的...

14得票11回答
将一个句子分割成单独的单词

我需要将一个中文句子分成单独的词。中文的问题在于没有空格。例如,句子可能如下所示:主楼怎么走(如果有空格,它应该是:主楼 怎么 走)。 目前我能想到的解决方案是:我有一个包含中文词汇的字典(存在数据库中)。脚本将会: 尝试在数据库中查找句子的前两个字符(主楼), 如果主楼实际上是一个单词...

10得票7回答
如何将句子中第一个单词的首字母大写?

我正在尝试编写一个函数来清理用户输入。 我不试图使它完美。我宁愿有一些名称和缩写是小写的,而不是整段都是大写的。 我认为该函数应该使用正则表达式,但我对它们不太熟悉,需要一些帮助。 如果以下表达式后面跟着一个字母,我想把那个字母变成大写。 "." ". " (followed by a...

8得票1回答
令牌化和分词的区别

令牌化和分词在NLP中有何区别?我查过它们,但并没有找到任何不同之处。 令牌化是将文本分成单个单元(通常是单词)的过程。分词是将文本分解为更小的单位,如字符或子字符串。因此,分词可以创建新单元,而令牌化不会。

52得票3回答
Haskell文件读取

我最近刚开始学习 Haskell ,但是我很难弄清楚文件读取的工作原理。 例如,我有一个包含数字行的文本文件 "test.txt":32 4 2 30 300 5 我想逐行读取并评估每个单词,并将它们相加。 因此,我正在尝试做这样的事情:import System.IO import Co...

8得票3回答
如何将段落拆分成句子?

请看下面的内容。 String[]sentenceHolder = titleAndBodyContainer.split("\n|\\.(?!\\d)|(?<!\\d)\\."); 这是我尝试将一个段落分成句子的方式。但是,有一个问题。我的段落包括像2014年1月13日这样的日期...

52得票12回答
在文本文件中查找特定单词并替换整行

我怎样使用php替换文件中特定行的文本? 我不知道这一行的编号。我想要替换一个包含特定单词的行。