8得票1回答
令牌化和分词的区别

令牌化和分词在NLP中有何区别?我查过它们,但并没有找到任何不同之处。 令牌化是将文本分成单个单元(通常是单词)的过程。分词是将文本分解为更小的单位,如字符或子字符串。因此,分词可以创建新单元,而令牌化不会。

8得票2回答
Javascript 实现 UAX 29 Unicode 文本分段?

有没有人知道任何关于UAX #29, Unicode Text Segmentation的JavaScript实现?我特别感兴趣的是单词边界。 当我发现XRegExp时,我很有希望,但它似乎使用了标准的JavaScript实现\b。

8得票3回答
如何将段落拆分成句子?

请看下面的内容。 String[]sentenceHolder = titleAndBodyContainer.split("\n|\\.(?!\\d)|(?<!\\d)\\."); 这是我尝试将一个段落分成句子的方式。但是,有一个问题。我的段落包括像2014年1月13日这样的日期...

8得票5回答
基于自然语言处理的句子检测

我尝试从大量文本中解析出句子,使用了Java和NLP工具,如OpenNLP和Stanford的Parser。 但是这里有一个问题。虽然这两个解析器都很好,但当遇到非统一文本时它们就无法正常工作。 例如,在我的文本中,大多数句子都是用句号分隔的,但在某些情况下,如项目符号,它们不是。这时这两...

8得票7回答
在连续字符串中解析单词

如果我有一个没有空格的单词字符串,如何解析这些单词,假设我有一个包含这些单词的字典/列表? 例如,如果我的字符串是"thisisastringwithwords",如何使用字典创建输出"this is a string with words"? 我听说使用数据结构Tries可以帮助,但也许...

8得票1回答
如何自定义文本分词以避免在双子母之间断开?

工作原理: #!/usr/bin/env python3 from uniseg.graphemecluster import grapheme_clusters def albanian_digraph_dh(s, breakables): for i, breakable in ...

7得票5回答
独立子句边界消歧和独立子句分割 - 是否有相应的工具可用?

我记得很久以前浏览了来自NLTK网站的分句部分。 我使用“句点+空格”替换为“句点+手动换行符”来实现分句,例如使用Microsoft Word中的替换 (. -> .^p) 或Chrome扩展程序: https://github.com/AhmadHassanAwan/Senten...

7得票2回答
Java库,用于查找句子边界

有没有人知道一个Java库,可以处理句子边界的查找?我认为这将是一个聪明的StringTokenizer实现,它知道语言中可以使用的所有句子终止符。 以下是我的BreakIterator使用经验: 使用此示例: 我有以下日文: 今日はパソコンを買った。高性能のマックは早い!とても快適です...

7得票2回答
如何在Python中迭代字符串的句子?

假设我有一个字符串 text = "A compiler translates code from a source language"。我想要做两件事情: I need to iterate through each word and stem using the NLTK librar...

7得票3回答
如何从输入中获取句子数量?

似乎很难在文本中检测句子边界。引号如 .!? 可用于分隔句子,但不太精确,因为可能存在歧义的单词和引用,例如 U.S.A 或 Prof. 或 Dr. 我正在学习 Tperlregex 库和 Jan Goyvaerts 的正则表达式食谱,但我不知道如何编写检测句子的表达式? 使用 Tperlr...