21得票7回答
Python提取包含指定单词的句子

我正试图从文本中提取所有包含特定单词的句子。txt="I like to eat apple. Me too. Let's go buy some apples." txt = "." + txt re.findall(r"\."+".+"+"apple"+".+"+"\.", txt) 但它...

21得票6回答
使用动态规划将字符串分割为有效单词字符串

我需要找到一种动态规划算法来解决这个问题。我已经尝试过但无法理解。以下是问题: 给定一个包含n个字符的字符串s[1...n],你认为它是一个有损文本文件,其中所有标点符号都消失了(因此看起来像"itwasthebestoftimes...")。 你希望使用字典重建文档,这个字典以布尔函数di...

21得票10回答
如何将字符串拆分为单词。例如:"stringintowords" -> "String Into Words"?

如何将一个没有包含任何空格或标点符号的字符串正确分割成单词? 例如:"stringintowords" -> "String Into Words" 请问应该使用哪种算法? !更新:对于那些认为这个问题只是出自好奇心的人,这个算法可能被用来将驼峰式域名转换为正常形式("sportandf...

19得票1回答
如何在LaTeX中正确地将单词分解成音节

我正在使用LaTeX撰写我的MSc论文,但有时候我的单词被错误分割。 我的语言是西班牙语,我正在使用babel软件包。 我该如何解决这个问题? 例如:propuestos出现为prop-uestos(uestos在下一行)。它应该是pro-puestos。 谢谢!!

19得票7回答
使用Python字典查找修复带空格的单词?

我提取了一份文件中的句子清单,正在对这些句子进行预处理以使其更有意义。我遇到了以下问题: 我有这样的句子:"more recen t ly the develop ment, wh ich is a po ten t " 我想使用查找字典来纠正这样的句子,以删除不必要的空格。 最终的输...

16得票6回答
提取句子/字符串中的最后一个单词?

我有一个字符串数组,这些字符串的长度和内容各不相同。现在我想要一种简便的方法从每个字符串中提取最后一个单词,而不用知道该单词的长度或该字符串的长度。类似于:array.each{|string| puts string.fetch(" ", last)

16得票6回答
PHP句子边界检测

我希望在PHP中将一段文本分成句子。目前我正在使用正则表达式,准确率约为95%,希望通过采用更好的方法来提高准确率。我看到了在Perl、Java和C中实现这个功能的NLP工具,但没有找到适用于PHP的工具。您知道是否有这样的工具吗?

15得票3回答
一个可行的解决方案,用于分割高棉语单词?

我正在研究一种将长的高棉语(柬埔寨语)行分割成单词(UTF-8编码)的解决方案。高棉语不使用单词间的空格。虽然已经有一些解决方案存在,但它们远非足够令人满意(这里和这里),并且这些项目已被搁置。 以下是需要分割的高棉语样本行(它们可以比这个更长): 创建一个可行的解决方案以分割高棉语单词的...

15得票1回答
OpenCV - 手写线条裁剪(线条分割)

我正在尝试使用Python和OpenCV构建手写识别系统。字符的识别不是问题,但分割是一个难点。我已经成功地: 将单词分割成单个字符 按照所需顺序将单个句子分割为单词。 但我无法将文档中的不同行分割开来。我尝试了对轮廓进行排序(以避免进行行分割并仅使用单词分割),但它没有起作用。我使用...

15得票8回答
将PHP中的一个段落分解为句子

我一直在使用explode(".",$mystring) 将段落拆分为句子。但是,这并不包括以不同标点符号结尾的句子,例如! ?:; 是否有一种方法可以使用数组作为分隔符,而不是单个字符?或者是否有其他巧妙的方法可以使用各种标点符号进行拆分? 我尝试过了 要将一个段落拆分成句子,但是无法涵...