我正在寻找用于生成随机但真实文本的工具。我已经自己实现了一个马尔可夫链文本生成器,虽然结果很有前途,但是我的改进尝试并没有取得很大的成功。我希望工具能够消耗一个语料库或者基于上下文敏感或上下文无关语法进行操作。我希望这个工具适用于包含在另一个项目中。我最近的大部分工作都是在Java中进行的,因此最好使用这种语言的工具,但我也可以接受C#,C,C ++甚至JavaScript的工具。这与question类似,但范围更大。
或者,您可以使用WordNet与您的语料库一起进行两次操作:
这种方法也存在很多问题:例如,您需要从周围的单词中获取上下文才能知道要选择哪个同音异义词。在Wordnet中查找“quick”会产生关于快速的信息,但也会包括有关指甲的一部分的信息。
我知道这并不能解决你对库或工具的需求,但可能会给你一些想法。
我已经使用了许多数据集,包括维基新闻文章,来完成这个目的。
我使用了这个工具从中提取文本: http://alas.matf.bg.ac.rs/~mr04069/WikiExtractor.py