133得票6回答
苹果如何在电子邮件中查找日期、时间和地址?

在iOS邮件客户端中,当电子邮件包含日期、时间或位置时,文本将变成超链接,只需点击链接即可创建约会或查看地图。这不仅适用于英语邮件,也适用于其他语言。我喜欢这个功能,想了解他们是如何实现的。 一种朴素的方法是使用许多正则表达式并运行它们全部。但是,这种方法不会很好地扩展,并且仅适用于特定的语...

84得票2回答
使用Python进行PDF解析 - 提取格式化和纯文本

我正在寻找一款PDF库,它可以让我从PDF文档中提取文本。我已经看过了PyPDF这个库,它可以很好地从PDF文档中提取文本。但是问题在于,如果文档中有表格,则表格中的文本将与其余部分的文本内联提取。这可能会产生一些无用且杂乱的文本部分(例如,许多数字混在一起)。 我想从PDF文档中提取文本,...

67得票2回答
CoNLL数据格式是什么?

我正在使用一个开源的jar包(Mate Parser),它在依存分析后以CoNLL 2009格式输出。我想要利用这些依存分析结果进行信息提取,但是我只理解CoNLL数据格式中的一部分内容。 有人可以解释一下CoNLL数据格式吗?

23得票4回答
从多个句子中选择或生成规范变体

我正在使用一个API,将我的GTIN/EAN查询映射到产品数据。 由于返回的数据源自商家产品信息,因此几乎普遍存在以下情况: 每个GTIN有多个结果 产品标题基本上没有结构 产品标题中“污染”了 与SEO相关的内容, 包含数量信息的内容, “买二送一”优惠等内容。 我正在寻找一种...

18得票4回答
Java媒体信息提取器

我需要一个媒体信息提取库(纯Java或JNI包装器),可以处理常见的媒体格式。我主要用于视频文件,并且需要至少以下这些信息: 视频长度(运行时间) 视频比特率 视频帧率 视频格式和编解码器 视频大小(宽度X高度) 音频通道数 音频格式 音频比特率和采样率 有几个库和工具可以使用,但我找...

14得票4回答
使用Python进行医疗信息提取

我是一名护士,会Python,但不是专家,只用它来处理DNA序列。 我们有人类语言编写的医院记录,我应该将这些数据插入数据库或CSV文件中,但它们超过了5000行,这可能很困难。所有数据都以一致的格式编写,让我给你展示一个例子。11/11/2010 - 09:00am : He got nau...

13得票2回答
使用DBPedia的Python示例脚本?

我正在编写一个Python脚本,从几个国家和语言的成千上万篇新闻文章中提取“实体名称”。 我想利用令人惊叹的DBPedia结构化知识,例如查找“埃及艺术家”的姓名和“加拿大公司”的名称。 (如果这些信息以SQL形式存在,我就不会有问题了。) 我宁愿下载DBPedia内容并在离线状态下使用...

12得票2回答
从文本中提取动作的自然语言处理技术

我希望有人能指导我如何将文本中的动作分离出来。假设我有这段文本。我一直在寻找特定于操作的方法,但没有找到什么。它需要比仅选择动词更智能,因为有时一个操作与多个动词相关联,例如第二个项目包含“go”、“pick-up”和“get”,但这是单个操作的组成部分。当然,“Tim's flight”只是...

12得票1回答
如何将依存路径编码为分类特征?

我正在尝试实现动词对之间的关系抽取。我想使用从一个动词到另一个动词的依存路径作为分类器的特征(用于预测是否存在关系X)。但是我不确定如何将依存路径编码为特征。以下是一些例子依存路径,它们是来自StanfordCoreNLP Collapsed Dependencies的以空格分隔的关系注释:n...

11得票2回答
信息抽取和文本挖掘有什么区别?

这可能看起来很简单,但我感到困惑。 文本挖掘和信息抽取有什么区别?