35得票12回答
awk能够处理包含在引号字段内的逗号的CSV文件吗?

我正在使用awk来统计CSV文件中一列的总和。数据格式类似于:id, name, value 1, foo, 17 2, bar, 76 3, "I am the, question", 99 我曾使用以下awk脚本来计算总和:awk -F, '{sum+=$3} END {print sum...

34得票9回答
Python解析括号块

在Python中,最好的方法是什么,可以解析包含在匹配括号中的文本块?"{ { a } { b } { { { c } } } }" 初始应返回:[ "{ a } { b } { { { c } } }" ] 把它作为输入应该返回:[ "a", "b", "{ { c } }" ] 应该返回:...

33得票4回答
NLTK中的NN VBD IN DT NNS RB是什么意思?

当我对文本进行分块时,输出结果中会出现许多类似于NN、VBD、IN、DT、NNS、RB的代码。请问是否有一份列表可以告诉我这些代码的含义?我已经尝试了在谷歌上搜索nltk chunk code、nltk chunk grammar和nltk chunk tokens,但是没有找到任何解释这些代...

29得票5回答
从字符串中获取所有数字的最佳方法

有没有更好的方法从字符串"(123) 455-2344"获取"1234552344",而不是像这样做:var matches = Regex.Matches(input, @"[0-9]+", RegexOptions.Compiled); return String.Join(string...

26得票13回答
如何检测文本文件中使用了哪种分隔符?

我需要能够解析CSV和TSV文件。我不能指望用户知道它们之间的区别,因此我希望避免要求用户选择类型。有没有一种简单的方法来检测正在使用哪个分隔符? 一种方法是读入每一行并计算制表符和逗号的数量,并找出在每一行中最常使用的是哪个。当然,数据可能包括逗号或制表符,因此这可能比想象中更困难。 编...

25得票6回答
在前导数字和尾随字母之间拆分包含字母数字的字符串

我有一个字符串:$Order_num = "0982asdlkj"; 我该如何将其拆分成2个变量,一个包含数字元素,另一个包含字母元素? 数字元素长度可以是1到4,字母元素填充其余部分,使得每个order_num总共有10个字符。 我已经找到了PHP的explode函数...

22得票2回答
创建出色的解析器 - 从HTML/博客中提取相关文本

我正在尝试创建一个通用的HTML解析器,可在博客文章上很好地工作。我想将我的解析器指向特定条目的URL,并获取帖子本身的干净文本。我的基本方法(来自Python)是使用BeautifulSoup / Urllib2的组合,这还可以,但它假设您知道博客条目的正确标记。有没有更好的想法? 以下是...

21得票4回答
如果路径以“\”结尾,使用Powershell命令修剪路径

如果路径以 \ 结尾,我需要将其修剪。 C:\Ravi\ 我需要更改为 C:\Ravi 我有一个情况,路径不会以\结尾(那么它必须跳过)。 我尝试使用.EndsWith("\"),但当我使用\\而不是\时,它会失败。 在PowerShell中是否可以完成此操作,而不必诉诸条件...

21得票9回答
优雅的结构化文本文件解析

我需要解析一份在线聊天对话的记录。我的第一个想法是使用正则表达式来解决这个问题,但我想知道其他人使用了什么方法。 我在标题中使用“优雅”一词是因为我以前发现,仅依赖于正则表达式来完成这种任务可能会变得难以维护。 这些记录是由www.providesupport.com生成并发送到一个帐户,...

18得票4回答
将nltk生成的句法分析树保存为图片文件

有没有办法以编程方式将tree.draw()的绘图图像保存到图像文件中?我尝试查找文档,但我找不到任何内容。