非常业余的程序员在这里,希望得到你的帮助。
我经常需要编辑像这样的xml文件
--- blah blah blah plenty xml stuff above ---
<lex marker="mala" sentiment="negative"/>
<lex marker="malas" sentiment="negative"/>
<lex marker="maleducad\p{Ll}*" sentiment="negative" regex="true"/>
<lex marker="mali\p{Ll}+sima\p{Ll}*" sentiment="negative" regex="true"/>
<lex marker="mali\p{Ll}+simo\p{Ll}*" sentiment="negative" regex="true"/>
--- blah blah blah plenty xml stuff below ---
通过使用相当复杂的正则表达式搜索和替换过程,我只能提取标记属性的值。(这是我关心的全部内容)。
但这很耗时间,必须有一种在Python中查找属性marker="SOME_TEXT"的相当简单的方法,并将所有值放入一个数组中,然后之后再将该数组打印到文件中。但我无法想出解决方法:(
我正在寻找一种不需要导入任何XML库的方法,因为我希望将它保持尽可能简单(和合乎逻辑),让我的业余编程思维从中学习,并且我只对特定属性的数据感兴趣,我并不关心文件的其余部分(或其XML属性)。
我之所以询问Python是因为我认为这是一种我热衷于学习的语言。但如果你知道一种Linux终端的方法来处理它(如sed、awk等),我也很高兴采用那种方式。