Python中类似Excel的文本导入:自动解析固定宽度列。

6
在Excel中,如果您导入空格分隔的文本,其中列没有完全对齐并且数据可能丢失,例如:
  pH             pKa/Em  n(slope) 1000*chi2      vdw0  
CYS-I0014_        >14.0                          0.00  
LYS+I0013_       11.827     0.781     0.440      0.18

你可以选择将其视为固定宽度列,Excel 可以自动计算列宽度,通常结果还不错。是否有 Python 库可以像 Excel 一样自动地分割格式不正确的固定宽度文本?
编辑:这是在 Excel 中导入固定宽度文本的样子。在第一步中,只需选中“固定宽度”单选按钮,然后在第二步中,Excel 已经自动添加了列分隔符。唯一无法正确执行此操作的情况是每行中在每个列分隔符处没有至少一个重叠的空格字符。

3
可以使用csv模块解析固定宽度的列吗? - Eric O. Lebigot
@Adam:其中一些回答部分地可行。仍然缺少的是一种像 Excel 一样自动确定列宽的好方法。 - tel
1个回答

4
首先,Excel(2003,在家里)并不是那么聪明。如果你的列1000 * chi2包含空格,例如1000 * chi2,Excel会猜错。
平凡的情况:如果你的数据最初是由制表符(而不是空格)分隔的,并且使用多个制表符表示空列,则至少在TCL中,按制表符内容拆分每行很容易,我猜在Python中也是如此平凡。
但我猜你的问题是他们只使用了空格字符。 解决这个问题的最大线索是将文本粘贴到记事本中并选择固定大小字体。一切都整齐地对齐,你可以使用每行中的字符数作为“长度”的度量。
因此,如果你可以依赖于输入的这个特性,那么你可以使用“筛选”方法自动识别列的断点。在第一次遍历中处理行时,注意占用非空白字符的“位置”,如果它曾经被非空白字符占用过,则从列表中删除该位置。随着遍历的进行,你很快就会得到一组永远不会被非空白字符占用的位置。然后,这些位置就是你的列分隔符。在你的示例中,“筛选器”最终会得到10-16、23-24、32、42-47这些位置永远不会被非空白字符占用(如果我能数清楚的话)。 因此,该集合的补集是你的数据必须位于其中的列位置的集合。 因此,对于每行,每个非空白块都将精确地适合于上面识别出的列位置集(即补集)中的一个。 我从未在Python中编写过代码,因此附上了一个TCL脚本,它将使用筛选器方法在文本中标识列断点,并发出一个新的文本文件,其中恰好将那些空格替换为单个制表符 - 即10-16由一个制表符替换,23-24由另一个制表符替换,等等。 结果文件是以制表符分隔的,即平凡的情况。我承认我只在你的小数据案例中尝试过它,将其复制到名为ex.txt的文本文件中;输出到ex_.txt。我怀疑如果标题包含空格,它也可能存在问题。
希望这可以帮助!
set fh [open ex.txt]
set contents [read $fh];#ok for small-to-medium files.
close $fh

#first pass
set occupied {}
set lines [split $contents \n];#split contents at line breaks.
foreach line $lines {
  set chrs [split $line {}];#split each line into chars.
  set pos 0
  foreach chr $chrs {
    if {$chr ne " "} {
      lappend occupied $pos
    }
    incr pos
  }
}

#drop out with long list of occupied "positions": sort to create
#our sieve.
set datacols [lsort -unique -integer $occupied]
puts "occupied: $datacols"

#identify column boundaries.
set colset {}
set start [lindex $datacols 0];#first occupied pos might be > 0??
foreach index $datacols {
  if {$start < $index} {
    set end $index;incr end -1
    lappend colset [list $start $end]
    puts "col break starts at $start, ends at $end";#some instro!
    set start $index
  }
  incr start
}

#Now convert input file to trivial case output file, replacing
#sieved space chars with tab characters.
set tesloc [lreverse $colset];#reverse the column list!
set fh [open ex_.txt w]
foreach line $lines {
  foreach ele $tesloc {
    set line [string replace $line [lindex $ele 0] [lindex $ele 1] "\t" ]
  }
  puts "newline is $line"
  puts $fh $line
}
close $fh

1
这种方法在Python中实现并不困难,而且很可能是Excel算法的合理近似。 - John Y

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接