我正在处理包含以行为分隔符的数据的大型文本文件(约20MB)。大多数数据条目都是重复的,我想删除这些重复项,只保留一份副本。
此外,为了使问题稍微复杂化,有些条目会重复附加额外的信息。在这种情况下,我需要保留包含额外信息的条目并删除旧版本。
例如, 我需要从这个:
有什么有效的方法可以做到这一点?
我可以使用awk、python或任何标准的Linux命令行工具。
谢谢。
此外,为了使问题稍微复杂化,有些条目会重复附加额外的信息。在这种情况下,我需要保留包含额外信息的条目并删除旧版本。
例如, 我需要从这个:
BOB 123 1DB JIM 456 3DB AX DAVE 789 1DB BOB 123 1DB JIM 456 3DB AX DAVE 789 1DB BOB 123 1DB EXTRA BITS到这个:
JIM 456 3DB AX DAVE 789 1DB BOB 123 1DB EXTRA BITS注意:最终顺序无关紧要。
有什么有效的方法可以做到这一点?
我可以使用awk、python或任何标准的Linux命令行工具。
谢谢。
cat file|sort|uniq
,但这无法处理带有“额外部分”的行。 - Marc B