我使用R进行数据分析,感到非常满意。但是数据清理可能需要更简便一些。因此,我正在考虑学习另一种适用于这项任务的语言。具体而言,我正在寻找一种工具,可用于获取原始数据,删除不必要的变量或观察结果,并将其格式化以便在R中轻松加载。内容主要包括数字和字符串数据,而不是多行文本。
我正在考虑awk/sed组合与Python。 (我知道Perl是另一个选择,但如果我要学习另一种完整的语言,Python似乎是更好、更可扩展的选择。)
sed/awk的优点是可以更快地学习。缺点是这种组合不如Python可扩展。 实际上,如果我学习了Python,我可能会想象出一些“任务膨胀”的情况,这也是可以接受的,但却不是我的目标。
我考虑的另一个问题是应用于大型数据集的问题。据我所知,awk / sed逐行操作,而Python通常会将所有数据存入内存中。这可能是awk/sed的另一个优势。
有其他我忽略的问题吗?您能提供的任何建议都将不胜感激。 (我包括了R标签,以便R用户提供其清理建议。)