有没有人对于与自定义报告编写相关的数据分析工作流程有什么建议?使用案例基本上是这样的:
客户委托编写使用数据分析的报告,例如一个水区域的人口估计和相关地图。
分析师下载一些数据,处理数据并保存结果(例如添加每个单位的人口列,或根据区域边界对数据进行子集化)。
分析师分析在(2)中创建的数据,接近目标,但发现需要更多数据,因此返回(1)。
反复操作,直到表格和图形符合QA / QC并满足客户要求。
编写报告并包含表格和图形。
明年,客户会回来想要更新。这应该是通过新下载的上游数据更新(例如从去年取得建筑许可),然后按下"RECALCULATE"按钮就可以了,除非规格发生变化。
目前,我只是创建一个目录,并尽力处理它。我希望能够更加系统化地处理,所以我希望有人已经搞定了这个问题... 我使用电子表格、SQL、ARCGIS、R和Unix工具的组合。
谢谢!
PS:
以下是一个基本的Makefile,检查各种中间数据集(带.RData
后缀)和脚本(.R
后缀)的依赖关系。Make使用时间戳来检查依赖关系,因此如果您touch ss07por.csv
,它将看到该文件比所有依赖于它的文件/目标都要新,并按顺序执行给定的脚本来更新它们。这仍然是一个正在进行的工作,包括将其放入SQL数据库的步骤,以及使用sweave之类的模板语言的步骤。请注意,Make依赖于其语法中的制表符,因此在剪切和粘贴之前请阅读手册。享受并提供反馈!
http://www.gnu.org/software/make/manual/html_node/index.html#Top
R=/home/wsprague/R-2.9.2/bin/R persondata.RData : ImportData.R ../../DATA/ss07por.csv Functions.R $R --slave -f ImportData.R persondata.Munged.RData : MungeData.R persondata.RData Functions.R $R --slave -f MungeData.R
report.txt: TabulateAndGraph.R persondata.Munged.RData Functions.R $R --slave -f TabulateAndGraph.R > report.txt