我是第一次在这里发帖,所以我会尽量清楚地表达我需要的帮助。我对R相当新,这是我的第一个真正独立编程的经验。
我有大约2.5年的股票tick数据,每天都有自己的文件。这些文件是.txt格式,包含大约20-30百万行数据,平均每个文件大约有360MB。我现在只处理一个文件。我不需要这些文件中包含的所有数据,并且我希望使用编程来将文件压缩一下。
现在我的问题是,我在编写正确的代码时遇到了一些困难,以便让R理解我想要它做什么。
首先让我给您展示一些数据,以便您了解其格式。
M977
R 64266NRE1VEW107 FI0009653869 2EURXHEL 630 1
R 64516SSA0B 80SHB SE0002798108 8SEKXSTO 40 1
R 645730BBREEW750 FR0010734145 8EURXHEL 640 1
R 64655OXS1C 900SWE SE0002800136 8SEKXSTO 40 1
R 64663OXS1P 450SWE SE0002800219 8SEKXSTO 40 1
R 64801SSIEGV LU0362355355 11EURXCSE 160 1
M978
另一段数据片段:
M732
D 3547742
A 3551497B 200000 67110 02800
D 3550806
D 3547743
A 3551498S 250000 69228 09900
如您所见,每一行都以一个字母开头。每个字母代表了这一行的含义。例如,R
表示订单簿目录消息,M
表示上一秒之后的毫秒数,H
表示股票交易行动消息。总共使用了14个不同的字母。
我使用了readLines
函数将数据导入R中。但是当我想要处理数据时,这似乎需要R花费很长时间。
现在,我想编写一些if函数来判断如果第一个字母是R
,那么从偏移量1到4的代码意味着市场段标识符等,并让R添加这些列,以便我可以更加有结构地处理数据。
最佳的导入此类数据和创建某种形式的结构的方法是什么?例如,使用数据中的唯一ID信息逐个分析一只股票。
starts = c(1,16,30,38,46,50,54) ends = c(14,28,35,43,47,50,55) ldata = length(data) lstarts = length(starts) x = substring(data,rep(starts,rep(ldata,lstarts)),rep(ends,rep(ldata,lstarts))) matrix(x,ncol=lstarts)
是否可以将此代码分配给每个初始值?我尝试在每个字母后面写出它,但似乎不起作用。感谢您的反馈。 - Morten