我对Apache Spark非常不熟悉,正在尝试使用SchemaRDD处理我的管道分割文本文件。我在我的Mac上使用Scala 10独立安装了Spark 1.5.2。我有一个包含以下代表性数据的CSV文件,我正在尝试根据记录的第一个值(列)将其拆分成4个不同的文件。非常感谢您能提供任何帮助。
1|1.8|20140801T081137|115810740
2|20140714T060000|335|22159892|3657|0.00|||181
2|20140714T061500|335|22159892|3657|0.00|||157
2|20140714T063000|335|22159892|3657|0.00|||156
2|20140714T064500|335|22159892|3657|0.00|||66
2|20140714T070000|335|22159892|3657|0.01|||633
2|20140714T071500|335|22159892|3657|0.01|||1087
3|34|Starz
3|35|VH1
3|36|CSPAN: Cable Satellite Public Affairs Network
3|37|Encore
3|278|CMT: Country Music Television
3|281|Telehit
4|625363|1852400|Matlock|9212|The Divorce
4|625719|1852400|Matlock|16|The Rat Pack
4|625849|1846952|Smallville|43|Calling