我正在使用SparkR 1.6,并且有一个包含数百万行的数据框。其中一个名为“categories”的列包含具有以下模式的字符串:
我想要将每个字符串分割,并创建“n”个新列,其中“n”是可能的类别数量(这里n = 5,但实际上可能超过50)。 每个新列将包含一个布尔值,表示类别的存在/不存在,例如:
这如何仅使用sparkR api执行?谢谢您的时间。
祝好。
categories
1 cat1,cat2,cat3
2 cat1,cat2
3 cat3, cat4
4 cat5
我想要将每个字符串分割,并创建“n”个新列,其中“n”是可能的类别数量(这里n = 5,但实际上可能超过50)。 每个新列将包含一个布尔值,表示类别的存在/不存在,例如:
cat1 cat2 cat3 cat4 cat5
1 TRUE TRUE TRUE FALSE FALSE
2 TRUE TRUE FALSE FALSE FALSE
3 FALSE FALSE TRUE TRUE FALSE
4 FALSE FALSE FALSE FALSE TRUE
这如何仅使用sparkR api执行?谢谢您的时间。
祝好。