使用正则表达式解析字符串 - pig

Question

使用正则表达式解析字符串 - pig

3

我在Pig的字符串解析方面卡住了。

我已经查看了regex_extract和regex_extract_all相关的文档，并希望使用其中一个函数。

我有文件'/logs/test.log'：

cat '/logs/test.log'
user=242562&friend=6226&friend=93856&age=35&friend=35900

我想从url中提取friend标签，在这种情况下，我有3个相同的标签。regex_extract似乎只适用于第一个实例，这是我预期的，对于regex_extract_all，似乎我必须知道整个字符串模式，而此模式在源文件的每一行上都会改变。

使用regex_extract看起来还可以，但此选项只给出第一个标签。

 [root@test]# pig -x local
 A = LOAD './test.log';
 B = FOREACH A GENERATE REGEX_EXTRACT($0, 'friend=([0-9]*)',1);
 dump B;
 (6226)

我看到的 regex_extract_all 的示例都是在正则表达式中寻找所有标签：

  B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT_ALL($0, 'user=([0-9]+?)&friend=([0-9]+?)&friend=([0-9]+?)&.+?'));
 dump B;
 (242562,6226,93856)

那似乎可以解决问题，但我只想提取好友 - (6226,93856,35900)。我还有一些情况，每个用户可能有多于或少于3个好友。

有什么想法吗？

同时考虑使用类似FLATTEN(TOKENIZE($0,'&'))的东西，然后在SUBSTRING($0,0,INDEXOF($0,'=')) == 'friend'上进行过滤，或者类似这样的东西，但想知道是否有一个好的正则表达式方法。

- jeff

2

有点放弃了，只是使用STREAM到我编写的一个快速脚本。不想再维护另一个脚本，但这是一个更快的解决方案。后悔花了那么多时间试图让它原生工作。 - jeff

2个回答

0

试试这个：

a = LOAD '/logs/test.log' USING PigStorage('&') as (f1, f2, f3, f4, f5);
b = FOREACH a GENERATE REGEX_EXTRACT(f2,'friend=([0-9]*)', 1), 
                       REGEX_EXTRACT(f3,'friend=([0-9]*)', 1),
                       REGEX_EXTRACT(f5,'friend=([0-9]*)', 1);
DUMP b;

- ddebeul

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ruslan · Accepted Answer

这可以通过简单的字符串操作实现：

inputs = LOAD 'input' AS (line: chararray);
tokenized = FOREACH inputs GENERATE FLATTEN(TOKENIZE(line, '&')) AS parameter;
filtered = FILTER tokenized BY INDEXOF(parameter, 'friend=') != -1;
result = FOREACH filtered GENERATE SUBSTRING(parameter, 7, (int)SIZE(parameter)) AS   friend_number;
DESCRIBE tokenized;
DUMP tokenized;
DESCRIBE filtered;
DUMP filtered;
DESCRIBE result;
DUMP result;

结果：

tokenized: {parameter: chararray}
(user=242562)
(friend=6226)
(friend=93856)
(age=35)
(friend=35900)
filtered: {parameter: chararray}
(friend=6226)
(friend=93856)
(friend=35900)
result: {friend_number: chararray}
(6226)
(93856)
(35900)