这里需要澄清一些有关Google BigQuery的事情。
BigQuery是一个 混合型 系统,它允许您将数据存储在列中,并且通过额外的功能将其带入NoSQL领域,例如 record
类型和 nested
功能。此外,您可以在一个2M字节的字符串列中存储原始文档,例如 JSON
文档。请参阅其他适用的数据格式和限制。您还可以使用JavaScript编写用户定义函数,例如:您可以粘贴一个执行NLP JavaScript库的库。
现在您拥有了所有这些存储数据的功能,您可以使用JSON函数来查询存储在其中一个列中的文档,因此这可以用作无模式存储,因为您没有为该列定义JSON文档结构,而只是将其存储为JSON格式。明白了吗?
以下是一个基本示例,从元列中查询(即一个JSON文档),查找原因键中包含“取消订阅”单词的用户数量:
SELECT
SUM(IF(JSON_EXTRACT_SCALAR(meta,'$.reason') contains 'unsubscribed',1,0))
FROM ...
另一方面,您可以使用表通配符查询。如果您的行跨越多个表,则需要使用它。表通配符函数是从特定一组表中查询数据的一种经济实惠的方式。当您使用表通配符函数时,BigQuery仅访问和收费与通配符匹配的表。这意味着建议将数据存储在类似的表中,每个表按一组时间框架划分,例如每天,每月表。
我们不应忘记,BigQuery的设计是只追加而不更新,因此您无法更新旧记录,没有UPDATE语言结构(更新:现在有DML语言结构来执行某些更新/删除操作)。相反,您需要追加新记录,并且您的查询必须编写成始终使用数据的最新版本。如果您的系统是事件驱动的,则非常简单,因为每个事件都将附加到BQ中。但是,如果用户更新其个人资料,则需要再次存储个人资料,不能更新旧行。您需要有一个列版本/日期,以告诉您哪个是最新版本,然后您的查询将首先获取行的最新版本,然后处理逻辑。
您可以使用类似于over/partition by该字段,并使用最近值seqnum=1
的方法。
这将从profile
返回每个user_id
的最后一个email
,由timestamp
列定义的最近条目。
SELECT email
FROM
(SELECT email
row_number() over (partition BY user_id
ORDER BY TIMESTAMP DESC) seqnum
FROM [profile]
)
WHERE seqnum=1