S3 select 价格如何计算?S3 select 中返回和扫描的数据是什么意思?

11

我有一百万行CSV数据。选择10行,是否只会收费10行?S3 Select中的“返回的数据”和“扫描的数据”是什么意思?

S3 Select这些术语的文档相对较少。


将此标记为 prestodb,因为它也适用于 Presto 本身(https://github.com/prestodb/presto/pull/11033)。 - Piotr Findeisen
1个回答

6
为了简化问题,我们先不考虑 S3 以列方式读取数据。假设您有以下数据:
| City       | Last Updated Date   |
|------------|---------------------|
| London     | 1st Jan             |
| London     | 2nd Jan             |
| New Delhi  | 2nd Jan             |

获取最新更新日期的查询

  • 会强制S3扫描所有三个记录
  • 但返回的记录只有2个(当最后更新日期是1月2日时)

选择最后更新日期为1月1日的城市的查询

  • 将扫描所有3行
  • 但只返回1个字符串 - "新德里".

因此,根据您的查询,它可能会扫描更多数据(3行),但返回更少的数据(2行)。

我希望你现在了解数据扫描和数据返回之间的区别。


你会在什么样的情况下查询 S3 数据?只能使用 Athena 吗?还是还有其他情况? - galeop
3
@galeop 这是关于 AWS 服务的 S3 Select 的内容 https://docs.aws.amazon.com/AmazonS3/latest/userguide/selecting-content-from-objects.html 它允许您使用 SQL 在存储桶中过滤数据。 - Ari

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接