Nginx代理Amazon S3资源

87

我正在执行一些WPO任务,所以PageSpeed建议我利用浏览器缓存。我已经成功地为我的Nginx服务器中的一些静态文件进行了改进,但是我的存储在Amazon S3服务器中的图像文件仍然没有被优化。

我阅读了一种方法,涉及更新S3中的每个文件以包括一些头部元标记(Expires和Cache-Control)。我认为这不是一个好方法。因为我有成千上万个文件,所以这对我来说不可行。

我认为最方便的方法是配置我的Nginx 1.6.0服务器代理S3文件。我已经阅读了相关内容,但是我对服务器配置一窍不通,所以我从以下网站获取了一些示例:https://gist.github.com/benjaminbarbe/1961db5ffbaad57eff12

我将这个location代码添加到我的nginx配置文件中的server块内:

#inside server block
location /mybucket.s3.amazonaws.com/ {


        proxy_http_version     1.1;
        proxy_set_header       Host mybucket.s3.amazonaws.com;
        proxy_set_header       Authorization '';
        proxy_hide_header      x-amz-id-2;
        proxy_hide_header      x-amz-request-id;
        proxy_hide_header      Set-Cookie;
        proxy_ignore_headers   "Set-Cookie";
        proxy_buffering        off;
        proxy_intercept_errors on;      
        proxy_pass             http://mybucket.s3.amazonaws.com;
      }

肯定的是,这对我不起作用。我的请求中没有包含标题。所以,首先我认为这些请求与位置不匹配。

Accept-Ranges:bytes
Content-Length:90810
Content-Type:image/jpeg
Date:Fri, 23 Jun 2017 04:53:56 GMT
ETag:"4fd0be549fbcaf9b47c18a15146cdf16"
Last-Modified:Tue, 09 Jun 2015 09:47:13 GMT
Server:AmazonS3
x-amz-id-2:cKsq1qRra74DqVsTewh3P3sgzVUoPR8aAT2NFCuwA+JjCdDZfk7/7x/C0WPjBa51GEb4C8LyAIc=
x-amz-request-id:94EADB4EDD3DE1C1

也许可以通过脚本修改现有对象的缓存控制,例如 https://chriskief.com/2014/07/13/setting-s3-cache-metadata/。 - jarmod
@Michael-sqlbot 不,我对服务器配置几乎一无所知。感谢您的帮助。 - Rober
你是对的。我认为请求没有被Nginx处理。这是一个资源请求示例:http://yanpy.dev.s3.amazonaws.com/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg 我该如何设置位置?@Michael-sqlbot - Rober
不知道你使用的框架/环境是什么,很难猜测基本URL可能如何配置。 - Michael - sqlbot
你考虑过使用CloudFront吗?它与S3轻松集成,可以自动设置这些标头,并且具有全球范围的可用性。 - roryrjb
显示剩余3条评论
3个回答

196
您通过Nginx代理S3文件的方法非常有意义。它解决了许多问题,并带来了额外的好处,比如掩盖URL、代理缓存、通过卸载SSL/TLS来加速传输。你做得几乎正确,让我展示一下还差些什么才能完美。
对于样例查询,我使用了在原问题的公共评论中提到的S3桶和图像URL。
我们从检查Amazon S3文件头开始。
curl -I http://yanpy.dev.s3.amazonaws.com/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg

HTTP/1.1 200 OK
Date: Sun, 25 Jun 2017 17:49:10 GMT
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Accept-Ranges: bytes
Content-Type: binary/octet-stream
Content-Length: 378843
Server: AmazonS3
我们可以看到缺少Cache-Control,但是已经配置了条件GET头。当我们重复使用E-Tag/Last-Modified(这就是浏览器客户端缓存的工作原理),我们会得到HTTP 304以及空的Content-Length。这个的解释是客户端(在我们的情况下是curl)查询资源,除非文件在服务器上被修改,否则不需要传输数据。
curl -I http://yanpy.dev.s3.amazonaws.com/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg 
--header "If-None-Match: 37a907fc5dd7cfd0c428af78f09e95a9"

HTTP/1.1 304 Not Modified
Date: Sun, 25 Jun 2017 17:53:33 GMT
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Server: AmazonS3

curl -I http://yanpy.dev.s3.amazonaws.com/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg 
--header "If-Modified-Since: Wed, 21 Jun 2017 07:42:31 GMT"

HTTP/1.1 304 Not Modified
Date: Sun, 25 Jun 2017 18:17:34 GMT
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Server: AmazonS3
"PageSpeed建议利用浏览器缓存"这意味着缺少Cache-Control。将Nginx作为S3文件的代理不仅解决了缺少标头的问题,还使用Nginx代理缓存节省了流量。我使用macOS,但是Nginx配置在Linux上的工作方式完全相同,无需修改。步骤如下: 1.安装Nginx。"
brew update && brew install nginx

2.配置Nginx代理S3存储桶,参见以下配置:

3.通过Nginx请求文件。请注意Server头,我们现在看到的是Nginx而不是Amazon S3:

curl -I http://localhost:8080/s3/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg

HTTP/1.1 200 OK
Server: nginx/1.12.0
Date: Sun, 25 Jun 2017 18:30:26 GMT
Content-Type: binary/octet-stream
Content-Length: 378843
Connection: keep-alive
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Accept-Ranges: bytes
Cache-Control: max-age=31536000

通过 Nginx 请求文件

4.使用条件 GET 在 Nginx 代理中请求文件:

curl -I http://localhost:8080/s3/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg 
--header "If-None-Match: 37a907fc5dd7cfd0c428af78f09e95a9"

HTTP/1.1 304 Not Modified
Server: nginx/1.12.0
Date: Sun, 25 Jun 2017 18:32:16 GMT
Connection: keep-alive
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Cache-Control: max-age=31536000

使用Nginx代理条件GET请求文件

5. 使用Nginx代理缓存请求文件,请查看X-Cache-Status头部,其值为MISS,直到第一次请求后缓存被预热。

curl -I http://localhost:8080/s3_cached/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg
HTTP/1.1 200 OK
Server: nginx/1.12.0
Date: Sun, 25 Jun 2017 18:40:45 GMT
Content-Type: binary/octet-stream
Content-Length: 378843
Connection: keep-alive
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Cache-Control: max-age=31536000
X-Cache-Status: HIT
Accept-Ranges: bytes

使用 Nginx 代理缓存请求文件

根据 Nginx 官方文档,我提供了优化缓存设置的 Nginx S3 配置,支持以下选项:

  • proxy_cache_revalidate 指示 NGINX 在从源服务器刷新内容时使用条件 GET 请求
  • proxy_cache_use_stale 指令的 updating 参数指示 NGINX 在更新正在下载的项目时,当客户端请求某个项目时提供陈旧内容,而不是将重复请求转发到服务器
  • 启用proxy_cache_lock,如果多个客户端请求未在缓存中(MISS)的文件,则只允许第一个请求通过到源服务器

Nginx 配置

worker_processes  1;
daemon off;

error_log  /dev/stdout info;
pid        /usr/local/var/nginx/nginx.pid;


events {
  worker_connections  1024;
}


http {
  default_type       text/html;
  access_log         /dev/stdout;
  sendfile           on;
  keepalive_timeout  65;

  proxy_cache_path   /tmp/ levels=1:2 keys_zone=s3_cache:10m max_size=500m
                     inactive=60m use_temp_path=off;

  server {
    listen 8080;

    location /s3/ {
      proxy_http_version     1.1;
      proxy_set_header       Connection "";
      proxy_set_header       Authorization '';
      proxy_set_header       Host yanpy.dev.s3.amazonaws.com;
      proxy_hide_header      x-amz-id-2;
      proxy_hide_header      x-amz-request-id;
      proxy_hide_header      x-amz-meta-server-side-encryption;
      proxy_hide_header      x-amz-server-side-encryption;
      proxy_hide_header      Set-Cookie;
      proxy_ignore_headers   Set-Cookie;
      proxy_intercept_errors on;
      add_header             Cache-Control max-age=31536000;
      proxy_pass             http://yanpy.dev.s3.amazonaws.com/;
    }

    location /s3_cached/ {
      proxy_cache            s3_cache;
      proxy_http_version     1.1;
      proxy_set_header       Connection "";
      proxy_set_header       Authorization '';
      proxy_set_header       Host yanpy.dev.s3.amazonaws.com;
      proxy_hide_header      x-amz-id-2;
      proxy_hide_header      x-amz-request-id;
      proxy_hide_header      x-amz-meta-server-side-encryption;
      proxy_hide_header      x-amz-server-side-encryption;
      proxy_hide_header      Set-Cookie;
      proxy_ignore_headers   Set-Cookie;
      proxy_cache_revalidate on;
      proxy_intercept_errors on;
      proxy_cache_use_stale  error timeout updating http_500 http_502 http_503 http_504;
      proxy_cache_lock       on;
      proxy_cache_valid      200 304 60m;
      add_header             Cache-Control max-age=31536000;
      add_header             X-Cache-Status $upstream_cache_status;
      proxy_pass             http://yanpy.dev.s3.amazonaws.com/;
    }

  }
}

2
亲爱的Anatoly,感谢你的工作。我正在尝试使用它,但是当我添加proxy_cache_valid 200 60m;时,它仍然产生“MISS”缓存。希望能对某些人有所帮助。 - Oleg Mykolaichenko
2
我直接复制了您添加的代码块。但是,当我添加了proxy_cache_valid 200 60m;之后,它开始命中缓存。我认为这可能与NginX版本有关。我的版本是1.6.0。谢谢@Anatoly和@OlegMykolaichenko! - Yiğit Güler
1
已更新为proxy_cache_valid指令。 - Anatoly
1
@Anatoly,这是我在这个网站上看到的最棒的回复:D 非常感谢你! - Ommadawn
1
非常感谢你,伙计。2022年了,仍然很棒! - Omar Dulaimi
显示剩余3条评论

5

没有详细说明Nginx编译使用哪些模块,我们可以提供两种方法来为所有文件添加到期和缓存控制头。

Nginx S3代理

这就是你所询问的——使用Nginx在S3文件上添加到期、缓存控制头。

Nginx需要this set-misc-nginx-module来支持Nginx S3代理,并且能够实时更改/添加到期、缓存控制。 这是一个标准的完整指南,从编译到使用,这是Ubuntu服务器nginx-extras的完美指南。这是带WordPress示例的完整指南

有更多的S3模块用于额外的功能。如果没有这些模块,Nginx将无法理解并且配置测试(nginx -t)将通过错误的配置。 set-misc-nginx-module 是您所需的最小设置。您想要的内容在此Github Gist上有更好的示例

由于不是所有内容都需要编译,并且设置略有困难,因此我还将介绍如何为一个Amazon S3存储桶中的所有文件设置Expires和Cache-Control头信息。

Amazon S3 存储桶 Expires 和 Cache-Control 头信息

此外,可以使用脚本或命令行为AWS S3存储桶中的所有对象设置Expires和Cache-Control标头。Github上有几个免费的库和脚本,例如这个Bucket ExplorerAmazon的工具Amazon的这篇文档这篇文档。对于cp CLI工具,命令将如下所示:
aws s3 cp s3://mybucket/ s3://mybucket/ --recursive --metadata-directive REPLACE \
--expires 2027-09-01T00:00:00Z --acl public-read --cache-control max-age=2000000,public

-4

从架构审查的角度来看,你正在尝试的方法是错误的:

  • Amazon S3被认为是一个高可用缓存优化的服务;通过在其上引入手动编写的代理层,您只是引入了不必要的额外延迟和巨大的故障点,并且失去了S3所带来的所有好处。

  • 关于文件数量的性能分析是不正确的。如果您在S3上有数千个文件,则正确的解决方案是编写一次性脚本以更改S3上的必需属性,而不是手动编写您不完全了解的代理机制,并且会多次执行(令人厌烦)。进行代理可能只是一个权宜之计,在现实中,这很可能会降低性能,而不是提高性能(即使您可以让一个无状态自动化工具告诉您相反)。更不用说这也是一种不必要的资源消耗,可能会导致实际性能问题和Heisenbugs。


话虽如此,如果您仍然想要使用代理并添加标头,则使用nginx正确的方法是使用expires指令。

例如,您可以在适当的位置中的proxy_pass指令之前或之后放置expires max;

expires指令还会自动为您设置正确的Cache-Control标头;但是,如果您希望手动添加任何自定义响应标头,则也可以使用add_header指令。


14
就翻译而言,S3绝对是高度可用的,但它不是用作缓存的,而且在大量使用时相对昂贵。这就是为什么亚马逊自己提供了支持S3的CloudFront。如果您想要提供高容量服务,您不应该直接使用S3。因此,在S3上加入某种形式的缓存并不是个坏主意。 - Joshua DeWald

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接