Prometheus使用ECS进行DNS服务发现

Question

Prometheus使用ECS进行DNS服务发现

4

我正在尝试将ECS服务发现与Prometheus配合使用。

目前，我的ECS容器是这样添加到Route 53中的：

+-----------------------------------------------+------+--------------------------------------------------------+
|                     Name                      | Type |                         Value                          |
+-----------------------------------------------+------+--------------------------------------------------------+
| my-service.local.                             | SRV  | 1 1 8080 123456-7890-1234-5678-12345.my-service.local. |
| 123456-7890-1234-5678-12345.my-service.local. | A    | 10.0.11.111                                            |
+-----------------------------------------------+------+--------------------------------------------------------+

我假设如果我在ECS中添加更多的运行容器，我将获得更多的Alias记录在Route 53中，以名称123456-7890-1234-5678-12345.my-service.local。

在我的Prometheus配置文件中，在scrape_config下提供了以下内容：

    - job_name: 'cadvisor'
      scrape_interval: 5s
      dns_sd_configs:
      - names:
        - 'my-service.local'
        type: 'SRV'

然而，当我在Prometheus中检查目标状态时，我看到以下内容：

Endpoint: http://123456-7890-1234-5678-12345.my-service.local:8080/metrics
State: Down
Error: context deadline exceeded

我对DNS服务发现及SRV记录的工作原理不太熟悉，因此不确定问题出在哪里。从AWS ECS服务发现添加的记录来看，my-service.local映射到123456-7890-1234-5678-12345.my-service.local:8080。

然而，看起来Prometheus并没有试图找到映射到123456-7890-1234-5678-12345.my-service.local的本地IP列表，而是直接尝试从中抓取数据。

我是否误解了某些基本原理，或者有我遗漏的配置选项可以使之正常工作？

- user10121455

2个回答

0

使用AWS API是使用“正式”服务发现（如Consul或ECS SD与Route 53）的相当不错的替代方案。只要容器/任务的总数保持在几千个以下，这是合适的，因为您受到AWS API请求限制的限制。

存在许多工具与Prometheus文件发现结合提供此功能。例如https://pypi.org/project/prometheus-ecs-discoverer/或https://github.com/teralytics/prometheus-ecs-discovery

- trallnag

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user10121455 · Accepted Answer

事实证明，问题在于我需要添加安全组规则，以允许我的Prometheus实例与我的ECS集群通信，因为两者都位于公共子网中。

此外，将ECS集群中的期望计数进行扩展会在Route 53中创建另一个SRV记录和相关联的A记录（而不仅仅是我之前认为的另一个A记录）。

现在似乎一切正常运作。