Rails:在每个请求中切换连接但保持连接池

17

我们的Rails应用程序需要根据请求的子域名(每个国家一个不同的DB)使用不同的数据库。

目前,我们正在执行类似于此问题中推荐的操作。也就是说,在每个请求上调用ActiveRecord::Base.establish_connection

但是,似乎 ActiveRecord::Base.establish_connection 每次调用都会丢弃当前连接池并建立新的连接。

我进行了这个快速基准测试,以查看每次调用establish_connection和已经建立连接之间是否存在任何显着差异:

require 'benchmark/ips'

$config = Rails.configuration.database_configuration[Rails.env]
$db1_config = $config.dup.update('database' => 'db1')
$db2_config = $config.dup.update('database' => 'db2')

# Method 1: call establish_connection on each "request".
Benchmark.ips do |r|
  r.report('establish_connection:') do
    # Simulate two requests, one for each DB.
    ActiveRecord::Base.establish_connection($db1_config)
    MyModel.count # A little query to force the DB connection to establish.
    ActiveRecord::Base.establish_connection($db2_config)
    MyModel.count
  end
end

# Method 2: Have different subclasses of my models, one for each DB, and 
# call establish_connection only once
class MyModelDb1 < MyModel
  establish_connection($db1_config)
end

class MyModelDb2 < MyModel
  establish_connection($db2_config)
end

Benchmark.ips do |r|
  r.report('different models:') do
    MyModelDb1.count
    MyModelDb2.count
  end
end

我使用 rails runner 运行这个脚本,指向一个有几千条记录的本地 mysql 数据库,并且结果表明这两种方法之间实际上存在相当大的差异(数量级不同)。顺便说一句,我不确定基准测试是否有效或者我搞砸了,因此结果可能是误导的。

Calculating -------------------------------------
establish_connection: 8 i/100ms
-------------------------------------------------
establish_connection: 117.9 (±26.3%) i/s -        544 in   5.001575s
Calculating -------------------------------------
    different models:  119 i/100ms
-------------------------------------------------
    different models:  1299.4 (±22.1%) i/s -       6188 in   5.039483s

基本上,我想知道是否有一种方法来为每个子域名维护一个连接池,然后重复使用这些连接,而不是在每个请求上建立新的连接。对于每个子域都创建我的模型的子类并不可行,因为有许多模型;我只想为所有模型(在ActiveRecord :: Base 中)更改连接。

2个回答

12

好的,我进一步深入研究了这个问题,并成功实现了一些东西。

在阅读tenderlove的文章之后,我理解了为什么类层次结构与连接管理不必要地耦合在一起,以及为什么我尝试做的事情并不像人们期望的那样简单明了。

我最终做的是继承 ActiveRecord 的ConnectionHandler,并在我的模型层次结构顶部使用这个新的连接处理程序(需要对 ConnectionHandler 代码进行一些调整,以了解它内部的工作原理;因此,这个解决方案可能会与我使用的 Rails 版本(3.2)有很大关联)。类似于这样:

# A model class that connects to a different DB depending on the subdomain 
# we're in
class ModelBase < ActiveRecord::Base
  self.abstract_class = true
  self.connection_handler = CustomConnectionHandler.new
end

# ...

class CustomConnectionHandler < ActiveRecord::ConnectionAdapters::ConnectionHandler
  def initialize
    super
    @pools_by_subdomain = {}
  end

  # Override the behaviour of ActiveRecord's ConnectionHandler to return a
  # connection pool for the current domain.
  def retrieve_connection_pool(klass)
    # Get current subdomain somehow (Maybe store it in a class variable on 
    # each request or whatever)
    subdomain = @@subdomain
    @pools_by_subdomain[subdomain] ||= create_pool(subdomain)
  end

  private
  def create_pool(subdomain)
    conf = Rails.configuration.database_configuration[Rails.env].dup
    # The name of the DB for that subdomain...
    conf.update!('database' => "db_#{subdomain}")
    resolver = ActiveRecord::Base::ConnectionSpecification::Resolver.new(conf, nil)
    # Call ConnectionHandler#establish_connection, which receives a key 
    # (in this case the subdomain) for the new connection pool
    establish_connection(subdomain, resolver.spec)
  end
end

这仍需要一些测试来检查是否实际上有性能提升,但我在本地的 Unicorn 服务器上运行的初始测试表明确实有。


@MikeCampbell,我在实现这个时没有遇到过这个问题。这个解决方案是针对一个有十几个子域名的网站而设计的,而不是数百个,而且这个数字也不会增长。如果你需要控制连接数量,也许你可以使用其他数据结构来存储连接池,比如一个最大大小为LRU缓存。 - epidemian
@Rubytastic 我还没有在Rails 4中尝试过这个。这些类的内部是否有改变?如果有,我强烈建议您首先检查一下是否仍然有意义重用连接的这种hack方法。也许现在它已经没有任何明显的区别了。 - epidemian
@epidemian,你知道 @pools_by_subdomain 变量的生命周期吗?它会像控制器实例变量一样在每个请求时重置吗?还是它会一直存在于应用程序的生命周期中?谢谢。 - Vbp
1
@Vbp 它的生命周期与分配给 ModelBase.connection_handler 的 CustomConnectionHandler 相同,这应该是应用程序/进程的整个生命周期,除非它在其他地方被重新分配 :) - epidemian

0
据我所知,Rails在请求之间不维护其数据库池,除非您使用像Sidekiq这样的多线程环境。但是,如果您在生产服务器上使用Passenger或Unicorn,它将为每个Rails实例创建一个新的数据库连接。
因此,基本上使用数据库连接池是没有用的,这意味着在每个请求中创建新的数据库连接不应该成为一个问题。

有趣的是,也许我正在试图解决一个不存在的问题 =P。你有这方面信息的任何指针吗?基本测试表明(基本上是一个cURL请求循环,命中不同子域名(即不同的数据库)的Web服务器(Unicorn)),当保持连接池活动时,延迟显著降低。 - epidemian
给匿名的投票者:请告诉我们为什么这个答案中的信息不是有用的。 - Jezen Thomas
独角兽主进程持有连接池,工作进程在启动时从中检出连接。请参阅https://devcenter.heroku.com/articles/concurrency-and-database-connections。 - Rafe

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接