AppFabric缓存似乎不稳定。

8
我们正在尝试使用AppFabric分布式缓存。在与非域服务器反复争执后,我们最终将它们放入了域中,并且安装/设置变得更加容易。在经历了大量的错误之后,我们终于让它运行起来了,其中大部分错误似乎都是一些测试或更具描述性的错误消息,如在AppFabric中包含的一些微不足道的问题。"Temporary error"并不能解释很多事情...
但仍然存在问题。
我们设置了3个服务器,其中一个是“主服务器”。我们最终让缓存工作了,并通过将网络负载均衡器指向一个服务器来确认这一点,以便确认我们可以在一个服务器上设置缓存并在另一个服务器上检索它。
然后我重新启动了所有服务器上的AppFabric Caching服务,突然就无法工作了。Get-CacheHost显示它们正常,但我们遇到异常,例如:
ErrorCode:SubStatus:请求超时 ErrorCode:SubStatus:有一个暂时性故障。请稍后重试。
为什么简单地重新启动服务会导致此错误条件? AppFabric Cache是否真的准备好供生产使用? 如果服务器下线会发生什么?长时间超时? 我们是否依赖于“主服务器”正在运行?
我怀疑它将在5-10分钟的R&R后重新启动。有时它似乎会自己恢复。
更新:几分钟后它确实重新启动了。我们现在通过从集群中删除一个服务器进行了测试,结果是长时间超时,最终出现异常。

为什么单个服务器重启需要这么长时间?无论技术原因是什么,这肯定让我对整个平台的信任感产生怀疑。 - Simon_Weaver
1个回答

7
我们一直在调试这个问题,现在分享下我们目前发现的情况。
  • Windows 2008上的UAC实际上会阻止访问本地计算机,因此针对本地计算机的命令将失败。请以管理员身份启动PowerShell或完全关闭UAC来绕过此问题。
  • 仅手动更改配置文件是无效的。您需要使用导出和导入命令。
  • 防火墙是一个主要问题,因为安装程序打开了222*端口范围,但PowerShell工具使用其他Windows服务。关闭所有服务器的防火墙(不建议)可以解决此问题。
  • 如果从集群中删除服务器,则在集群重新运作之前会有一个初始超时时间。
  • 重启后,群集需要2-5分钟才能恢复。
  • 如果重启时有一台服务器无法访问,则启动时间会增加。
  • 如果持有配置共享文件夹的服务器无法访问,则服务将无法启动。我们尝试通过给每台服务器分配私有共享来解决此问题。

如果我理解正确的话,使用 SQL 配置提供程序将导致集群管理由 SQL Server 而不是“主机”完成,因此它可能会减少您遇到的问题数量?[http://msdn.microsoft.com/en-us/library/ee790934.aspx#sectionSection1]。如果我没记错,这应该允许您能够联系任何一个缓存主机来访问缓存集群。 - jamiebarrow
你对这个问题有什么结论吗?我也遇到了同样的困扰。 - Pedro
@Tedd Hansen,你能让这个工作起来了吗?“如果持有配置共享文件夹的服务器无法访问,则服务将无法启动。我们尝试通过为每个服务器提供私有共享来解决此问题。”标准程序是拥有一个公共文件共享。你是否不得不使用一些“黑客”方式?请分享你的经验。 - Mandeep Janjua

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接