为什么在连接到FreeBSD上的端口时,connect()会偶尔返回EINVAL错误?

7
我在我的C++应用程序中遇到了一个问题,在从32位Linux迁移到32位FreeBSD 8.1时出现了故障。我有一个TCP套接字连接,无法连接。在调用connect()时,我得到了一个错误结果,errno == EINVAL,而connect()的man页面没有涵盖这个错误。
这个错误是什么意思,哪个参数是无效的?消息只是说:“无效的参数”。
以下是连接的一些详细信息:
family: AF_INET
len: 16
port: 2357
addr: 10.34.49.13

虽然它并不总是失败。但是FreeBSD版本只有在让机器闲置数小时后才会失败。但是一旦失败,它会可靠地工作,直到你再次让它长时间闲置。

这是一些代码:

void setSocketOptions(const int skt);
void buildAddr(sockaddr_in &addr, const std::string &ip,
               const ushort port);
void deepBind(const int skt, const sockaddr_in &addr);


void
test(const std::string &localHost, const std::string &remoteHost,
     const ushort localPort, const ushort remotePort,
     sockaddr_in &localTCPAddr, sockaddr_in &remoteTCPAddr)
{
  const int skt = socket(AF_INET, SOCK_STREAM, 0);

  if (0 > skt) {
    clog << "Failed to create socket: (errno " << errno
         << ") " << strerror(errno) << endl;
    throw;
  }

  setSocketOptions(skt);

  // Build the localIp address and bind it to the feedback socket.  Although
  // it's not traditional for a client to bind the sending socket to a the
  // local address, we do it to prevent connect() from using an ephemeral port
  // which (our site's firewall may block).  Also build the remoteIp address.
  buildAddr(localTCPAddr, localHost, localPort);
  deepBind(skt, localTCPAddr);
  buildAddr(remoteTCPAddr, remoteHost, remotePort);

  clog << "Info: Command connect family: "
       << (remoteTCPAddr.sin_family == AF_INET ? "AF_INET" : "<unknown>")
       << " len: " << int(remoteTCPAddr.sin_len)
       << " port: " << ntohs(remoteTCPAddr.sin_port)
       << " addr: " << inet_ntoa(remoteTCPAddr.sin_addr) << endl;

  if (0 > ::connect(skt, (sockaddr*)& remoteTCPAddr, sizeof(sockaddr_in)))) {
    switch (errno) {
      case EINVAL: {
        int value = -1;
        socklen_t len = sizeof(value);
        getsockopt(skt, SOL_SOCKET, SO_ERROR, &value, &len);

        cerr << "Error: Command connect failed on local port "
             << getLocFbPort()
             << " and remote port " << remotePort
             << " to remote host '" << remoteHost
             << "' family: "
             << (remoteTCPAddr.sin_family == AF_INET ? "AF_INET" : "<unknown>")
             << " len: " << int(remoteTCPAddr.sin_len)
             << " port: " << ntohs(remoteTCPAddr.sin_port)
             << " addr: " << inet_ntoa(remoteTCPAddr.sin_addr)
             << ": Invalid argument." << endl;
        cerr << "\tgetsockopt => "
             << ((value != 0) ? strerror(value): "success") << endl;

        throw;
      }
      default: {

        cerr << "Error: Command connect failed on local port "
             << localPort << " and remote port " << remotePort
             << ": (errno " << errno << ") " << strerror(errno) << endl;
        throw;
      }
    }
  }
}


void
setSocketOptions(int skt)
{
  // See page 192 of UNIX Network Programming: The Sockets Networking API
  // Volume 1, Third Edition by W. Richard Stevens et. al. for info on using
  // ::setsockopt().

  // According to "Linux Socket Programming by Example" p. 319, we must call
  // setsockopt w/ SO_REUSEADDR option BEFORE calling bind.
  int so_reuseaddr = 1; // Enabled.
  int reuseAddrResult
    = ::setsockopt(skt, SOL_SOCKET, SO_REUSEADDR, &so_reuseaddr,
                   sizeof(so_reuseaddr));

  if (reuseAddrResult != 0) {
    cerr << "Failed to set reuse addr on socket.";
    throw;
  }

  // For every two hours of inactivity, a keepalive occurs.
  int so_keepalive = 1; // Enabled.  See page 200 for info on SO_KEEPALIVE.
  int keepAliveResult =
    ::setsockopt(skt, SOL_SOCKET, SO_KEEPALIVE, &so_keepalive,
                 sizeof(so_keepalive));

  if (keepAliveResult != 0) {
    cerr << "Failed to set keep alive on socket.";
    throw;
  }

  struct linger so_linger;

  so_linger.l_onoff = 1;  // Turn linger option on.
  so_linger.l_linger = 5; // Linger time in seconds. (See page 202)

  int lingerResult
    = ::setsockopt(skt, SOL_SOCKET, SO_LINGER, &so_linger,
                   sizeof(so_linger));

  if (lingerResult != 0) {
    cerr << "Failed to set linger on socket.";
    throw;
  }

  // Disable the Nagel algorithm on the command channel.  SOL_TCP is not
  // defined on FreeBSD
#ifndef SOL_TCP
#define SOL_TCP (::getprotobyname("TCP")->p_proto)
#endif

  unsigned int tcpNoDelay = 1;
  int noDelayResult
    = ::setsockopt(skt, SOL_TCP, TCP_NODELAY, &tcpNoDelay,
                   sizeof(tcpNoDelay));

  if (noDelayResult != 0) {
    cerr << "Failed to set tcp no delay on socket.";
    throw;
  }
}

void
buildAddr(sockaddr_in &addr, const std::string &ip, const ushort port)
{
  memset(&addr, 0, sizeof(sockaddr_in)); // Clear all fields.
  addr.sin_len    = sizeof(sockaddr_in);
  addr.sin_family = AF_INET;             // Set the address family
  addr.sin_port   = htons(port);         // Set the port.

  if (0 == inet_aton(ip.c_str(), &addr.sin_addr)) {
    cerr << "BuildAddr IP.";
    throw;
  }
};

void
deepBind(const int skt, const sockaddr_in &addr)
{
  // Bind the requested port.
  if (0 <= ::bind(skt, (sockaddr *)&addr, sizeof(addr))) {
    return;
  }

  // If the port is already in use, wait up to 100 seconds.
  int count = 0;
  ushort port = ntohs(addr.sin_port);

  while ((errno == EADDRINUSE) && (count < 10)) {
    clog << "Waiting for port " << port << " to become available..."
         << endl;
    ::sleep(10);
    ++count;
    if (0 <= ::bind(skt, (sockaddr*)&addr, sizeof(addr))) {
      return;
    }
  }

  cerr << "Error: failed to bind port.";
  throw;
}

这是当EINVAL时的示例输出(它并不总是在这里失败,有时候会成功,但在发送到套接字的第一个数据包上失败):
Info: Command connect family: AF_INET len: 16 port: 2357 addr: 10.34.49.13
Error: Command connect failed on local port 2355 and remote port 2357 to remote host '10.34.49.13' family: AF_INET len: 16 port: 2357 addr: 10.34.49.13: Invalid argument.
    getsockopt => success

@blaze 我已经添加了代码示例。 - WilliamKF
@tyranid buidAddr()函数已经在代码末尾提供。需要初始化哪个填充(padding)?sizeof()在哪里是不正确的?我认为我已经使用了sizeof(sockaddr_in)。 - WilliamKF
代码看起来对我来说很好。真正可疑的是“通过套接字发送的第一个数据包在另一端传输时变得混乱”。你没有一些自定义内核模块或IPSEC之类的东西,可能会干扰网络堆栈吗? - blaze
@tyranid 更新为 sizeof(sockaddr_in) 后,结果相同。现在的代码显示了已更正的 sizeof(sockaddr_in)。 - WilliamKF
1
快速浏览内核代码,我发现了以下EINVAL的原因: // sa_len != sizeof(AF_INET) // socket处于TIMEWAIT或DROPPED状态(看起来唯一的方式是套接字重用) // 内部错误,例如局部绑定的套接字具有本地端口或本地IP == 0 // 一些我不太理解的jail()东西 :) //也许你应该尝试禁用所有套接字选项并在出错时重复绑定(),然后逐个启用它们,只是为了检查什么时候会出问题。顺便问一下,这个throw;语句是什么?是异常处理程序吗? - blaze
显示剩余4条评论
3个回答

6
我找到了问题所在。一开始我遇到了ECONNREFUSED错误,Linux系统下我可以在短暂的暂停后重试connect(),一切都很好,但是在FreeBSD上,重新尝试connect()会失败并返回EINVAL。
解决方案是当遇到ECONNREFUSED错误时,要退回到test()定义的开始处重新尝试。通过这个改变,代码现在可以正常工作了。

3

有趣的是,FreeBSD connect() manpage 没有列出 EINVAL。而另一个 BSD 的 manpage 则说明:

[EINVAL]    An invalid argument was detected (e.g., address_len is
            not valid for the address family, the specified
            address family is invalid).

基于来自不同BSD版本的文档记录,我猜想在FreeBSD中可能存在未记录的返回代码可能性,例如可以在这里查看。
我的建议是在调用connect之前打印出您的地址长度以及套接字地址结构的sizeof和内容 - 这将有助于您找出问题所在。
除此之外,最好还是向我们展示您用于设置连接的代码。这包括用于套接字地址的类型(struct sockaddrstruct sockaddr_in等)、初始化它的代码以及实际的connect调用。这样就会更容易协助您了解问题。

1

本地地址是什么?你正在默默忽略bind(2)的错误,这不仅不好,而且可能导致此问题的发生!


不,bind() 的返回值没有被忽略:cerr << "错误:绑定端口失败。"; throw; - WilliamKF
啊,你说得对。我被你早期的返回和(我认为是)反向条件语句搞混了。我理解将常量与函数或系统调用的返回值进行比较的原因,但是现代编译器会在条件表达式中意外创建裸赋值时发出警告,所以我希望人们只使用(syscall() != −1) - Seth Kingsley

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接