Linux服务器套接字 - 坏的文件描述符

9
我在Linux下的服务器套接字上遇到了问题。由于我不知道的某些原因,服务器套接字消失了,并且在等待传入连接的select调用中出现“坏文件描述符”错误。当我在不同的线程中关闭一个无关的套接字连接时,这个问题总是发生。这在具有2.6.36内核的嵌入式Linux上发生。
有人知道为什么会发生这种情况吗?一个服务器套接字突然消失导致“坏文件描述符”是正常的吗?
编辑:其他套接字代码实现了VNC服务器并在完全不同的线程中运行。那个代码中唯一特殊的是使用setjmp / longjmp,但那应该不是问题。
创建服务器套接字的代码如下:
int server_socket = socket(PF_INET, SOCK_STREAM, IPPROTO_TCP);

struct sockaddr_in saddr;
memset(&saddr, 0, sizeof(saddr));
saddr.sin_family = AF_INET;
saddr.sin_addr.s_addr = htonl(INADDR_ANY);
saddr.sin_port = htons(1234);

const int optionval = 1;
setsockopt(server_socket, SOL_SOCKET, SO_REUSEADDR, &optionval, sizeof(optionval));

if (bind(server_socket, (struct sockaddr *) &saddr, sizeof(saddr)) < 0) {
    perror("bind");
    return 0;
}

if (listen(server_socket, 1) < 0) {
    perror("listen");
    return 0;
}

我使用下面的代码等待传入连接:

static int WaitForConnection(int server_socket, struct timeval *timeout)
{
    fd_set read_fds;

    FD_ZERO(&read_fds);
    int max_sd = server_socket;
    FD_SET(server_socket, &read_fds);

    // This select will result in 'EBADFD' in the error case.
    // Even though the server socket was not closed with 'close'.
    int res = select(max_sd + 1, &read_fds, NULL, NULL, timeout);
    if (res > 0) {
        struct sockaddr_in caddr;
        socklen_t clen = sizeof(caddr);
        return accept(server_socket, (struct sockaddr *) &caddr, &clen);
    }

    return -1;
}

编辑: 当问题出现时,我目前只是重新启动服务器,但我不明白为什么服务器套接字ID会突然变成无效的文件描述符:

int error = 0;
socklen_t len = sizeof (error);
int retval = getsockopt (server_socket, SOL_SOCKET, SO_ERROR, &error, &len );
if (retval < 0) {
    close(server_socket);
    goto server_start;
}

2
你发布的代码没有问题,错误一定是其他地方引起的。例如,在关闭套接字后你是否还在使用它? - Some programmer dude
线程在哪些地方被精确地使用? - Michał Górny
以上的代码在一个线程中运行。另一段代码位于另一个模块中,也在运行一个线程。在那里关闭连接会导致服务器在这里停止运行。我没有想到一个服务器套接字可能会在没有我关闭它的情况下变得无效。 - trenki
3
我猜测你的代码中可能存在某个 bug,导致你在稍后的 select 操作中试图关闭同一个 socket。 - David Schwartz
@trenki 不行。某处存在一个错误,导致您关闭与侦听套接字相同的文件描述符值,或者存在一个错误,覆盖了保存侦听套接字描述符的变量。您可以在strace下运行程序,例如 strace -f -e accept,socket,close,shutdown ./yourserver 并查看是否曾经使用与侦听套接字相同的文件描述符值调用close(),或者是否突然开始传递不同的文件描述符给accept()。 - nos
4个回答

7

套接字(文件描述符)通常与C中的原始指针一样,存在管理问题。每次关闭套接字时,请不要忘记将值为-1的变量分配给保留描述符值的变量:

close(socket);
socket = -1;

就像你处理 C 指针一样

free(buffer);
buffer = NULL;

如果你忘记这样做,那么后来可能会关闭两次套接字,就像如果它是指针,则会两次free()内存。

另一个问题可能与人们通常忘记的事实有关:在UNIX环境中,文件描述符从0开始。如果在代码中的某个地方你有

struct FooData {
    int foo;
    int socket;
    ...
}

// Either
FooData my_data_1 = {0};
// Or
FooData my_data_2;
memset(&my_data_2, 0, sizeof(my_data_2));

在这两种情况下,my_data_1my_data_2都具有有效的描述符(socket)值。稍后,一些负责释放FooData结构的代码可能会盲目地关闭此描述符,而它恰好是您服务器的监听套接字(0)。


4

1- 关闭你的socket:

close(sockfd);

2- 清除您的套接字文件描述符从选择集中:

FD_CLR(sockfd,&master); //opposite of FD_SET

1

你的代码中没有区分两种错误情况,无论是 select 还是 accept 都可能失败。我猜测你只是超时了,而且 select 返回了 0

  • else 分支中打印 retvalerrno
  • 单独调查 accept 的返回值
  • 确保在每个系统调用之前将 errno 重置为 0

-3
在Linux中,一旦您创建了连接并关闭它,那么在建立新连接之前必须等待一段时间。 因为在Linux中,当你关闭套接字后,套接字不会立即释放端口号。
或者说,如果您重用套接字,则不会出现坏的文件描述符。

保留的不是IP地址(那将是严重的),而是端口号。 - Jens Gustedt
@JensGustedt 是的,这是端口号。 - Rahul Bhansali
只有在以下情况下才是正确的:(a)您正在创建客户端连接,但这里并没有发生;(b)您绑定到特定的出站端口号,而这里没有必要这样做,也没有发生;(c)您是发起关闭的一方。完全无关紧要,评分为-1。 - user207421

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接