Java/Python中的快速IPC/Socket通信

9
我的应用程序中需要两个进程(Java和Python)进行通信。我注意到套接字通信占据了93%的运行时间。为什么通信很慢?我该寻找套接字通信的替代方案还是可以使其更快?
更新:我发现了一个简单的解决方法。出于某种未知原因,缓冲输出流并不真正被缓冲。因此,我现在将所有数据都放入客户端/服务器进程的字符串缓冲区中,并在flush方法中将其写入套接字。
我仍然对使用共享内存快速交换进程之间数据的示例感兴趣。
一些额外的信息:
1. 应用程序中的消息大小大多数情况下低于64kb。
2. 服务器使用Java编写,客户端使用Python编写。
3. 实现了套接字IPC如下:发送200字节需要50个周期!这肯定太高了。如果我在5000个周期中发送2个字节,它需要更少的时间。
4. 两个进程都在一台Linux机器上运行。
5. 在实际应用中,每个周期会对客户端的iFid.write()进行约10次调用。
6. 在Linux系统上完成此操作。这是服务器端:
public class FastIPC{
    public PrintWriter out;
    BufferedReader in;
    Socket socket = null;
    ServerSocket serverSocket = null;


    public FastIPC(int port) throws Exception{
        serverSocket = new ServerSocket(port);
        socket = serverSocket.accept();
        out = new PrintWriter(new BufferedWriter(new OutputStreamWriter(socket.getOutputStream())), true);
        in = new BufferedReader(new InputStreamReader(socket.getInputStream()));
    }

    public void send(String msg){
        out.println(msg); // send price update to socket
    }

    public void flush(){
        out.flush();
    }

    public String recv() throws Exception{
        return in.readLine();
    }

    public static void main(String[] args){
        int port = 32000;
        try{
            FastIPC fip = new FastIPC(port);
            long start = new Date().getTime();
            System.out.println("Connected.");
            for (int i=0; i<50; i++){
                for(int j=0; j<100; j++)
                    fip.send("+");
                fip.send(".");
                fip.flush();
                String msg = fip.recv();
            }
            long stop = new Date().getTime();
            System.out.println((double)(stop - start)/1000.);
        }catch(Exception e){
            System.exit(1);
        }
    }
}

客户端代码如下:

import sys
import socket

class IPC(object):
    def __init__(self):
        self.s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        self.s.connect(("localhost", 32000))
        self.fid = self.s.makefile() # file wrapper to read lines
        self.listenLoop() # wait listening for updates from server

    def listenLoop(self):
        fid = self.fid
        print "connected"
        while True:
            while True:
                line = fid.readline()
                if line[0]=='.':
                    break
            fid.write('.\n')
            fid.flush()

if __name__ == '__main__':
    st = IPC()

Linux...修改了问题。 - fodon
你需要缓冲数据。无论是本地计算机还是其他计算机,逐个发送字节(或其他小块)都是完全无效的。 - Eugene Mayevski 'Callback
这里的“out”是一个带缓冲的流。 - fodon
2
ZeroMQ 对此非常合适。 - Erik Ekman
这段代码能正常工作吗? - Rony Tesler
2个回答

15
您有多种选择。由于您正在使用Linux,您可以使用UNIX域套接字。或者,您可以将数据序列化为ASCII或JSon或其他格式,并通过管道、SHM(共享内存段)、消息队列、DBUS或类似方式进行传输。值得考虑的是,这些IPC机制具有不同的性能特征,因此需要思考您所拥有的数据类型。有一篇draft USENIX paper对各种权衡进行了良好的分析,值得一读。
既然您在评论中表示更喜欢使用SHM,那么这里提供一些代码示例以帮助您入门。使用Python posix_ipc库:
import posix_ipc # POSIX-specific IPC
import mmap      # From Python stdlib

class SharedMemory(object):
    """Python interface to shared memory. 
    The create argument tells the object to create a new SHM object,
    rather than attaching to an existing one.
    """

    def __init__(self, name, size=posix_ipc.PAGE_SIZE, create=True):
        self.name = name
        self.size = size
        if create:
            memory = posix_ipc.SharedMemory(self.name, posix_ipc.O_CREX,
                                            size=self.size)
        else:
            memory = posix_ipc.SharedMemory(self.name)
        self.mapfile = mmap.mmap(memory.fd, memory.size)
        os.close(memory.fd)
        return

    def put(self, item):
        """Put item in shared memory.
        """
        # TODO: Deal with the case where len(item) > size(self.mapfile)
        # TODO: Guard this method with a named semaphore
        self.mapfile.seek(0)
        pickle.dump(item, self.mapfile, protocol=2)
        return

    def get(self):
        """Get a Python object from shared memory.
        """
        # TODO: Deal with the case where len(item) > size(self.mapfile)
        # TODO: Guard this method with a named semaphore
        self.mapfile.seek(0)
        return pickle.load(self.mapfile)

    def __del__(self):
        try:
            self.mapfile.close()
            memory = posix_ipc.SharedMemory(self.name)
            memory.unlink()
        except:
            pass
        return    

对于Java端,您需要创建相同的类,尽管我在评论中所说的似乎JTux提供了等效功能,并且您需要的API在UPosixIPC类中。

下面的代码是您需要实现的大致内容。但是,有几个缺少的东西--异常处理是显而易见的,还有一些标志(在UConstant中找到),并且您将想要添加一个信号量来保护put/get方法。但是,这应该可以使您走上正确的道路。请记住,mmap或内存映射文件是对RAM段的类似文件的接口。因此,您可以像使用正常文件的fd一样使用其文件描述符。

import jtux.*;

class SHM {

    private String name;
    private int size;
    private long semaphore;
    private long mapfile; // File descriptor for mmap file

    /* Lookup flags and perms in your system docs */
    public SHM(String name, int size, boolean create, int flags, int perms) {
        this.name = name;
        this.size = size;
        int shm;
        if (create) {
            flags = flags | UConstant.O_CREAT;
            shm = UPosixIPC.shm_open(name, flags, UConstant.O_RDWR);
        } else {
            shm = UPosixIPC.shm_open(name, flags, UConstant.O_RDWR);
        }
        this.mapfile = UPosixIPC.mmap(..., this.size, ..., flags, shm, 0);
        return;
    }


    public void put(String item) {
        UFile.lseek(this.mapfile(this.mapfile, 0, 0));
        UFile.write(item.getBytes(), this.mapfile);
        return;
    }


    public String get() {    
        UFile.lseek(this.mapfile(this.mapfile, 0, 0));
        byte[] buffer = new byte[this.size];
        UFile.read(this.mapfile, buffer, buffer.length);
        return new String(buffer);
    }


    public void finalize() {
        UPosix.shm_unlink(this.name);
        UPosix.munmap(this.mapfile, this.size);
    }

}

共享内存似乎是最快的。但是,如何在工作程序中使用这些想法呢? - fodon
1
以某种Java和Python都可以读取的格式(ASCII,XML,ctypes等)读取/写入SHM段中的数据。对于Python部分,您可以使用此库:http://semanchuk.com/philip/posix_ipc/,对于Java,可以使用此链接:http://java.sun.com/docs/hotspot/ism.html。希望这有所帮助。 - snim2
另外,我认为ISM只适用于Solaris操作系统...而我使用的是Linux。 - fodon
对我来说比较困难的两件事是使一个进程能够快速意识到另一个进程已经完成写入的机制。其次,你能否给我提供一个Java方面的工作示例?我已经找到了很多关于Python共享内存的资料,但在Java中,这个概念似乎支持得少一些。 - fodon
信号量可以帮助解决这个问题,记住信号量是阻塞的,所以代码必须阻塞以获取信号量。如果您使用命名信号量,则您的Java和Python进程都共享同一个信号量。 - snim2
显示剩余4条评论

1

一些想法

  • 服务器使用Java编写,客户端使用Python编写。

一个奇怪的组合,但是是否有任何理由不能通过stdin,stdout相互调用?

  • 套接字IPC实现如下:发送200个字节需要50个循环!这肯定太高了。如果我在5000个周期内发送2个字节,则需要的时间要少得多。

任何对操作系统的调用都会相对较慢(延迟较高)。使用共享内存可以绕过内核。如果吞吐量是您的问题,则如果对延迟不是那么重要,我发现您可以使用套接字达到1-2 GB/s。

  • 两个进程都在一台Linux机器上运行。

使共享内存成为理想选择。

  • 在实际应用中,每个周期调用客户端的iFid.write()约10次。

不确定为什么会这样。为什么不建立一个单一结构/缓冲区并一次写入。我会使用NIO的直接缓冲区来最小化延迟。使用字符转换非常昂贵,特别是如果您只需要ASCII。

  • 这是在Linux系统上完成的。

应该很容易进行优化。

我使用内存映射文件进行共享内存。这是因为我需要记录每个消息以进行审计。对于数百万条消息,我持续得到约180纳秒的平均往返延迟,并且在实际应用程序中约为490纳秒。

这种方法的一个优点是,如果有短暂的延迟,读者可以非常快地追上写者。它还支持轻松重新启动和复制。

这仅在Java中实现,但原理足够简单,我相信它在Python中也可以工作。

https://github.com/peter-lawrey/Java-Chronicle


你能给我一个简单的服务器/客户端示例,就像我在问题中提供的那个一样吗? - fodon
只适用于Java(请查看我的链接),我不太了解Python。 - Peter Lawrey

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接