Python ctypes 和可变性

6
我注意到使用ctypes将Python对象传递给本地代码可能会破坏可变性的期望。
例如,如果我有一个C函数如下:
int print_and_mutate(char *str)
{
    str[0] = 'X';
    return printf("%s\n", str);
}

我这样调用它:
from ctypes import *
lib = cdll.LoadLibrary("foo.so")

s = b"asdf"
lib.print_and_mutate(s)

s的值已更改,现在为b"Xsdf"

Python文档说"但是,您需要小心,不要将它们传递给期望指向可变内存的函数。"

这只是因为它违反了哪些类型是不可变的预期,还是其他什么东西会因此而破裂?换句话说,即使通常情况下bytes是不可变的,如果我清楚地理解我的原始bytes对象将发生更改,那么是否可以,或者如果我不像应该那样使用create_string_buffer,我会在以后遇到某种令人讨厌的惊喜吗?


可能出现的问题示例:https://dev59.com/f6vka4cB1Zd3GeqP0_G0 - ead
1
请注意,CPython 会将各种对象进行内部化并重复使用。例如小整数(-5 到 127),还有一些短字符串和某些字面量。这种行为完全由实现定义,并且可能在发布之间自由更改。那个“原始的 'bytes' 对象”不是你的,而是 CPython 的。 - MisterMiyagi
“原始字节对象不属于你,而是CPython的”这句话将成为我的答案。 - wrschneider
3个回答

3

Python对于不可变对象做出了一些假设,因此如果对它们进行修改,肯定会导致问题。以下是一个具体的例子:

>>> import ctypes as c
>>> x = b'abc'          # immutable string
>>> d = {x:123}         # Used as key in dictionary (keys must be hashable/immutable)
>>> d
{b'abc': 123}

现在构建一个ctypes可变缓冲区以不可变对象。在CPython中,id(x)是Python对象的内存地址,sys.getsizeof()返回该对象的大小。PyBytes对象具有一些开销,但对象的末尾有字符串的字节。
>>> sys.getsizeof(x)
36
>>> px=(c.c_char*36).from_address(id(x))
>>> px.raw
b'\x02\x00\x00\x00\x00\x00\x00\x000\x8fq\x0b\xfc\x7f\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00\xf0\x06\xe61\xeb\x00\x1b\xa9abc\x00'
>>> px.raw[-4:]  # last bytes of the object
b'abc\x00'
>>> px[-4]
b'a'
>>> px[-4] = b'y'  # Mutate the ctypes buffer, mutating the "immutable" string
>>> x              # Now it has a modified value.
b'ybc'

现在尝试访问字典中的键。 使用哈希表可以在O(1)时间内找到键,但哈希值是基于原始的“不可变”值计算的,所以结果是错误的。 无论是旧值还是新值,都无法找到该键:

>>> d           # Note that dictionary key changed, too.
{b'ybc': 123}
>>> d[b'ybc']   # Try to access the key
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: b'ybc'
>>> d[b'abc']   # Maybe original key will work? It hashes same as the original...
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: b'abc'

2

听起来这是在CPython中最接近UB的方法。

尽管它目前可能不会发生,但CPython可以给您一个指向只读内存的指针,程序将会崩溃。

此外,CPython可能与其他对象共享字符串或子片段,并且您会修改所有这些对象。


2

CPython会对各种对象进行内部化并重复使用,例如小整数(-5到127)、短字符串和一些字面量。这种行为完全由实现定义,并且可能在不同版本之间自由更改。更改此类对象可能会触发任意行为,从根本没有任何影响到完全未定义的行为。

那个“原始字节对象”不是你的,而是CPython的。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接