Python如何将文本文件读取为二进制文件?

3
我正在尝试在Python 2.7中构建一个加密程序。它将从文件中读取二进制数据,然后使用密钥进行加密。但是,我很快遇到了一个问题。像图像文件和可执行文件这样的文件会被读取为十六进制值。但是,使用open()打开文本文件时并不会如此。即使我运行
file=open("myfile.txt", "rb")
out=file.read()
它仍然只是文本。我使用的是Windows 7,而不是Linux,我认为这可能会有所不同。是否有任何方法可以从任何文件(包括文本文件)中读取二进制数据,而不仅仅是图像和可执行文件?
3个回答

3

即使使用 'rb' 标识读取文件,如果文件中含有字节 '\x41',它在控制台上将被打印为字母 'A'。如果您想要十六进制的值,请将文件内容编码为十六进制,即:

content = open('text.txt', 'rb').read()
# Since python 3.5:
hex = content.hex()
# else:
hex = content.encode('hex')

8
Python 3.7.2: AttributeError: 'bytes' object has no attribute 'encode'Python 3.7.2:属性错误:'bytes'对象没有'encode'属性 - user
content.hex() 应该可以。 - daniel kullmann

1
你的二进制文件看起来像文本,因为该文件被视为是使用8位编码(ASCII或Latin-1等)进行编码。此外,在Python 2中,字节和(文本)字符可以互换使用...即字符串只是ASCII字节的数组。
你应该搜索Python 2和3文本编码之间的区别,你很快就会发现为什么会出现像你遇到的这样的异常。大多数Python 2版本的加密模块使用Python字节串。
你的“二进制”非文本文件实际上与文本文件没有任何不同;它们只是没有映射到你认识的可理解的编码,而文本文件则有。

1

请看以下代码,它还有许多值得注意的地方。

from hashlib import md5
from Crypto.Cipher import AES
from Crypto import Random

def derive_key_and_iv(password, salt, key_length, iv_length):
    d = d_i = ''
    while len(d) < key_length + iv_length:
        d_i = md5(d_i + password + salt).digest()
        d += d_i
    return d[:key_length], d[key_length:key_length+iv_length]

def encrypt(in_file, out_file, password, key_length=32):
    bs = AES.block_size
    salt = Random.new().read(bs - len('Salted__'))
    key, iv = derive_key_and_iv(password, salt, key_length, bs)
    cipher = AES.new(key, AES.MODE_CBC, iv)
    out_file.write('Salted__' + salt)
    finished = False
    while not finished:
        chunk = in_file.read(1024 * bs)
        if len(chunk) == 0 or len(chunk) % bs != 0:
            padding_length = (bs - len(chunk) % bs) or bs
            chunk += padding_length * chr(padding_length)
            finished = True
        out_file.write(cipher.encrypt(chunk))

def decrypt(in_file, out_file, password, key_length=32):
    bs = AES.block_size
    salt = in_file.read(bs)[len('Salted__'):]
    key, iv = derive_key_and_iv(password, salt, key_length, bs)
    cipher = AES.new(key, AES.MODE_CBC, iv)
    next_chunk = ''
    finished = False
    while not finished:
        chunk, next_chunk = next_chunk, cipher.decrypt(in_file.read(1024 * bs))
        if len(next_chunk) == 0:
            padding_length = ord(chunk[-1])
            chunk = chunk[:-padding_length]
            finished = True
        out_file.write(chunk)

使用
with open(in_filename, 'rb') as in_file, open(out_filename, 'wb') as out_file:
    encrypt(in_file, out_file, password)
with open(in_filename, 'rb') as in_file, open(out_filename, 'wb') as out_file:
    decrypt(in_file, out_file, password)

是的,但为什么对于文本文件似乎不起作用呢?比如如果我打印输出,它仍然会以文本形式打印。 - user2514631
1
你看起来是一个经验丰富的用户。为什么要在不可在浏览器中运行的代码中使用堆栈片段?请删除堆栈片段提示。 - Artjom B.
正确读取文本文件的命令是像f = open('workfile.txt','r'),但是我没有看到你的加密函数。 - Ashouri
是的,但我想从文本文件中读取二进制数据,就像十六进制编辑器一样,而不是实际的文本。 - user2514631

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接