检查一个字符串是否仅包含ASCII字符？

Question

检查一个字符串是否仅包含ASCII字符？

pythonpython-2.7

16

如何在Python中检查字符串是否仅包含ASCII字符？类似于Ruby中的ascii_only?方法。

我希望能够判断从文件读取的特定数据是否为ASCII码。

- JavaSa

4个回答

6

如果您有 Unicode 字符串，可以使用 "encode" 函数，然后捕获异常：

try:
    mynewstring = mystring.encode('ascii')
except UnicodeEncodeError:
    print("there are non-ascii characters in there")

如果您有字节，可以导入chardet模块并检查编码：

import chardet

# Get the encoding
enc = chardet.detect(mystring)['encoding']

- rotten

你应该捕获你期望的 UnicodeDecodeError 错误，而不是基本的 Exception 类。考虑一下如果由于某种原因 chardet.detect 没有一个 encoding 键，或者 mystring 是一个 list 或 int 会发生什么。 - Martin Tournoij

6

您也可以选择使用正则表达式来检查仅 ASCII 字符。 [\x00-\x7F] 可以匹配单个 ASCII 字符：

>>> OnlyAscii = lambda s: re.match('^[\x00-\x7F]+$', s) != None
>>> OnlyAscii('string')
True
>>> OnlyAscii('Tannh‰user')
False

- Quinn

0

一个解决你问题的方法是尝试使用特定编码对字符串进行编码。

例如：

'H€llø'.encode('utf-8')

这将会抛出以下错误：

Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 1: ordinal not in range(128)

现在你可以捕获"UnicodeDecodeError"来确定字符串不仅包含ASCII字符。

try:
    'H€llø'.encode('utf-8')
except UnicodeDecodeError:
    print 'This string contains more than just the ASCII characters.'

- Girish Jadhav

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- warvariuc · Accepted Answer

Python 3.7新增了一些方法可以达到你想要的效果：

str、bytes以及bytearray支持新的isascii()方法，用于测试字符串或字节是否仅包含ASCII字符。

否则：

>>> all(ord(char) < 128 for char in 'string')
True
>>> all(ord(char) < 128 for char in 'строка')
False

另一个版本：

>>> def is_ascii(text):
    if isinstance(text, unicode):
        try:
            text.encode('ascii')
        except UnicodeEncodeError:
            return False
    else:
        try:
            text.decode('ascii')
        except UnicodeDecodeError:
            return False
    return True
... 
>>> is_ascii('text')
True
>>> is_ascii(u'text')
True
>>> is_ascii(u'text-строка')
False
>>> is_ascii('text-строка')
False
>>> is_ascii(u'text-строка'.encode('utf-8'))
False