如何使用dataclasses创建“仅关键字”字段?

47
自从3.0版本开始,支持使一个参数成为只能使用关键字调用的形参:

Since 3.0 there is support to make an argument keyword only:

class S3Obj:
    def __init__(self, bucket, key, *, storage_class='Standard'):
        self.bucket = bucket
        self.key = key
        self.storage_class = storage_class
如何使用dataclasses获得那种签名?类似这样,但最好没有SyntaxError:

如何使用dataclasses来获取那种签名?像这样的东西,但最好不要出现SyntaxError

@dataclass
class S3Obj:
    bucket: str
    key: str
    *
    storage_class: str = 'Standard'
最理想的情况是采用声明式的方式,但使用 "__post_init__" 钩子和/或替换类装饰器也可以 - 只要代码是可重用的。 编辑: 或许可以使用省略号字面值来表示类似以下语法的内容
@mydataclass
class S3Obj:
    bucket: str
    key: str
    ...
    storage_class: str = 'Standard'

"... "不会对其他代码产生任何影响。" - user2357112
3
这个功能已经悄悄地添加到了3.10版本中:https://bugs.python.org/issue33129 - MegaIng
如果你正在使用Python 3.10以下的版本,我的答案提供了一种在默认值之后声明没有默认值的字段的方法。这虽然不等同于关键字参数,但是可以解决某些与关键字参数相同的问题(例如,在继承基本数据类时具有默认值)。 - alkasm
2个回答

47
在Python 3.10+中,有一个名为dataclasses.KW_ONLY的标记,它的工作原理如下:
@dataclasses.dataclass
class Example:
    a: int
    b: int
    _: dataclasses.KW_ONLY
    c: int
    d: int

任何在KW_ONLY伪字段之后的字段都是仅限关键字参数的。 dataclasses.dataclass装饰器还有一个kw_only参数,它使所有字段都成为仅限关键字参数。
@dataclasses.dataclass(kw_only=True)
class Example:
    a: int
    b: int

还可以通过将kw_only=True传递给dataclasses.field来将单个字段标记为仅限关键字。

如果关键字字段位于非关键字字段之后(可能是通过继承或通过单独标记字段为关键字字段),关键字字段将在其他字段之后重新排序,特别是为了__init__的目的。其他数据类功能将保持声明的顺序。这种重新排序很令人困惑,可能应该避免使用。


Python 3.10 之前的解决方案:

在这方面,dataclasses 并不能提供太多帮助。无法指定一个字段应该通过关键字参数进行初始化,而且 __post_init__ 钩子函数无法知道原始构造函数参数是通过关键字传递的。此外,无法很好地检查 InitVar,更不用说将 InitVar 标记为只能通过关键字传递。

至少,你需要替换生成的 __init__ 方法。可能最简单的方法是手动定义 __init__。如果你不想这样做,可能最可靠的方法是创建字段对象,并在 metadata 中将它们标记为关键字参数,然后在你自己的装饰器中检查这些元数据。这比听起来还要复杂:

import dataclasses
import functools
import inspect

# Helper to make calling field() less verbose
def kwonly(default=dataclasses.MISSING, **kwargs):
    kwargs.setdefault('metadata', {})
    kwargs['metadata']['kwonly'] = True
    return dataclasses.field(default=default, **kwargs)

def mydataclass(_cls, *, init=True, **kwargs):
    if _cls is None:
        return functools.partial(mydataclass, **kwargs)

    no_generated_init = (not init or '__init__' in _cls.__dict__)
    _cls = dataclasses.dataclass(_cls, **kwargs)
    if no_generated_init:
        # No generated __init__. The user will have to provide __init__,
        # and they probably already have. We assume their __init__ does
        # what they want.
        return _cls

    fields = dataclasses.fields(_cls)
    if any(field.metadata.get('kwonly') and not field.init for field in fields):
        raise TypeError('Non-init field marked kwonly')

    # From this point on, ignore non-init fields - but we don't know
    # about InitVars yet.
    init_fields = [field for field in fields if field.init]
    for i, field in enumerate(init_fields):
        if field.metadata.get('kwonly'):
            first_kwonly = field.name
            num_kwonly = len(init_fields) - i
            break
    else:
        # No kwonly fields. Why were we called? Assume there was a reason.
        return _cls

    if not all(field.metadata.get('kwonly') for field in init_fields[-num_kwonly:]):
        raise TypeError('non-kwonly init fields following kwonly fields')

    required_kwonly = [field.name for field in init_fields[-num_kwonly:]
                       if field.default is field.default_factory is dataclasses.MISSING]

    original_init = _cls.__init__

    # Time to handle InitVars. This is going to get ugly.
    # InitVars don't show up in fields(). They show up in __annotations__,
    # but the current dataclasses implementation doesn't understand string
    # annotations, and we want an implementation that's robust against
    # changes in string annotation handling.
    # We could inspect __post_init__, except there doesn't have to be a
    # __post_init__. (It'd be weird to use InitVars with no __post_init__,
    # but it's allowed.)
    # As far as I can tell, that leaves inspecting __init__ parameters as
    # the only option.

    init_params = tuple(inspect.signature(original_init).parameters)
    if init_params[-num_kwonly] != first_kwonly:
        # InitVars following kwonly fields. We could adopt a convention like
        # "InitVars after kwonly are kwonly" - in fact, we could have adopted
        # "all fields after kwonly are kwonly" too - but it seems too likely
        # to cause confusion with inheritance.
        raise TypeError('InitVars after kwonly fields.')
    # -1 to exclude self from this count.
    max_positional = len(init_params) - num_kwonly - 1

    @functools.wraps(original_init)
    def __init__(self, *args, **kwargs):
        if len(args) > max_positional:
            raise TypeError('Too many positional arguments')
        check_required_kwargs(kwargs, required_kwonly)
        return original_init(self, *args, **kwargs)
    _cls.__init__ = __init__

    return _cls

def check_required_kwargs(kwargs, required):
    # Not strictly necessary, but if we don't do this, error messages for
    # required kwonly args will list them as positional instead of
    # keyword-only.
    missing = [name for name in required if name not in kwargs]
    if not missing:
        return
    # We don't bother to exactly match the built-in logic's exception
    raise TypeError(f"__init__ missing required keyword-only argument(s): {missing}")

使用示例:
@mydataclass
class S3Obj:
    bucket: str
    key: str
    storage_class: str = kwonly('Standard')

这个已经有点测试过了,但还不够彻底,不如我希望的那样。
你无法通过...来获得你提出的语法,因为...对于元类或装饰器来说没有任何作用。你可以通过触发名称查找或赋值的方式来获得非常接近的效果,比如kwonly_start = True,这样元类就可以看到它发生了。然而,一个健壮的实现是复杂的,因为有很多需要专门处理的事情。继承、typing.ClassVardataclasses.InitVar、注解中的前向引用等等,如果不小心处理,都会引起问题。继承可能引起最多的问题。
一个不处理所有琐碎细节的概念验证可能看起来像这样:
# Does not handle inheritance, InitVar, ClassVar, or anything else
# I'm forgetting.

class POCMetaDict(dict):
    def __setitem__(self, key, item):
        # __setitem__ instead of __getitem__ because __getitem__ is
        # easier to trigger by accident.
        if key == 'kwonly_start':
            self['__non_kwonly'] = len(self['__annotations__'])
        super().__setitem__(key, item)

class POCMeta(type):
    @classmethod
    def __prepare__(cls, name, bases, **kwargs):
        return POCMetaDict()
    def __new__(cls, name, bases, classdict, **kwargs):
        classdict.pop('kwonly_start')
        non_kwonly = classdict.pop('__non_kwonly')

        newcls = super().__new__(cls, name, bases, classdict, **kwargs)
        newcls = dataclass(newcls)

        if non_kwonly is None:
            return newcls

        original_init = newcls.__init__

        @functools.wraps(original_init)
        def __init__(self, *args, **kwargs):
            if len(args) > non_kwonly:
                raise TypeError('Too many positional arguments')
            return original_init(self, *args, **kwargs)

        newcls.__init__ = __init__
        return newcls

你会像这样使用它
class S3Obj(metaclass=POCMeta):
    bucket: str
    key: str

    kwonly_start = True

    storage_class: str = 'Standard'

这是未经测试的。

1
https://github.com/python/cpython/pull/25608 的更新? - wim
1
@wim:更新以适应即将到来的3.10功能。 - user2357112
这个3.10之前的解决方案似乎比必要的复杂?在我看来,一旦你创建了MyDataClass,你只需要做original_init = MyDataClass.__init__,然后定义def new_init(self, ..., *, kw_only_arg, ...): original_init(self, ..., kw_only_arg=kw_only_arg, ...),最后MyDataClass.__init__ = new_init... 我现在没有时间测试,但我认为应该足够好? - mtraceur
@mtraceur:要使它起作用,您必须硬编码关键字参数的名称。 - user2357112
是的,显然(除非您将所有参数都设置为关键字参数,这种情况下您可以在包装器init中使用**kwargs),但我认为对于一次性或项目中只有几个数据类的情况,这种简单和简洁的方法比上述所有方法更好。但我确实同意,当最终实现此问题时,存在一个拐点,优于重复较简单解决方案的样板文件。 - mtraceur

9

我想知道为什么这不是数据类API的一部分,这对我来说似乎很重要。

如果所有参数都是关键字参数,也许可以更简单一些,以下内容可能就足够了?

from dataclasses import dataclass
from functools import wraps

def kwargs_only(cls):
    
    @wraps(cls)
    def call(**kwargs):
        return cls(**kwargs)
    
    return call

@kwargs_only
@dataclass
class Coordinates:
    latitude: float = 0
    longitude: float = 0

这并不完美,因为使用位置参数时发生错误会涉及到call

--------------------------------------------------------
TypeError              Traceback (most recent call last)
<ipython-input-24-fb588c816ecf> in <module>
----> 1 c = Coordinates(1, longitude=2)
      2 help(c)

TypeError: call() takes 0 positional arguments but 1 was given

同样地,数据类的构造器文档已经过时,没有反映出新的限制。

如果只有一些关键字字段,也许可以这样处理?

def kwargs(*keywords):
    
    def decorator(cls):
        @wraps(cls)
        def call(*args, **kwargs):
            if any(kw not in kwargs for kw in keywords):
                raise TypeError(f"{cls.__name__}.__init__() requires {keywords} as keyword arguments")
            return cls(*args, **kwargs)
        
        return call

    return decorator


@kwargs('longitude')
@dataclass(frozen=True)
class Coordinates:
    latitude: float
    longitude: float = 0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接