如何从scikit-learn决策树中提取决策规则？

Question

如何从scikit-learn决策树中提取决策规则？

pythonmachine-learningscikit-learndecision-treerandom-forest

209

我能从已训练的决策树中提取出底层的决策规则（或“决策路径”），并将其以文本列表形式呈现吗？

类似这样：

if A>0.4 then if B<0.2 then if C>0.8 then class='X'

- Dror Hilman

4

可能是重复的问题：“如何在使用scikit-learn时找到决策树分裂的属性？” - lejlot

你有没有找到这个问题的答案？我必须以SAS数据步骤格式导出决策树规则，几乎与您列出的完全相同。 - Zelazny7

1

你可以使用 sklearn-porter 包将决策树（还包括随机森林和提升树）导出和转译成 C、Java、JavaScript 等其他语言。 - Darius

你可以查看这个链接- https://www.kdnuggets.com/2017/05/simplifying-decision-tree-interpretation-decision-rules-python.html - yogesh agrawal

我在我的文章中总结了从决策树中提取规则的3种方法。其中一种方法基于'paulkernfeld'代码，可以生成易于人类理解的文本规则格式。 - pplonski

25个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ldmtwo · Answer 1

从这个答案中，您可以获得一个可读且高效的表示方式：https://stackoverflow.com/a/65939892/3746632 输出看起来像这样。X是一维向量，用于表示单个实例的特征。

from numba import jit,njit
@njit
def predict(X):
    ret = 0
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                pass
        else:  # if w_mexico > 0.5
            ret += 1
    else:  # if w_pizza > 0.5
        pass
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                pass
        else:  # if w_mexico > 0.5
            pass
    else:  # if w_pizza > 0.5
        ret += 1
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                ret += 1
        else:  # if w_mexico > 0.5
            ret += 1
    else:  # if w_pizza > 0.5
        pass
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                ret += 1
        else:  # if w_mexico > 0.5
            pass
    else:  # if w_pizza > 0.5
        ret += 1
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                pass
        else:  # if w_mexico > 0.5
            pass
    else:  # if w_pizza > 0.5
        pass
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                pass
        else:  # if w_mexico > 0.5
            ret += 1
    else:  # if w_pizza > 0.5
        ret += 1
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                pass
        else:  # if w_mexico > 0.5
            pass
    else:  # if w_pizza > 0.5
        ret += 1
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                pass
        else:  # if w_mexico > 0.5
            pass
    else:  # if w_pizza > 0.5
        pass
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                pass
        else:  # if w_mexico > 0.5
            pass
    else:  # if w_pizza > 0.5
        pass
    if X[0] <= 0.5: # if w_pizza <= 0.5
        if X[1] <= 0.5: # if w_mexico <= 0.5
            if X[2] <= 0.5: # if w_reusable <= 0.5
                ret += 1
            else:  # if w_reusable > 0.5
                pass
        else:  # if w_mexico > 0.5
            pass
    else:  # if w_pizza > 0.5
        pass
    return ret/10

- Max Wong · Answer 2

感谢@paulkerfeld提供的出色解决方案。对于所有想要拥有树的序列化版本的人，只需使用tree.threshold、tree.children_left、tree.children_right、tree.feature和tree.value即可。由于叶子节点没有分裂，因此没有特征名称和子节点，在tree.feature和tree.children_***中的占位符为_tree.TREE_UNDEFINED和_tree.TREE_LEAF。每个分裂都通过深度优先搜索分配一个唯一的索引。
请注意，tree.value的形状为[n, 1, 1]。

- Cherry Wu · Answer 3

我发现这里使用的方法：https://mljar.com/blog/extract-rules-decision-tree/ 相当不错，能够直接生成人类可读的规则集，还可以让你过滤规则。

- chainstair · Answer 4

只需像这样使用来自sklearn.tree的函数

from sklearn.tree import export_graphviz
    export_graphviz(tree,
                out_file = "tree.dot",
                feature_names = tree.columns) //or just ["petal length", "petal width"]

然后在您的项目文件夹中查找文件tree.dot，复制所有内容并将其粘贴到此处http://www.webgraphviz.com/，然后生成您的图形 :)

- Andriy Makukha · Answer 5

这里有一个函数，它可以通过将export_text的输出转换来生成决策树的Python代码：

import string
from sklearn.tree import export_text

def export_py_code(tree, feature_names, max_depth=100, spacing=4):
    if spacing < 2:
        raise ValueError('spacing must be > 1')

    # Clean up feature names (for correctness)
    nums = string.digits
    alnums = string.ascii_letters + nums
    clean = lambda s: ''.join(c if c in alnums else '_' for c in s)
    features = [clean(x) for x in feature_names]
    features = ['_'+x if x[0] in nums else x for x in features if x]
    if len(set(features)) != len(feature_names):
        raise ValueError('invalid feature names')

    # First: export tree to text
    res = export_text(tree, feature_names=features, 
                        max_depth=max_depth,
                        decimals=6,
                        spacing=spacing-1)

    # Second: generate Python code from the text
    skip, dash = ' '*spacing, '-'*(spacing-1)
    code = 'def decision_tree({}):\n'.format(', '.join(features))
    for line in repr(tree).split('\n'):
        code += skip + "# " + line + '\n'
    for line in res.split('\n'):
        line = line.rstrip().replace('|',' ')
        if '<' in line or '>' in line:
            line, val = line.rsplit(maxsplit=1)
            line = line.replace(' ' + dash, 'if')
            line = '{} {:g}:'.format(line, float(val))
        else:
            line = line.replace(' {} class:'.format(dash), 'return')
        code += skip + line + '\n'

    return code

示例用法：

res = export_py_code(tree, feature_names=names, spacing=4)
print (res)

示例输出：

def decision_tree(f1, f2, f3):
    # DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
    #                        max_features=None, max_leaf_nodes=None,
    #                        min_impurity_decrease=0.0, min_impurity_split=None,
    #                        min_samples_leaf=1, min_samples_split=2,
    #                        min_weight_fraction_leaf=0.0, presort=False,
    #                        random_state=42, splitter='best')
    if f1 <= 12.5:
        if f2 <= 17.5:
            if f1 <= 10.5:
                return 2
            if f1 > 10.5:
                return 3
        if f2 > 17.5:
            if f2 <= 22.5:
                return 1
            if f2 > 22.5:
                return 1
    if f1 > 12.5:
        if f1 <= 17.5:
            if f3 <= 23.5:
                return 2
            if f3 > 23.5:
                return 3
        if f1 > 17.5:
            if f1 <= 25:
                return 1
            if f1 > 25:
                return 2

以上示例是使用names = ['f'+str(j+1) for j in range(NUM_FEATURES)]生成的。

一个方便的功能是，它可以通过减少间距生成较小的文件大小。只需设置spacing=2即可。