Python中的目录树列表

609

我该如何在Python中获取给定目录中所有文件(和目录)的列表?


2
递归还是非递归?请澄清。如需非递归解决方案,请参见:https://dev59.com/yHNA5IYBdhLWcg3wZ9DU - Charlie Parker
21个回答

635
这是一种遍历目录树中每个文件和目录的方法:
import os

for dirname, dirnames, filenames in os.walk('.'):
    # print path to all subdirectories first.
    for subdirname in dirnames:
        print(os.path.join(dirname, subdirname))

    # print path to all filenames.
    for filename in filenames:
        print(os.path.join(dirname, filename))

    # Advanced usage:
    # editing the 'dirnames' list will stop os.walk() from recursing into there.
    if '.git' in dirnames:
        # don't go into any .git directories.
        dirnames.remove('.git')

19
如果你在Python Shell中运行这段代码(不做任何修改),请记住,按下Ctrl+C可以停止输出到该Shell的内容。 ;) - gary
41
这将递归地列出文件和目录。 - rds
9
当 topdown 为 True 时,调用者可以原地修改 dirnames 列表(可能使用 del 或切片赋值),walk() 仅会递归进入 dirnames 中名称仍然存在的子目录;这可用于修剪搜索结果、强制按特定顺序访问,甚至向 walk() 通知在它恢复 walk() 之前调用者创建或重命名的目录。来源:http://docs.python.org/2/library/os.html#os.walk - bugloaf
1
@smci 你误解了。你给出了一个不打印 .git 目录名称的代码片段。从 dirnames 中删除它会导致代码不会递归进入 .git 子目录。 - Jerub
哦,我明白了,你的意图是打印每个dirname,然后递归进入除.git之外的每个dirname。 - smci
显示剩余2条评论

543

2
原始问题的描述模糊不清,不确定是否需要递归解决方案。"目录中的所有文件"可以理解为递归解决。 - Tommy
3
@Tommy,"目录"是一种明确定义的数据结构,它指的是"ls"而不是"ls -R"。此外,几乎所有UNIX工具默认情况下都不会递归工作。我不知道提问者的意思是什么,但他写的很清楚。 - Torsten Bronger
3
Python 3文档告诉你要使用os.scandir,因为在许多情况下它允许你防止系统调用,从而提供免费加速(IPC和IO都很慢)。 - Jappie Kerk
10
listdir只会给你目录中的文件名,是否有一种方法可以获取完整路径? - greperror
1
@greperror 您可以使用 os.path.abspath 获取完整路径。此外,要检查给定路径是否为文件,请使用 os.path.isfileos.path.isdir - Aleksandar

133

我常常使用以下辅助函数:

import os

def listdir_fullpath(d):
    return [os.path.join(d, f) for f in os.listdir(d)]

6
发电机会更好。 - Robert Siemer
3
@RobertSiemer 这取决于使用情况。在许多情况下,列表可能更好,但我猜一个生成器更加通用,因为它可以转换为一个列表。这取决于你是寻求通用性还是更精简的东西。 - James Mchugh
4
已经过去10年了,但我认为我这么做是因为os.listdir()返回一个列表,我当时是在模仿它。 - giltay

83
import os

for filename in os.listdir("C:\\temp"):
    print  filename

18
r'C:\temp' 更清晰、更受欢迎,比起 "C:\\temp" 而言。原始字符串优于转义反斜杠。 - smci
1
@smci:实际上,“C:/temp”是更好的选择。 - martineau
@martineau:没有共识;这就像emacs-vs-vi。正斜杠更可取,因为它不会被误解为转义字符,但反斜杠仍然更受欢迎... - smci
1
@smci:正斜杠也是可移植的,不需要特殊前缀。我不会批评任何人按照 OP 的方式去做。无论如何,就受欢迎程度而言,我们可能活动在不同的圈子里。;¬) - martineau

15

如果你需要使用通配符,也有一个适用的模块。例如:

import glob
glob.glob('./[0-9].*')

将返回类似以下内容:

['./1.gif', './2.txt']

参见这里的文档。


太棒了!你能在这些匹配表达式中使用否定吗?比如除了匹配 THIS 模式的文件以外的所有文件? - Charlie Parker
@CharlieParker: 你不能直接使用 glob 完成这个工作,但是你可以很容易地使用它或 os.listdir() 结合 re 正则表达式模块来完成 — 参考此答案回答另一个问题。 - martineau

11

对于没有指定路径的当前工作目录中的文件

Python 2.7:

import os
os.listdir('.')

Python 3.x:

import os
os.listdir()

10

试一下这个:

import os
for top, dirs, files in os.walk('./'):
    for nm in files:       
        print os.path.join(top, nm)

一行代码:[top + os.sep + f for top, dirs, files in os.walk('./') for f in files] - J. Peterson

7

虽然os.listdir()用于生成文件和目录名称列表很好,但通常你希望在获得这些名称后进行更多操作-在Python3中,pathlib使这些其他任务变得简单。让我们来看看,看看你是否像我一样喜欢它。

要列出目录内容,请构造一个Path对象并获取迭代器:

In [16]: Path('/etc').iterdir()
Out[16]: <generator object Path.iterdir at 0x110853fc0>

如果我们只需要一份事物名称列表:
In [17]: [x.name for x in Path('/etc').iterdir()]
Out[17]:
['emond.d',
 'ntp-restrict.conf',
 'periodic',

如果你只想要目录:
In [18]: [x.name for x in Path('/etc').iterdir() if x.is_dir()]
Out[18]:
['emond.d',
 'periodic',
 'mach_init.d',

如果您想获取该树中所有配置文件的名称:
In [20]: [x.name for x in Path('/etc').glob('**/*.conf')]
Out[20]:
['ntp-restrict.conf',
 'dnsextd.conf',
 'syslog.conf',

如果您想获取树中大于等于1K的conf文件列表:

In [23]: [x.name for x in Path('/etc').glob('**/*.conf') if x.stat().st_size > 1024]
Out[23]:
['dnsextd.conf',
 'pf.conf',
 'autofs.conf',

解决相对路径问题变得更加容易:
In [32]: Path('../Operational Metrics.md').resolve()
Out[32]: PosixPath('/Users/starver/code/xxxx/Operational Metrics.md')

使用路径进行导航相当明确(尽管出乎意料):

In [10]: p = Path('.')

In [11]: core = p / 'web' / 'core'

In [13]: [x for x in core.iterdir() if x.is_file()]
Out[13]:
[PosixPath('web/core/metrics.py'),
 PosixPath('web/core/services.py'),
 PosixPath('web/core/querysets.py'),

5
一种递归实现
import os

def scan_dir(dir):
    for name in os.listdir(dir):
        path = os.path.join(dir, name)
        if os.path.isfile(path):
            print path
        else:
            scan_dir(path)

5

这是另一种选择。

os.scandir(path='.')

它返回一个迭代器,其中包含与给定路径中的条目(以及文件属性信息)相对应的os.DirEntry对象。
示例:
with os.scandir(path) as it:
    for entry in it:
        if not entry.name.startswith('.'):
            print(entry.name)

使用 scandir() 而不是 listdir() 可以显著提高需要文件类型或文件属性信息的代码的性能,因为在扫描目录时,os.DirEntry 对象会公开此信息,如果操作系统提供了它。所有 os.DirEntry 方法都可能执行系统调用,但 is_dir() 和 is_file() 通常仅对符号链接执行系统调用;在 Unix 上,os.DirEntry.stat() 总是需要一个系统调用,但在 Windows 上只需要一个符号链接。 Python Docs

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接