文件目录获得工具
2024年8月13日大约 2 分钟
注意
pdfdeal
已迁移至NoEdgeAI/pdfdeal
,请前往NoEdgeAI/pdfdeal-docs 查看文档
pdfdeal
has been migrated to NoEdgeAI/pdfdeal
, please visit NoEdgeAI/pdfdeal-docs for documentation
您可能需要安装一些额外依赖以使用:
pip install --upgrade "pdfdeal[tools]"
目录:
gen_folder_list
生成文件夹中所有指定类型文件的列表。
参数
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
path | str | 必填 | 要处理的文件夹路径 |
mode | str | 必填 | 要查找的文件类型,可选值:'pdf' , 'img' , 'md' |
recursive | bool | False | 是否递归搜索子目录 |
异常
异常 | 描述 |
---|---|
ValueError | 如果 mode 不是 'pdf' , 'img' 或 'md' |
返回值
类型 | 描述 |
---|---|
list | 文件的完整路径列表 |
示例
files = gen_folder_list("/path/to/folder", "pdf", True)
print(files)
注意事项
- 该函数会根据
mode
参数过滤指定类型的文件。 - 如果
recursive
为True
,则会递归搜索子目录中的文件。
get_files
生成文件夹中文件的列表,保持文件处理前后的结构不变。
参数
注意
请注意,out
参数必须与转换函数(例如Doc2X PDF转换函数/Doc2X 图片转换函数)中的output_format
一致!
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
path | str | 必填 | 要处理的文件夹路径 |
mode | str | 必填 | 要处理的文件类型,'pdf' 或 'img' |
out | str | 必填 | 要输出的文件类型,'md' , 'md_dollar' , 'latex' , 'docx' 或 'pdf' (用于 RAG 时) |
返回值
返回一个包含两个列表的元组 (list1, list2)
:
list1
(list
): 完整路径列表- 元素为文件的完整路径(字符串)
list2
(list
): 相对路径列表- 元素为文件的相对路径(字符串)
注意事项
list1
和list2
的长度相同- 用于
input
和output_format
时,可以使用这些路径列表