python-langchain框架(3-2-文本文档加载器 )
一、TextLoader 支持的主要文本类型(可直接读取)
- 纯文本文件:
.txt(最常用,无任何格式,直接读取文本内容); - 简单标记 / 配置文件:
.md(Markdown,仅读取文本内容,忽略格式标记)、.json(读取完整文本字符串,不解析 JSON 结构)、.yaml/.yml(同 JSON,仅读取文本,不解析配置); - 代码文件:
.py(Python 代码)、.java、.js等,读取代码文本内容(不执行、不解析代码逻辑); - 其他纯文本类文件:
.csv(读取为纯文本,不解析表格结构)、.log(日志文件,纯文本形式直接读取)。
二、TextLoader 不支持的文本格式(需专用 Loader)
以下格式无法用 TextLoader 直接读取,需使用 langchain 对应专用 Loader(如 UnstructuredLoader、PyPDFLoader 等):
- 带格式文档:
.docx(Word)、.pptx(PPT)、.xlsx(Excel); - PDF 文件:
.pdf(需用 PyPDFLoader、PDFMinerLoader 等); - 二进制文件:
.png(图片)、.mp3(音频)、.mp4(视频); - 加密 / 压缩文件:
.zip、.rar、加密文档等。
三、关键补充
TextLoader 的核心逻辑是「按字符读取文件内容」,无论文件后缀是什么,只要是纯文本编码(UTF-8、GBK 等) 的文件,都能读取;但如果文件包含非文本编码(如二进制、特殊格式标记),读取后会出现乱码,失去实际意义。
简单总结:TextLoader 只适用于「无复杂格式的纯文本类文件」,复杂格式需搭配对应专用 Loader。
代码部分:
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 |
|
更多推荐




所有评论(0)