Loader机制
- 加载markdown
- 加载cvs
- 加载文件目录
- 加载html
- 加载JSON
- 加载PDF
#使用loader来加载markdown文本
from langchain.document_loaders import TextLoader
loader = TextLoader("loader.md")
loader.load()
#使用loader来加载cvs文件
from langchain.document_loaders.csv_loader import CSVLoader
#loader = CSVLoader(file_path="loader.csv")
loader = CSVLoader(file_path="loader.csv",source_column="Location")
data = loader.load()
print(data)
#某个目录下,有excel文件,我们需要把目录下所有的xlxs文件加载进来
#! pip install "unstructured[xlsx]"
from langchain.document_loaders import DirectoryLoader
#目录下的.html和.rst文件不会被这种loader加载
#loader = DirectoryLoader("目录地址",glob="指定加载说明格式的文件")
loader = DirectoryLoader(path="./example/",glob="*.xlsx")
docs = loader.load()
len(docs)
#使用loader来加载json文件
#需要先安装 ! pip install jq
from langchain.document_loaders import JSONLoader
loader = JSONLoader(
file_path = "simple_prompt.json",jq_schema=".template",text_content=True
)
data = loader.load()
print(data)
#loader加载pdf文件
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader("loader.pdf")
pages = loader.load_and_split()
pages[0]