6大核心模块(Modules)
示例
Word Document

LangChain

Word 文档

本节介绍了如何将Word文档加载到我们可以在下游使用的文档格式中。

使用Docx2txt

使用Docx2txt加载 .docx文档 并转换为文档格式。

from langchain.document_loaders import Docx2txtLoader
 
loader = Docx2txtLoader("example_data/fake.docx")
 
data = loader.load()
 
data
 
[Document(page_content='Lorem ipsum dolor sit amet.', metadata={'source': 'example_data/fake.docx'})]
 

使用非结构化 Using Unstructured #

from langchain.document_loaders import UnstructuredWordDocumentLoader
 
loader = UnstructuredWordDocumentLoader("example_data/fake.docx")
 
data = loader.load()
 
data
 
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': 'fake.docx'}, lookup_index=0)]
 

保留元素 Retain Elements #

在背后,Unstructured为不同的文本块创建不同的“元素”。

默认情况下,我们将它们组合在一起,但您可以通过指定 mode =“elements” 轻松保持该分离。

loader = UnstructuredWordDocumentLoader("example_data/fake.docx", mode="elements")
 
data = loader.load()
 
data[0]
 
Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': 'fake.docx', 'filename': 'fake.docx', 'category': 'Title'}, lookup_index=0)