一架梯子,一头程序猿,仰望星空!
LangChain教程(Python版本) > 内容正文

LangChain 加载Html数据


HTML

超文本标记语言(HTML)是用于设计在 Web 浏览器中显示的文档的标准标记语言。

本文介绍LangChain如何将 HTML 文档加载到我们可以在下游使用的文档格式中。

from langchain_community.document_loaders import UnstructuredHTMLLoader
# 定义html加载器
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='My First Heading\\n\\nMy first paragraph.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

使用BeautifulSoup4加载HTML

我们还可以使用 BeautifulSoup4 使用 BSHTMLLoader 加载 HTML 文档。这将从 HTML 中提取文本到 page_content,将页面标题作为 metadata 中的 title

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\\n\\nTest Title\\n\\n\\nMy First Heading\\nMy first paragraph.\\n\\n\\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]


关联主题