本教程主要介绍借用大模型的**函数/工具调用**能力,实现结构化数据提取功能。
LangChain数据提取指南
通过向LLM提供参考示例,通常可以改善提取数据的质量。
本章讨论如何使用不同的方法处理长文本,如改变LLM,用蛮力分块,以及基于RAG的文本处理分块。它包括设置数据提取模式,并合并从文档块中提取的信息。
除了原始文本数据,您可能希望从其他文件类型(如PowerPoint演示文稿或PDF文件)中提取信息。
前面的章节基于大模型(LLM)的函数/工具调用特性实现数据提取,那么如果你使用的LLM不支持函数调用特性,我们可以基于提示词指令要求LLM返回指定格式的数据,然后通过代码转换LLM返回的文本数据。本章主要基于这个思路讲解如何提取结构化的数据。