Langflow 中的数据组件

数据组件将数据从源加载到您的流程中。

它们可能会执行一些处理或类型检查，例如将原始 HTML 数据转换为文本，或确保您加载的文件类型是可接受的。

在流程中使用数据组件

URL 数据组件从 URL 列表加载内容。

在组件的 URLs 字段中，输入您想要加载的 URL 列表，用逗号分隔。或者，连接一个输出 Message 类型的组件，例如 Chat Input 组件，以通过组件提供您的 URL。

要输出 Data 类型，请在 Output Format 下拉菜单中选择 Raw HTML。要输出 Message 类型，请在 Output Format 下拉菜单中选择 Text。此选项会应用 data_to_text 助手函数进行后处理。

在此文档摄取管道示例中，URL 组件将原始 HTML 输出到文本分割器，文本分割器将原始内容分割成块供向量数据库摄取。

URL component in a data ingestion pipeline

API 请求

此组件使用 URL 或 cURL 命令进行 HTTP 请求。

要在流程中使用此组件，请将 Data 输出连接到接受该输入的组件。例如，将 API Request 组件连接到 Chat Output 组件。

API request into a chat output component

在 API 组件的 URLs 字段中，输入您的请求端点。此示例使用 https://dummy-json.mock.beeceptor.com/posts，这是一个技术博客文章列表。
在 Method 字段中，输入请求类型。此示例使用 GET 获取博客文章列表。该组件还支持 POST、PATCH、PUT 和 DELETE。
可选地，启用 Use cURL 按钮以创建用于粘贴 curl 请求的字段。此示例中等效的调用是 curl -v https://dummy-json.mock.beeceptor.com/posts。
点击 Playground，然后点击 Run Flow。您的请求在 result 字段中返回博客文章列表。

参数

输入

名称	显示名称	信息
urls	URL	输入一个或多个 URL，用逗号分隔。
curl	cURL	粘贴一个 curl 命令以填充 headers 和 body 的字典字段。
method	方法	要使用的 HTTP 方法。
use_curl	使用 cURL	启用 cURL 模式以从 cURL 命令填充字段。
query_params	查询参数	要添加到 URL 的查询参数。
body	正文	作为字典随请求发送的正文（用于 `POST`, `PATCH`, `PUT`）。
headers	头部	作为字典随请求发送的头部。
timeout	超时	请求要使用的超时时间。
follow_redirects	跟随重定向	是否跟随 http 重定向。
save_to_file	保存到文件	将 API 响应保存到临时文件。
include_httpx_metadata	包含 HTTPx 元数据	在输出中包含 `headers`、`status_code`、`response_headers` 和 `redirection_history` 等属性。

输出

名称	显示名称	信息
data	数据	API 请求的结果。返回包含源 URL 和结果的 Data 对象。
dataframe	DataFrame	将 API 响应数据转换为表格形式的 DataFrame 格式。

输入	类型	描述
path	MessageTextInput	要从中加载文件的目录路径。
types	MessageTextInput	要加载的文件类型（留空以加载所有类型）。
depth	IntInput	搜索文件的深度。
max_concurrency	IntInput	加载文件的最大并发数。
load_hidden	BoolInput	如果为 true，则加载隐藏文件。
recursive	BoolInput	如果为 true，则搜索是递归的。
silent_errors	BoolInput	如果为 true，则错误不会引发异常。
use_multithreading	BoolInput	如果为 true，则使用多线程。

输出

输出	类型	描述
data	List[Data]	从目录加载的文件数据。

文件

此组件加载和解析各种支持格式的文件，并将内容转换为 Data 对象。它支持多种文件类型，并提供并行处理和错误处理选项。

要加载文档，请按照以下步骤操作

点击 Select files 按钮。
选择本地文件或使用文件管理加载的文件，然后点击 Select file。

加载的文件名会出现在组件中。

默认支持的最大文件大小为 100 MB。要修改此值，请参见 --max-file-size-upload。

参数

输入

名称	显示名称	信息
path	文件	要加载的文件路径。支持单个文件或捆绑存档。
file_path	服务器文件路径	一个 Data 对象，其 `file_path` 属性指向服务器文件，或一个 Message 对象，其中包含文件路径。取代 'Path' 但支持相同的文件类型。
separator	分隔符	在 Message 格式的多个输出之间使用的分隔符。
silent_errors	静默错误	如果为 true，则错误不会引发异常。
delete_server_file_after_processing	处理后删除服务器文件	如果为 true，则在处理后删除服务器文件路径。
ignore_unsupported_extensions	忽略不支持的扩展名	如果为 true，则不处理具有不支持扩展名的文件。
ignore_unspecified_files	忽略未指定的文件	如果为 true，则忽略没有 `file_path` 属性的 `Data`。
use_multithreading	[已弃用] 使用多线程	将“Processing Concurrency”设置为大于 `1` 的值以启用多线程。此选项已弃用。
concurrency_multithreading	处理并发数	处理多个文件时，并发处理的文件数量。默认值为 1。大于 1 的值会启用 2 个或更多文件的并行处理。

输出

名称	显示名称	信息
data	数据	解析的文件内容作为 Data 对象。
dataframe	DataFrame	文件内容作为 DataFrame 对象。
message	消息	文件内容作为 Message 对象。

支持的文件类型

文本文件

.txt - 文本文件
.md, .mdx - Markdown 文件
.csv - CSV 文件
.json - JSON 文件
.yaml, .yml - YAML 文件
.xml - XML 文件
.html, .htm - HTML 文件
.pdf - PDF 文件
.docx - Word 文档
.py - Python 文件
.sh - Shell 脚本
.sql - SQL 文件
.js - JavaScript 文件
.ts, .tsx - TypeScript 文件

存档格式（用于捆绑多个文件）

.zip - ZIP 存档
.tar - TAR 存档
.tgz - Gzipped TAR 存档
.bz2 - Bzip2 压缩文件
.gz - Gzip 压缩文件

SQL 查询

此组件在指定的数据库上执行 SQL 查询。

参数

输入

名称	显示名称	信息
query	查询	要执行的 SQL 查询。
database_url	数据库 URL	数据库的 URL。
include_columns	包含列	在结果中包含列。
passthrough	透传	如果发生错误，返回查询而不是引发异常。
add_error	添加错误	将错误添加到结果中。

输出

名称	显示名称	信息
result	结果	SQL 查询执行的结果。

URL

此组件从一个或多个 URL 获取内容，处理内容，并以各种格式返回。它支持纯文本、原始 HTML 或 JSON 格式的输出，并提供清理和分隔多个输出的选项。

要在流程中使用此组件，请将 DataFrame 输出连接到接受该输入的组件。例如，将 URL 组件连接到 Chat Output 组件。

URL request into a chat output component

在 URL 组件的 URLs 字段中，输入您的请求 URL。此示例使用 langflow.org。
可选地，在 Max Depth 字段中，输入您希望抓取的距离初始 URL 的页面数。选择 1 只抓取 URLs 字段中指定的页面。选择 2 抓取该页面链接的所有页面。组件通过链接遍历进行抓取，而不是通过 URL 路径深度。
点击 Playground，然后点击 Run Flow。URL 的文本内容将作为结构化的 DataFrame 返回到 Playground。
在 URL 组件中，将输出端口更改为 Message，然后再次运行流程。URL 的文本内容将作为非结构化的原始文本返回，您可以使用 Regex Extractor 工具从中提取模式。
将 URL 组件连接到 Regex Extractor 和 Chat Output。

Regex extractor connected to url component

在 Regex Extractor 工具中，输入一个模式以从 URL 组件的原始输出中提取文本。此示例提取 https://en.wikipedia.org/wiki/Main_Page 页面的“新闻动态”部分的第一段。


_10新闻动态\s*\n(.*?)(?=\n\n)

结果


_10秘鲁作家、诺贝尔文学奖获得者马里奥·巴尔加斯·略萨（如图）逝世，享年 89 岁。

参数

输入

名称	显示名称	信息
urls	URL	输入一个或多个 URL。URL 会自动验证和清理。
format	输出格式	输出格式。使用 Text 从 HTML 中提取文本，使用 Raw HTML 表示原始 HTML 内容，或使用 JSON 从 HTML 中提取 JSON。
separator	分隔符	在多个输出之间使用的分隔符。Text 的默认分隔符是 `\n\n`。Raw HTML 的默认分隔符是 `\n<!-- Separator -->\n`。
clean_extra_whitespace	清理多余空白	是否清理文本输出中过多的空行。仅适用于 `Text` 格式。

输出

名称	显示名称	信息
data	数据	包含获取的内容和元数据的 Data 对象列表。
text	文本	获取的内容作为格式化文本，应用了分隔符和清理。
dataframe	DataFrame	内容格式化为 DataFrame 对象。

Webhook

此组件定义了一个 Webhook 触发器，当接收到 HTTP POST 请求时运行流程。

如果输入不是有效的 JSON，组件会将其包装在一个 payload 对象中，以便可以对其进行处理并仍然触发流程。此组件不需要 API 密钥。

将 Webhook 组件添加到工作区后，API 面板中会显示一个新的 Webhook cURL 选项卡，其中包含用于触发 Webhook 组件的 HTTP POST 请求。例如


_10curl -X POST \
_10"http://127.0.0.1:7860/api/v1/webhook/**您的流程ID**" \
_10-H 'Content-Type: application/json'\
_10-d '{"任意": "数据"}'

测试 Webhook 组件

将 Webhook 组件添加到流程中。
将 Webhook 组件的 Data 输出连接到解析器组件的 Data 输入。
将 解析器 组件的 Parsed Text 输出连接到聊天输出组件的 Text 输入。
在 解析器 组件的 Mode 下，选择 Stringify。此模式将 Webhook 的数据作为字符串传递给 聊天输出 组件打印。
要发送 POST 请求，请从 API 面板的 Webhook cURL 选项卡中复制代码，并将其粘贴到终端中。
发送 POST 请求。
打开 Playground。您的 JSON 数据已发布到 聊天输出 组件，这表明 Webhook 组件正确触发了流程。

参数

输入

名称	显示名称	描述
data	负载	通过 HTTP POST 请求从外部系统接收负载。
curl	cURL	用于向此 Webhook 发送请求的 cURL 命令模板。
endpoint	端点	此 Webhook 接收请求的端点 URL。

输出

名称	显示名称	描述
output_data	数据	输出从 Webhook 输入中处理的数据，如果没有输入，则返回一个空的 Data 对象。如果输入不是有效的 JSON，组件会将其包装在一个 `payload` 对象中。

旧版组件

旧版组件可供使用，但不再受支持。

Gmail 加载器

此组件使用提供的凭据和过滤器从 Gmail 加载电子邮件。

有关创建服务帐户 JSON 的更多信息，请参阅服务帐户 JSON。

参数

输入

输入	类型	描述
json_string	SecretStrInput	包含用于服务帐户访问的 OAuth 2.0 访问令牌信息的 JSON 字符串。
label_ids	MessageTextInput	要过滤电子邮件的标签 ID 列表，用逗号分隔。
max_results	MessageTextInput	要加载的最大电子邮件数量。

输出

输出	类型	描述
data	数据	加载的电子邮件数据。

Google Drive 加载器

此组件使用提供的凭据和单个文档 ID 从 Google Drive 加载文档。

有关创建服务帐户 JSON 的更多信息，请参阅服务帐户 JSON。

参数

输入

输入	类型	描述
json_string	SecretStrInput	包含用于服务帐户访问的 OAuth 2.0 访问令牌信息的 JSON 字符串。
document_id	MessageTextInput	单个 Google Drive 文档 ID。

输出

输出	类型	描述
docs	数据	加载的文档数据。

Google Drive 搜索

此组件使用提供的凭据和查询参数搜索 Google Drive 文件。

有关创建服务帐户 JSON 的更多信息，请参阅服务帐户 JSON。

参数

输入

输入	类型	描述
token_string	SecretStrInput	包含用于服务帐户访问的 OAuth 2.0 访问令牌信息的 JSON 字符串。
query_item	DropdownInput	要查询的字段。
valid_operator	DropdownInput	在查询中使用的运算符。
search_term	MessageTextInput	在指定的查询项中搜索的值。
query_string	MessageTextInput	用于搜索的查询字符串。

输出

输出	类型	描述
doc_urls	List[str]	找到的文档的 URL。
doc_ids	List[str]	找到的文档的 ID。
doc_titles	List[str]	找到的文档的标题。
数据	数据	文档标题和 URL 的结构化格式。

在流程中使用数据组件​

API 请求​

目录​

文件​

支持的文件类型​

SQL 查询​

URL​

Webhook​

旧版组件​

Gmail 加载器​

Google Drive 加载器​

Google Drive 搜索​

在流程中使用数据组件

API 请求

目录

文件

支持的文件类型

SQL 查询

URL

Webhook

旧版组件

Gmail 加载器

Google Drive 加载器

Google Drive 搜索