跳到主要内容

Langflow 中的数据组件

数据组件将数据从源加载到您的流程中。

它们可能会执行一些处理或类型检查,例如将原始 HTML 数据转换为文本,或确保您加载的文件类型是可接受的。

在流程中使用数据组件

URL 数据组件从 URL 列表加载内容。

在组件的 URLs 字段中,输入您想要加载的 URL 列表,用逗号分隔。或者,连接一个输出 Message 类型的组件,例如 Chat Input 组件,以通过组件提供您的 URL。

要输出 Data 类型,请在 Output Format 下拉菜单中选择 Raw HTML。要输出 Message 类型,请在 Output Format 下拉菜单中选择 Text。此选项会应用 data_to_text 助手函数进行后处理。

在此文档摄取管道示例中,URL 组件将原始 HTML 输出到文本分割器,文本分割器将原始内容分割成块供向量数据库摄取。

URL component in a data ingestion pipeline

API 请求

此组件使用 URL 或 cURL 命令进行 HTTP 请求。

  1. 要在流程中使用此组件,请将 Data 输出连接到接受该输入的组件。例如,将 API Request 组件连接到 Chat Output 组件。

API request into a chat output component

  1. 在 API 组件的 URLs 字段中,输入您的请求端点。此示例使用 https://dummy-json.mock.beeceptor.com/posts,这是一个技术博客文章列表。

  2. Method 字段中,输入请求类型。此示例使用 GET 获取博客文章列表。该组件还支持 POST、PATCH、PUT 和 DELETE。

  3. 可选地,启用 Use cURL 按钮以创建用于粘贴 curl 请求的字段。此示例中等效的调用是 curl -v https://dummy-json.mock.beeceptor.com/posts

  4. 点击 Playground,然后点击 Run Flow。您的请求在 result 字段中返回博客文章列表。

参数

输入

名称显示名称信息
urlsURL输入一个或多个 URL,用逗号分隔。
curlcURL粘贴一个 curl 命令以填充 headers 和 body 的字典字段。
method方法要使用的 HTTP 方法。
use_curl使用 cURL启用 cURL 模式以从 cURL 命令填充字段。
query_params查询参数要添加到 URL 的查询参数。
body正文作为字典随请求发送的正文(用于 POST, PATCH, PUT)。
headers头部作为字典随请求发送的头部。
timeout超时请求要使用的超时时间。
follow_redirects跟随重定向是否跟随 http 重定向。
save_to_file保存到文件将 API 响应保存到临时文件。
include_httpx_metadata包含 HTTPx 元数据在输出中包含 headersstatus_coderesponse_headersredirection_history 等属性。

输出

名称显示名称信息
data数据API 请求的结果。返回包含源 URL 和结果的 Data 对象。
dataframeDataFrame将 API 响应数据转换为表格形式的 DataFrame 格式。

目录

此组件递归地从目录加载文件,并提供文件类型、深度和并发选项。

参数

输入

输入类型描述
pathMessageTextInput要从中加载文件的目录路径。
typesMessageTextInput要加载的文件类型(留空以加载所有类型)。
depthIntInput搜索文件的深度。
max_concurrencyIntInput加载文件的最大并发数。
load_hiddenBoolInput如果为 true,则加载隐藏文件。
recursiveBoolInput如果为 true,则搜索是递归的。
silent_errorsBoolInput如果为 true,则错误不会引发异常。
use_multithreadingBoolInput如果为 true,则使用多线程。

输出

输出类型描述
dataList[Data]从目录加载的文件数据。

文件

此组件加载和解析各种支持格式的文件,并将内容转换为 Data 对象。它支持多种文件类型,并提供并行处理和错误处理选项。

要加载文档,请按照以下步骤操作

  1. 点击 Select files 按钮。
  2. 选择本地文件或使用 文件管理 加载的文件,然后点击 Select file

加载的文件名会出现在组件中。

默认支持的最大文件大小为 100 MB。要修改此值,请参见 --max-file-size-upload

参数

输入

名称显示名称信息
path文件要加载的文件路径。支持单个文件或捆绑存档。
file_path服务器文件路径一个 Data 对象,其 file_path 属性指向服务器文件,或一个 Message 对象,其中包含文件路径。取代 'Path' 但支持相同的文件类型。
separator分隔符在 Message 格式的多个输出之间使用的分隔符。
silent_errors静默错误如果为 true,则错误不会引发异常。
delete_server_file_after_processing处理后删除服务器文件如果为 true,则在处理后删除服务器文件路径。
ignore_unsupported_extensions忽略不支持的扩展名如果为 true,则不处理具有不支持扩展名的文件。
ignore_unspecified_files忽略未指定的文件如果为 true,则忽略没有 file_path 属性的 Data
use_multithreading[已弃用] 使用多线程将“Processing Concurrency”设置为大于 1 的值以启用多线程。此选项已弃用。
concurrency_multithreading处理并发数处理多个文件时,并发处理的文件数量。默认值为 1。大于 1 的值会启用 2 个或更多文件的并行处理。

输出

名称显示名称信息
data数据解析的文件内容作为 Data 对象。
dataframeDataFrame文件内容作为 DataFrame 对象。
message消息文件内容作为 Message 对象。

支持的文件类型

文本文件

  • .txt - 文本文件
  • .md, .mdx - Markdown 文件
  • .csv - CSV 文件
  • .json - JSON 文件
  • .yaml, .yml - YAML 文件
  • .xml - XML 文件
  • .html, .htm - HTML 文件
  • .pdf - PDF 文件
  • .docx - Word 文档
  • .py - Python 文件
  • .sh - Shell 脚本
  • .sql - SQL 文件
  • .js - JavaScript 文件
  • .ts, .tsx - TypeScript 文件

存档格式(用于捆绑多个文件)

  • .zip - ZIP 存档
  • .tar - TAR 存档
  • .tgz - Gzipped TAR 存档
  • .bz2 - Bzip2 压缩文件
  • .gz - Gzip 压缩文件

SQL 查询

此组件在指定的数据库上执行 SQL 查询。

参数

输入

名称显示名称信息
query查询要执行的 SQL 查询。
database_url数据库 URL数据库的 URL。
include_columns包含列在结果中包含列。
passthrough透传如果发生错误,返回查询而不是引发异常。
add_error添加错误将错误添加到结果中。

输出

名称显示名称信息
result结果SQL 查询执行的结果。

URL

此组件从一个或多个 URL 获取内容,处理内容,并以各种格式返回。它支持纯文本、原始 HTML 或 JSON 格式的输出,并提供清理和分隔多个输出的选项。

  1. 要在流程中使用此组件,请将 DataFrame 输出连接到接受该输入的组件。例如,将 URL 组件连接到 Chat Output 组件。

URL request into a chat output component

  1. 在 URL 组件的 URLs 字段中,输入您的请求 URL。此示例使用 langflow.org

  2. 可选地,在 Max Depth 字段中,输入您希望抓取的距离初始 URL 的页面数。选择 1 只抓取 URLs 字段中指定的页面。选择 2 抓取该页面链接的所有页面。组件通过链接遍历进行抓取,而不是通过 URL 路径深度。

  3. 点击 Playground,然后点击 Run Flow。URL 的文本内容将作为结构化的 DataFrame 返回到 Playground。

  4. URL 组件中,将输出端口更改为 Message,然后再次运行流程。URL 的文本内容将作为非结构化的原始文本返回,您可以使用 Regex Extractor 工具从中提取模式。

  5. URL 组件连接到 Regex ExtractorChat Output

Regex extractor connected to url component

  1. Regex Extractor 工具中,输入一个模式以从 URL 组件的原始输出中提取文本。此示例提取 https://en.wikipedia.org/wiki/Main_Page 页面的“新闻动态”部分的第一段。

_10
新闻动态\s*\n(.*?)(?=\n\n)

结果


_10
秘鲁作家、诺贝尔文学奖获得者马里奥·巴尔加斯·略萨(如图)逝世,享年 89 岁。

参数

输入

名称显示名称信息
urlsURL输入一个或多个 URL。URL 会自动验证和清理。
format输出格式输出格式。使用 Text 从 HTML 中提取文本,使用 Raw HTML 表示原始 HTML 内容,或使用 JSON 从 HTML 中提取 JSON。
separator分隔符在多个输出之间使用的分隔符。Text 的默认分隔符是 \n\nRaw HTML 的默认分隔符是 \n<!-- Separator -->\n
clean_extra_whitespace清理多余空白是否清理文本输出中过多的空行。仅适用于 Text 格式。

输出

名称显示名称信息
data数据包含获取的内容和元数据的 Data 对象列表。
text文本获取的内容作为格式化文本,应用了分隔符和清理。
dataframeDataFrame内容格式化为 DataFrame 对象。

Webhook

此组件定义了一个 Webhook 触发器,当接收到 HTTP POST 请求时运行流程。

如果输入不是有效的 JSON,组件会将其包装在一个 payload 对象中,以便可以对其进行处理并仍然触发流程。此组件不需要 API 密钥。

Webhook 组件添加到工作区后,API 面板中会显示一个新的 Webhook cURL 选项卡,其中包含用于触发 Webhook 组件的 HTTP POST 请求。例如


_10
curl -X POST \
_10
"http://127.0.0.1:7860/api/v1/webhook/**您的流程ID**" \
_10
-H 'Content-Type: application/json'\
_10
-d '{"任意": "数据"}'

测试 Webhook 组件

  1. Webhook 组件添加到流程中。
  2. Webhook 组件的 Data 输出连接到 解析器 组件的 Data 输入。
  3. 解析器 组件的 Parsed Text 输出连接到 聊天输出 组件的 Text 输入。
  4. 解析器 组件的 Mode 下,选择 Stringify。此模式将 Webhook 的数据作为字符串传递给 聊天输出 组件打印。
  5. 要发送 POST 请求,请从 API 面板的 Webhook cURL 选项卡中复制代码,并将其粘贴到终端中。
  6. 发送 POST 请求。
  7. 打开 Playground。您的 JSON 数据已发布到 聊天输出 组件,这表明 Webhook 组件正确触发了流程。
参数

输入

名称显示名称描述
data负载通过 HTTP POST 请求从外部系统接收负载。
curlcURL用于向此 Webhook 发送请求的 cURL 命令模板。
endpoint端点此 Webhook 接收请求的端点 URL。

输出

名称显示名称描述
output_data数据输出从 Webhook 输入中处理的数据,如果没有输入,则返回一个空的 Data 对象。如果输入不是有效的 JSON,组件会将其包装在一个 payload 对象中。

旧版组件

旧版组件可供使用,但不再受支持。

Gmail 加载器

此组件使用提供的凭据和过滤器从 Gmail 加载电子邮件。

有关创建服务帐户 JSON 的更多信息,请参阅 服务帐户 JSON

参数

输入

输入类型描述
json_stringSecretStrInput包含用于服务帐户访问的 OAuth 2.0 访问令牌信息的 JSON 字符串。
label_idsMessageTextInput要过滤电子邮件的标签 ID 列表,用逗号分隔。
max_resultsMessageTextInput要加载的最大电子邮件数量。

输出

输出类型描述
data数据加载的电子邮件数据。

Google Drive 加载器

此组件使用提供的凭据和单个文档 ID 从 Google Drive 加载文档。

有关创建服务帐户 JSON 的更多信息,请参阅 服务帐户 JSON

参数

输入

输入类型描述
json_stringSecretStrInput包含用于服务帐户访问的 OAuth 2.0 访问令牌信息的 JSON 字符串。
document_idMessageTextInput单个 Google Drive 文档 ID。

输出

输出类型描述
docs数据加载的文档数据。

此组件使用提供的凭据和查询参数搜索 Google Drive 文件。

有关创建服务帐户 JSON 的更多信息,请参阅 服务帐户 JSON

参数

输入

输入类型描述
token_stringSecretStrInput包含用于服务帐户访问的 OAuth 2.0 访问令牌信息的 JSON 字符串。
query_itemDropdownInput要查询的字段。
valid_operatorDropdownInput在查询中使用的运算符。
search_termMessageTextInput在指定的查询项中搜索的值。
query_stringMessageTextInput用于搜索的查询字符串。

输出

输出类型描述
doc_urlsList[str]找到的文档的 URL。
doc_idsList[str]找到的文档的 ID。
doc_titlesList[str]找到的文档的标题。
数据数据文档标题和 URL 的结构化格式。
Search