跳到主要内容

AssemblyAI

AssemblyAI 组件让您能够将强大的语音 AI 模型应用于您的应用程序,以完成以下任务:

  • 转录音频和视频文件
  • 格式化转录文本
  • 生成字幕
  • 将 LLM 应用于音频文件

关于 AssemblyAI 的更多信息

先决条件

您需要一个 AssemblyAI API 密钥。创建免费账户后,您可以在仪表盘中找到 API 密钥。在此获取免费 API 密钥

在所有需要密钥的组件中,在AssemblyAI API Key 字段中输入密钥。

(可选):要使用 LeMUR,您需要升级 AssemblyAI 账户,因为免费账户不包含此功能。

组件

AssemblyAI Components

AssemblyAI 开始转录

此组件允许您提交音频或视频文件进行转录。

提示:您可以冻结此组件的路径,以便只提交一次文件。

  • 输入:

    • AssemblyAI API Key:您的 API 密钥。
    • Audio File:要转录的音频或视频文件。
    • Speech Model(可选):选择模型类别。默认是Best。更多信息请参阅语音模型
    • Automatic Language Detection(可选):启用自动语言检测。
    • Language(可选):音频文件的语言。如果禁用自动语言检测,可以手动设置。支持的语言列表请参阅支持的语言
    • Enable Speaker Labels(可选):检测音频文件中的说话者以及每个人说的话。
    • Expected Number of Speakers(可选):如果启用了 Speaker Labels,设置预期的说话者数量。
    • Audio File URL(可选):要转录的音频或视频文件的 URL。可以替代Audio File使用。
    • Punctuate(可选):应用标点符号。默认是 true。
    • Format Text(可选):应用大小写和文本格式。默认是 true。
  • 输出:

    • Transcript ID:转录文本的 ID

AssemblyAI 轮询转录

此组件允许您轮询转录结果。它会每隔几秒检查一次转录状态,直到转录完成。

  • 输入:

    • AssemblyAI API Key:您的 API 密钥。
    • Polling Interval(可选):轮询间隔(秒)。默认是 3。
  • 输出:

    • Transcription Result:已完成转录的 AssemblyAI JSON 响应。包含文本和其他信息。

AssemblyAI 获取字幕

此组件允许您生成 SRT 或 VTT 格式的字幕。

  • 输入:

    • AssemblyAI API Key:您的 API 密钥。
    • Transcription Result:Poll Transcript 组件的输出。
    • Subtitle Format:字幕的格式(SRT 或 VTT)。
    • Character per Caption(可选):每个字幕的最大字符数(0 表示无限制)。
  • 输出:

    • Subtitles:一个 JSON 响应,其中包含 subtitles 字段,内含 SRT 或 VTT 格式的字幕。

AssemblyAI LeMUR

此组件允许您使用AssemblyAI LeMUR 框架将大型语言模型应用于口语数据。

LeMUR 自动将转录文本作为额外上下文,方便您将 LLM 应用于音频数据。您可以将其用于总结音频、提取见解或提问等任务。

  • 输入:

    • AssemblyAI API Key:您的 API 密钥。
    • Transcription Result:Poll Transcript 组件的输出。
    • Input Prompt:用于提示模型的文本。您可以在此字段中输入您的提示,或将其连接到 Prompt 组件。
    • Final Model:压缩完成后用于最终提示的模型。默认是 Claude 3.5 Sonnet。
    • Temperature(可选):用于模型的温度。默认是 0.0。
    • Max Output Size(可选):最大输出大小(令牌),最高 4000。默认是 2000。
    • Endpoint(可选):要使用的 LeMUR 端点。默认是 "task"。对于 "summary" 和 "question-answer",无需提示输入。更多信息请参阅LeMUR API 文档
    • Questions(可选):您的问题列表,用逗号分隔。仅当Endpoint是 "question-answer" 时使用。
    • Transcript IDs(可选):转录 ID 列表,用逗号分隔。LeMUR 可以对多个转录文本执行操作。如果提供此项,将忽略Transcription Result
  • 输出:

    • LeMUR Response:生成的 LLM 响应。

AssemblyAI 列出转录文本

此组件可作为独立组件使用,用于列出所有之前生成的转录文本。

  • 输入:

    • AssemblyAI API Key:您的 API 密钥。
    • Limit(可选):要检索的最大转录文本数量。默认是 20,0 表示全部。
    • Filter(可选):按转录状态筛选。
    • Created On(可选):仅获取在此日期 (YYYY-MM-DD) 创建的转录文本。
    • Throttled Only(可选):仅获取被限制的转录文本,此项会覆盖状态筛选器
  • 输出:

    • Transcript List:所有转录文本的列表,包含转录 ID、状态和数据等信息。

流程过程

  1. 用户输入音频或视频文件。
  2. 用户还可以输入 LLM 提示。在此示例中,我们想生成转录文本的摘要。
  3. 流程提交音频文件进行转录。
  4. 流程每隔几秒检查一次转录状态,直到转录完成。
  5. 流程解析转录结果并输出转录文本。
  6. 流程还生成字幕。
  7. 流程应用 LLM 提示生成摘要。
  8. 作为独立组件,可以列出所有转录文本。

运行转录和语音 AI 流程

要运行转录和语音 AI 流程

  1. 打开 Langflow 并创建一个新项目。
  2. 将上面列出的组件添加到您的流程画布,或下载AssemblyAI 转录和语音 AI 流程(下载链接)并将 JSON 文件导入到 Langflow 中。
  3. 按照流程图所示连接组件。提示:冻结Start Transcript 组件的路径,以便只提交一次文件。
  4. 在所有需要密钥的组件(Start Transcript, Poll Transcript, Get Subtitles, LeMUR, List Transcripts)中输入 AssemblyAI API 密钥。
  5. Start Transcript 组件中选择一个音频或视频文件。
  6. 通过点击Parse Data 组件上的 Play 按钮运行流程。确保指定的模板是 {text}
  7. 要生成字幕,请点击Get Subtitles 组件上的 Play 按钮。
  8. 要将 LLM 应用于您的音频文件,请点击LeMUR 组件上的 Play 按钮。请注意,您需要升级您的 AssemblyAI 账户才能使用 LeMUR。
  9. 要列出所有转录文本,请点击List Transcript 组件上的 Play 按钮。

自定义

流程可以通过以下方式自定义:

  1. 修改Start Transcript 组件中的参数。
  2. 修改Get Subtitles 组件中的字幕格式。
  3. 修改LeMUR 组件输入的 LLM 提示。
  4. 修改LeMUR 组件中的 LLM 参数(例如,温度)。

故障排除

如果您遇到问题

  1. 确保在所有需要密钥的组件中正确设置了 API 密钥。
  2. 要使用 LeMUR,您需要升级您的 AssemblyAI 账户,因为免费账户不包含此功能。
  3. 验证流程中的所有组件是否正确连接。
  4. 查看 Langflow 日志以获取任何错误消息。

如需更高级的用法,请参阅AssemblyAI API 文档。如果您需要更多帮助,可以联系AssemblyAI 支持

Search