AssemblyAI
AssemblyAI 组件让您能够将强大的语音 AI 模型应用于您的应用程序,以完成以下任务:
- 转录音频和视频文件
- 格式化转录文本
- 生成字幕
- 将 LLM 应用于音频文件
关于 AssemblyAI 的更多信息
先决条件
您需要一个 AssemblyAI API 密钥。创建免费账户后,您可以在仪表盘中找到 API 密钥。在此获取免费 API 密钥。
在所有需要密钥的组件中,在AssemblyAI API Key 字段中输入密钥。
(可选):要使用 LeMUR,您需要升级 AssemblyAI 账户,因为免费账户不包含此功能。
组件
AssemblyAI 开始转录
此组件允许您提交音频或视频文件进行转录。
提示:您可以冻结此组件的路径,以便只提交一次文件。
-
输入:
- AssemblyAI API Key:您的 API 密钥。
- Audio File:要转录的音频或视频文件。
- Speech Model(可选):选择模型类别。默认是Best。更多信息请参阅语音模型。
- Automatic Language Detection(可选):启用自动语言检测。
- Language(可选):音频文件的语言。如果禁用自动语言检测,可以手动设置。支持的语言列表请参阅支持的语言。
- Enable Speaker Labels(可选):检测音频文件中的说话者以及每个人说的话。
- Expected Number of Speakers(可选):如果启用了 Speaker Labels,设置预期的说话者数量。
- Audio File URL(可选):要转录的音频或视频文件的 URL。可以替代Audio File使用。
- Punctuate(可选):应用标点符号。默认是 true。
- Format Text(可选):应用大小写和文本格式。默认是 true。
-
输出:
- Transcript ID:转录文本的 ID
AssemblyAI 轮询转录
此组件允许您轮询转录结果。它会每隔几秒检查一次转录状态,直到转录完成。
-
输入:
- AssemblyAI API Key:您的 API 密钥。
- Polling Interval(可选):轮询间隔(秒)。默认是 3。
-
输出:
- Transcription Result:已完成转录的 AssemblyAI JSON 响应。包含文本和其他信息。
AssemblyAI 获取字幕
此组件允许您生成 SRT 或 VTT 格式的字幕。
-
输入:
- AssemblyAI API Key:您的 API 密钥。
- Transcription Result:Poll Transcript 组件的输出。
- Subtitle Format:字幕的格式(SRT 或 VTT)。
- Character per Caption(可选):每个字幕的最大字符数(0 表示无限制)。
-
输出:
- Subtitles:一个 JSON 响应,其中包含
subtitles
字段,内含 SRT 或 VTT 格式的字幕。
- Subtitles:一个 JSON 响应,其中包含
AssemblyAI LeMUR
此组件允许您使用AssemblyAI LeMUR 框架将大型语言模型应用于口语数据。
LeMUR 自动将转录文本作为额外上下文,方便您将 LLM 应用于音频数据。您可以将其用于总结音频、提取见解或提问等任务。
-
输入:
- AssemblyAI API Key:您的 API 密钥。
- Transcription Result:Poll Transcript 组件的输出。
- Input Prompt:用于提示模型的文本。您可以在此字段中输入您的提示,或将其连接到 Prompt 组件。
- Final Model:压缩完成后用于最终提示的模型。默认是 Claude 3.5 Sonnet。
- Temperature(可选):用于模型的温度。默认是 0.0。
- Max Output Size(可选):最大输出大小(令牌),最高 4000。默认是 2000。
- Endpoint(可选):要使用的 LeMUR 端点。默认是 "task"。对于 "summary" 和 "question-answer",无需提示输入。更多信息请参阅LeMUR API 文档。
- Questions(可选):您的问题列表,用逗号分隔。仅当Endpoint是 "question-answer" 时使用。
- Transcript IDs(可选):转录 ID 列表,用逗号分隔。LeMUR 可以对多个转录文本执行操作。如果提供此项,将忽略Transcription Result。
-
输出:
- LeMUR Response:生成的 LLM 响应。
AssemblyAI 列出转录文本
此组件可作为独立组件使用,用于列出所有之前生成的转录文本。
-
输入:
- AssemblyAI API Key:您的 API 密钥。
- Limit(可选):要检索的最大转录文本数量。默认是 20,0 表示全部。
- Filter(可选):按转录状态筛选。
- Created On(可选):仅获取在此日期 (YYYY-MM-DD) 创建的转录文本。
- Throttled Only(可选):仅获取被限制的转录文本,此项会覆盖状态筛选器
-
输出:
- Transcript List:所有转录文本的列表,包含转录 ID、状态和数据等信息。
流程过程
- 用户输入音频或视频文件。
- 用户还可以输入 LLM 提示。在此示例中,我们想生成转录文本的摘要。
- 流程提交音频文件进行转录。
- 流程每隔几秒检查一次转录状态,直到转录完成。
- 流程解析转录结果并输出转录文本。
- 流程还生成字幕。
- 流程应用 LLM 提示生成摘要。
- 作为独立组件,可以列出所有转录文本。
运行转录和语音 AI 流程
要运行转录和语音 AI 流程
- 打开 Langflow 并创建一个新项目。
- 将上面列出的组件添加到您的流程画布,或下载AssemblyAI 转录和语音 AI 流程(下载链接)并将 JSON 文件导入到 Langflow 中。
- 按照流程图所示连接组件。提示:冻结Start Transcript 组件的路径,以便只提交一次文件。
- 在所有需要密钥的组件(Start Transcript, Poll Transcript, Get Subtitles, LeMUR, List Transcripts)中输入 AssemblyAI API 密钥。
- 在Start Transcript 组件中选择一个音频或视频文件。
- 通过点击Parse Data 组件上的 Play 按钮运行流程。确保指定的模板是
{text}
。 - 要生成字幕,请点击Get Subtitles 组件上的 Play 按钮。
- 要将 LLM 应用于您的音频文件,请点击LeMUR 组件上的 Play 按钮。请注意,您需要升级您的 AssemblyAI 账户才能使用 LeMUR。
- 要列出所有转录文本,请点击List Transcript 组件上的 Play 按钮。
自定义
流程可以通过以下方式自定义:
- 修改Start Transcript 组件中的参数。
- 修改Get Subtitles 组件中的字幕格式。
- 修改LeMUR 组件输入的 LLM 提示。
- 修改LeMUR 组件中的 LLM 参数(例如,温度)。
故障排除
如果您遇到问题
- 确保在所有需要密钥的组件中正确设置了 API 密钥。
- 要使用 LeMUR,您需要升级您的 AssemblyAI 账户,因为免费账户不包含此功能。
- 验证流程中的所有组件是否正确连接。
- 查看 Langflow 日志以获取任何错误消息。
如需更高级的用法,请参阅AssemblyAI API 文档。如果您需要更多帮助,可以联系AssemblyAI 支持。