在2026年的本地AI生态中,ClawdBot 已经成为许多用户首选的离线智能助手。它不仅支持多模型推理、持久化记忆,还能通过 Tool Calling 机制无缝对接各种多模态工具。对于粤语用户来说,一个常见需求就是:把一段粤语语音准确转写成文字,再翻译成普通话或英文。ClawdBot 本身不内置语音模型,但通过与 MoltBot(或独立部署的 Whisper 服务)深度集成,就能实现全本地、无隐私泄露、高准确率的粤语处理流程。
本文将手把手展示完整流程:从环境部署到工具注册,再到真实粤语片段的转写+翻译全过程,帮助你快速上手。

文章导航
一、为什么 ClawdBot 特别适合处理粤语?
粤语作为一种声调丰富、口语化强的方言,传统云端 ASR(如 Google、百度)虽然识别率高,但存在隐私风险和网络依赖。而本地方案中,OpenAI Whisper 是目前对粤语支持最好的开源模型,尤其 large-v3 版本在粤语上的字错率已降至 10% 以下。
ClawdBot 的优势在于:
- 完全离线:语音文件不离开你的设备
- 工具链灵活:可同时注册多个转写/翻译工具,自动选择最优
- 语义润色能力强:转写+翻译完成后,ClawdBot 还能用大模型把生硬的直译改成地道表达
- 上下文保持:多轮对话中记住前文,避免重复翻译同一句粤语
相比单纯跑 Whisper CLI,ClawdBot 提供了一站式交互体验:Web 控制台、Telegram 接入、语音消息直接处理,真正做到“发语音就能出双语文字”。
二、环境准备:一键部署 ClawdBot + 多模态支持
整个流程只需两部分:ClawdBot 主服务 + 语音转写服务(推荐 MoltBot 或独立 Whisper)。
2.1 部署 ClawdBot
# 创建目录
mkdir -p ~/clawdbot && cd ~/clawdbot
# 一键启动官方镜像(自动拉取 vLLM + Qwen3-4B 默认模型)
docker run -d \
--name clawdbot \
-p 7860:7860 -p 18780:18780 \
-v ~/.clawdbot:/app/.clawdbot \
-v ~/clawdbot-workspace:/app/workspace \
--shm-size=2g \
--restart=unless-stopped \
clawdbot/clawdbot:latest
启动后访问 http://localhost:7860,按提示完成设备授权即可进入控制台。
2.2 部署语音转写服务(两种方案任选其一)
方案 A:使用 MoltBot(最简单,内置 Whisper tiny + PaddleOCR)
mkdir -p ~/moltbot && cd ~/moltbot
curl -fsSL https://raw.githubusercontent.com/moltbot/moltbot/main/docker-compose.yml -o docker-compose.yml
# 可选:修改环境变量启用更大 Whisper 模型
docker compose up -d
MoltBot 默认使用 Whisper tiny(速度快、占内存少),但对粤语准确率一般(约 75-80%)。
方案 B:独立部署 Whisper large-v3(推荐,粤语准确率最高)
docker run -d \
--name whisper \
-p 9000:9000 \
-v ~/whisper_models:/models \
onerahmet/openai-whisper-asr-webservice:latest-large-v3 \
--language yue --model large-v3
此镜像专为粤语优化,默认优先检测 yue。
2.3 在 ClawdBot 中注册粤语转写与翻译工具
ClawdBot 的 Tool Calling 是核心。所有外部能力都通过 ~/.clawdbot/clawdbot.json 中的 tools 和 tool_configs 声明。
1、注册粤语转写工具
编辑 ~/.clawdbot/clawdbot.json,添加以下内容:
{
"tools": [
{
"type": "function",
"function": {
"name": "cantonese_transcribe",
"description": "将粤语音频转写为粤语书面文字,支持自动检测语言,优先返回粤语汉字+口语表达。",
"parameters": {
"type": "object",
"properties": {
"audio_url": {
"type": "string",
"description": "音频文件在 ClawdBot workspace 中的路径或临时 URL"
},
"language": {
"type": "string",
"description": "强制指定语言代码,推荐 'yue' 表示粤语"
}
},
"required": ["audio_url"]
}
}
}
],
"tool_configs": {
"cantonese_transcribe": {
"method": "POST",
"url": "http://host.docker.internal:9000/asr", // 若用 MoltBot 改为 :8080/speech-to-text
"headers": {"Content-Type": "application/json"},
"body": {
"audio_url": "{{audio_url}}",
"language": "{{language|default('yue')}}"
},
"response_path": "text"
}
}
}
保存后执行:
clawdbot serve --reload
2、注册翻译工具(支持粤语→普通话/英文)
继续在同一文件中添加:
{
"tools": [
{
"type": "function",
"function": {
"name": "translate_cantonese",
"description": "将粤语文本翻译为目标语言,支持保留粤语口语特色后再润色。",
"parameters": {
"type": "object",
"properties": {
"text": {"type": "string"},
"target": {"type": "string", "description": "目标语言,如 'zh'(普通话)、'en'"}
},
"required": ["text", "target"]
}
}
}
],
"tool_configs": {
"translate_cantonese": {
"method": "POST",
"url": "http://host.docker.internal:8080/translate",
"headers": {"Content-Type": "application/json"},
"body": {
"text": "{{text}}",
"source": "yue",
"target": "{{target}}"
},
"response_path": "translatedText"
}
}
}
重启服务后,在 Web 控制台 → Agents → Tools 页可看到两个工具已激活。
2.4 全流程实战:同一段粤语的转写 + 翻译完整演示
假设用户在 Telegram 或 Web 界面上传了一段粤语音频(内容为经典问候+点餐场景):
原始粤语语音内容(口语表达):
“喂,晨早!我想食早餐,你哋有冇鱼蛋粉呀?要特辣,加多两只蛋,唔该!”
步骤 1:ClawdBot 自动调用转写工具
音频上传后保存为 workspace/audio/20260203_cantonese.mp3
ClawdBot 识别到是语音文件,自动调用 cantonese_transcribe(language 强制 yue)
转写结果(Whisper large-v3 输出):
“喂,晨早!我想食早餐,你哋有冇鱼蛋粉呀?要特辣,加多两只蛋,唔该!”
(准确率近 100%,保留了粤语特色词汇如“晨早”“你哋”“唔该”)
步骤 2:调用翻译工具
ClawdBot 继续链式调用 translate_cantonese,分别翻译成普通话和英文。
翻译结果对比表
| 原文(粤语书面) | 普通话翻译(target: zh) | 英文翻译(target: en) |
| 喂,晨早! 我想食早餐,你哋有冇鱼蛋粉呀? | 喂,早啊! 我想吃早餐,你们有没有鱼蛋粉? | Hey, good morning! I want to have breakfast, do you have fish ball noodles? |
| 要特辣,加多两只蛋,唔该! | 要特辣,多加两个蛋,谢谢! | Extra spicy please, add two more eggs, thank you! |
| 完整句子 | 喂,早啊!我想吃早餐,你们有没有鱼蛋粉?要特辣,多加两个蛋,谢谢! | Hey, good morning! I want to have breakfast, do you have fish ball noodles? Extra spicy please, add two more eggs, thank you! |
步骤 3:ClawdBot 语义润色(核心加分项)
直译虽然准确,但不够自然。ClawdBot 会基于 Qwen3 或其他大模型对翻译结果进行润色:
润色后普通话版:
“早啊!我想吃早餐,请问有鱼蛋粉吗?要特辣的,多加两个蛋,谢谢!”
润色后英文版:
“Good morning! I’d like breakfast please — do you have fish ball noodle soup? Make it extra spicy and add two extra eggs, thanks!”
整个过程耗时约 4-6 秒(树莓派 4 + Whisper large-v3 + Qwen3-4B),全程本地运行。
2.5 更多粤语实际场景示例表
| 场景 | 粤语音频内容 (口语) | Whisper 转写文字 | 普通话最终输出(含润色) | 英文最终输出 (含润色) |
| 问路 | “唔该,点去最近嘅地铁站呀?” | “唔该,点去最近嘅地铁站呀?” | “请问最近的地铁站在哪里?” | “Excuse me, how do I get to the nearest subway station?” |
| 点咖啡 | “我要一杯冻柠茶,少冰半糖,唔该。” | “我要一杯冻柠茶,少冰半糖,唔该。” | “我要一杯冻柠茶,少冰半糖,谢谢。” | “One iced lemon tea please, less ice and half sugar, thanks.” |
| 日常聊天 | “今日好热啊,成日都想饮冻嘢。” | “今日好热啊,成日都想饮冻嘢。” | “今天好热啊,整天都想喝冷饮。” | “It’s so hot today, I keep wanting cold drinks all day.” |
| 看电影讨论 | “呢部戏好正,看完仲想再睇多一次!” | “呢部戏好正,看完仲想再睇多一次!” | “这部电影很好看,看完还想再看一次!” | “This movie is great! I want to watch it again after finishing.” |
2.6 进阶优化技巧:让粤语处理更准更快
1、使用更大模型提升转写准确率
将 Whisper 升级到 large-v3 或社区微调的 cantonese-whisper-large,字错率可降至 5% 以下。
2、增加前置提示词
在 Agent 提示中加入:
“你是专业的粤语翻译助手。转写时保留粤语口语特色(如‘唔该’‘你哋’),翻译时先直译再润色为地道目标语言。”

3、多工具 fallback
同时注册 MoltBot(tiny 模型快)和独立 Whisper(large 模型准),在 tool_configs 中添加 retry 和 fallback_url,实现“快而准”自动切换。
4、Telegram 场景无缝接入
配置 channel-telegram 后,用户直接发语音消息给 Bot,ClawdBot + MoltBot 自动完成转写→翻译→润色→回复,整个过程像真人对话一样自然。
2.7 常见问题与解决方案
Q:Whisper 转写出来是普通话而不是粤语书面?
A:强制指定 language=”yue”,并使用 large-v3 或更高版本模型。tiny/base 模型对粤语支持较弱。
Q:翻译后丢失了粤语语气?
A:让 ClawdBot 在最终输出前加一句润色指令:“请将翻译结果调整为更口语化的表达,保留粤语特色。”
Q:树莓派运行慢?
A:使用 Whisper medium 或 tiny 模型,转写速度提升 3 倍,牺牲少量准确率仍可接受。
至此,你已经掌握了在 ClawdBot 中处理任意粤语音频的完整流程。从日常聊天到商务会议录音,都能实现高质量转写与多语言翻译,而且全部在本地完成,数据安全无忧。现在就动手试试吧——发一段你的粤语音频给 ClawdBot,看看它能给出多惊喜的翻译结果!
延展阅读:
淘宝直播元宝怎么获得?怎么兑换红包?淘宝直播元宝攻略:轻松获取+兑换红包全流程指南
客服外包的知识库怎么搭建?客服外包效率低?知识库搭建 + 全链路标准化流程!
AI智能客服复杂场景如何转接人工?人机 Handover 难题怎么破?四大核心引擎 + 实战流程,解锁AI-Agent无缝协作密码