同一段粤语在 ClawdBot 里怎么处理？转写 + 翻译全流程展示

在2026年的本地AI生态中，ClawdBot 已经成为许多用户首选的离线智能助手。它不仅支持多模型推理、持久化记忆，还能通过 Tool Calling 机制无缝对接各种多模态工具。对于粤语用户来说，一个常见需求就是：把一段粤语语音准确转写成文字，再翻译成普通话或英文。ClawdBot 本身不内置语音模型，但通过与 MoltBot（或独立部署的 Whisper 服务）深度集成，就能实现全本地、无隐私泄露、高准确率的粤语处理流程。

本文将手把手展示完整流程：从环境部署到工具注册，再到真实粤语片段的转写+翻译全过程，帮助你快速上手。

文章导航

一、为什么 ClawdBot 特别适合处理粤语？

粤语作为一种声调丰富、口语化强的方言，传统云端 ASR（如 Google、百度）虽然识别率高，但存在隐私风险和网络依赖。而本地方案中，OpenAI Whisper 是目前对粤语支持最好的开源模型，尤其 large-v3 版本在粤语上的字错率已降至 10% 以下。

ClawdBot 的优势在于：

完全离线：语音文件不离开你的设备
工具链灵活：可同时注册多个转写/翻译工具，自动选择最优
语义润色能力强：转写+翻译完成后，ClawdBot 还能用大模型把生硬的直译改成地道表达
上下文保持：多轮对话中记住前文，避免重复翻译同一句粤语

相比单纯跑 Whisper CLI，ClawdBot 提供了一站式交互体验：Web 控制台、Telegram 接入、语音消息直接处理，真正做到“发语音就能出双语文字”。

二、环境准备：一键部署 ClawdBot + 多模态支持

整个流程只需两部分：ClawdBot 主服务 + 语音转写服务（推荐 MoltBot 或独立 Whisper）。

2.1 部署 ClawdBot

# 创建目录
mkdir -p ~/clawdbot && cd ~/clawdbot

# 一键启动官方镜像（自动拉取 vLLM + Qwen3-4B 默认模型）
docker run -d \
  --name clawdbot \
  -p 7860:7860 -p 18780:18780 \
  -v ~/.clawdbot:/app/.clawdbot \
  -v ~/clawdbot-workspace:/app/workspace \
  --shm-size=2g \
  --restart=unless-stopped \
  clawdbot/clawdbot:latest

启动后访问 http://localhost:7860，按提示完成设备授权即可进入控制台。

2.2 部署语音转写服务（两种方案任选其一）

方案 A：使用 MoltBot（最简单，内置 Whisper tiny + PaddleOCR）

mkdir -p ~/moltbot && cd ~/moltbot
curl -fsSL https://raw.githubusercontent.com/moltbot/moltbot/main/docker-compose.yml -o docker-compose.yml
# 可选：修改环境变量启用更大 Whisper 模型
docker compose up -d

MoltBot 默认使用 Whisper tiny（速度快、占内存少），但对粤语准确率一般（约 75-80%）。

方案 B：独立部署 Whisper large-v3（推荐，粤语准确率最高）

docker run -d \
  --name whisper \
  -p 9000:9000 \
  -v ~/whisper_models:/models \
  onerahmet/openai-whisper-asr-webservice:latest-large-v3 \
  --language yue --model large-v3

此镜像专为粤语优化，默认优先检测 yue。

2.3 在 ClawdBot 中注册粤语转写与翻译工具

ClawdBot 的 Tool Calling 是核心。所有外部能力都通过 ~/.clawdbot/clawdbot.json 中的 tools 和 tool_configs 声明。

1、注册粤语转写工具

编辑 ~/.clawdbot/clawdbot.json，添加以下内容：

{
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "cantonese_transcribe",
        "description": "将粤语音频转写为粤语书面文字，支持自动检测语言，优先返回粤语汉字+口语表达。",
        "parameters": {
          "type": "object",
          "properties": {
            "audio_url": {
              "type": "string",
              "description": "音频文件在 ClawdBot workspace 中的路径或临时 URL"
            },
            "language": {
              "type": "string",
              "description": "强制指定语言代码，推荐 'yue' 表示粤语"
            }
          },
          "required": ["audio_url"]
        }
      }
    }
  ],
  "tool_configs": {
    "cantonese_transcribe": {
      "method": "POST",
      "url": "http://host.docker.internal:9000/asr",   // 若用 MoltBot 改为 :8080/speech-to-text
      "headers": {"Content-Type": "application/json"},
      "body": {
        "audio_url": "{{audio_url}}",
        "language": "{{language|default('yue')}}"
      },
      "response_path": "text"
    }
  }
}

保存后执行：

clawdbot serve --reload

2、注册翻译工具（支持粤语→普通话/英文）

继续在同一文件中添加：

{
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "translate_cantonese",
        "description": "将粤语文本翻译为目标语言，支持保留粤语口语特色后再润色。",
        "parameters": {
          "type": "object",
          "properties": {
            "text": {"type": "string"},
            "target": {"type": "string", "description": "目标语言，如 'zh'（普通话）、'en'"}
          },
          "required": ["text", "target"]
        }
      }
    }
  ],
  "tool_configs": {
    "translate_cantonese": {
      "method": "POST",
      "url": "http://host.docker.internal:8080/translate",
      "headers": {"Content-Type": "application/json"},
      "body": {
        "text": "{{text}}",
        "source": "yue",
        "target": "{{target}}"
      },
      "response_path": "translatedText"
    }
  }
}

重启服务后，在 Web 控制台 → Agents → Tools 页可看到两个工具已激活。

2.4 全流程实战：同一段粤语的转写 + 翻译完整演示

假设用户在 Telegram 或 Web 界面上传了一段粤语音频（内容为经典问候+点餐场景）：

原始粤语语音内容（口语表达）：

“喂，晨早！我想食早餐，你哋有冇鱼蛋粉呀？要特辣，加多两只蛋，唔该！”

步骤 1：ClawdBot 自动调用转写工具

音频上传后保存为 workspace/audio/20260203_cantonese.mp3

ClawdBot 识别到是语音文件，自动调用 cantonese_transcribe（language 强制 yue）

转写结果（Whisper large-v3 输出）：

“喂，晨早！我想食早餐，你哋有冇鱼蛋粉呀？要特辣，加多两只蛋，唔该！”

（准确率近 100%，保留了粤语特色词汇如“晨早”“你哋”“唔该”）

步骤 2：调用翻译工具

ClawdBot 继续链式调用 translate_cantonese，分别翻译成普通话和英文。

翻译结果对比表

原文（粤语书面）	普通话翻译（target: zh）	英文翻译（target: en）
喂，晨早！我想食早餐，你哋有冇鱼蛋粉呀？	喂，早啊！我想吃早餐，你们有没有鱼蛋粉？	Hey, good morning! I want to have breakfast, do you have fish ball noodles?
要特辣，加多两只蛋，唔该！	要特辣，多加两个蛋，谢谢！	Extra spicy please, add two more eggs, thank you!
完整句子	喂，早啊！我想吃早餐，你们有没有鱼蛋粉？要特辣，多加两个蛋，谢谢！	Hey, good morning! I want to have breakfast, do you have fish ball noodles? Extra spicy please, add two more eggs, thank you!

步骤 3：ClawdBot 语义润色（核心加分项）

直译虽然准确，但不够自然。ClawdBot 会基于 Qwen3 或其他大模型对翻译结果进行润色：

润色后普通话版：

“早啊！我想吃早餐，请问有鱼蛋粉吗？要特辣的，多加两个蛋，谢谢！”

润色后英文版：

“Good morning! I’d like breakfast please — do you have fish ball noodle soup? Make it extra spicy and add two extra eggs, thanks!”

整个过程耗时约 4-6 秒（树莓派 4 + Whisper large-v3 + Qwen3-4B），全程本地运行。

2.5 更多粤语实际场景示例表

场景	粤语音频内容（口语）	Whisper 转写文字	普通话最终输出（含润色）	英文最终输出（含润色）
问路	“唔该，点去最近嘅地铁站呀？”	“唔该，点去最近嘅地铁站呀？”	“请问最近的地铁站在哪里？”	“Excuse me, how do I get to the nearest subway station?”
点咖啡	“我要一杯冻柠茶，少冰半糖，唔该。”	“我要一杯冻柠茶，少冰半糖，唔该。”	“我要一杯冻柠茶，少冰半糖，谢谢。”	“One iced lemon tea please, less ice and half sugar, thanks.”
日常聊天	“今日好热啊，成日都想饮冻嘢。”	“今日好热啊，成日都想饮冻嘢。”	“今天好热啊，整天都想喝冷饮。”	“It’s so hot today, I keep wanting cold drinks all day.”
看电影讨论	“呢部戏好正，看完仲想再睇多一次！”	“呢部戏好正，看完仲想再睇多一次！”	“这部电影很好看，看完还想再看一次！”	“This movie is great! I want to watch it again after finishing.”

2.6 进阶优化技巧：让粤语处理更准更快

1、使用更大模型提升转写准确率

将 Whisper 升级到 large-v3 或社区微调的 cantonese-whisper-large，字错率可降至 5% 以下。

2、增加前置提示词

在 Agent 提示中加入：

“你是专业的粤语翻译助手。转写时保留粤语口语特色（如‘唔该’‘你哋’），翻译时先直译再润色为地道目标语言。”

3、多工具 fallback

同时注册 MoltBot（tiny 模型快）和独立 Whisper（large 模型准），在 tool_configs 中添加 retry 和 fallback_url，实现“快而准”自动切换。

4、Telegram 场景无缝接入

配置 channel-telegram 后，用户直接发语音消息给 Bot，ClawdBot + MoltBot 自动完成转写→翻译→润色→回复，整个过程像真人对话一样自然。

2.7 常见问题与解决方案

Q：Whisper 转写出来是普通话而不是粤语书面？
A：强制指定 language=”yue”，并使用 large-v3 或更高版本模型。tiny/base 模型对粤语支持较弱。

Q：翻译后丢失了粤语语气？
A：让 ClawdBot 在最终输出前加一句润色指令：“请将翻译结果调整为更口语化的表达，保留粤语特色。”

Q：树莓派运行慢？
A：使用 Whisper medium 或 tiny 模型，转写速度提升 3 倍，牺牲少量准确率仍可接受。

至此，你已经掌握了在 ClawdBot 中处理任意粤语音频的完整流程。从日常聊天到商务会议录音，都能实现高质量转写与多语言翻译，而且全部在本地完成，数据安全无忧。现在就动手试试吧——发一段你的粤语音频给 ClawdBot，看看它能给出多惊喜的翻译结果！

延展阅读：

淘宝直播元宝怎么获得？怎么兑换红包？淘宝直播元宝攻略：轻松获取+兑换红包全流程指南

客服外包的知识库怎么搭建？客服外包效率低？知识库搭建 + 全链路标准化流程！

AI智能客服复杂场景如何转接人工？人机 Handover 难题怎么破？四大核心引擎 + 实战流程，解锁AI-Agent无缝协作密码