在本地AI工具链中,OpenClaw 和 MoltBot 的组合正成为越来越多开发者和效率爱好者的首选方案。OpenClaw 是一个强大的本地AI网关,支持大模型推理、上下文管理与智能体编排;而 MoltBot 则专注于多模态感知与实时翻译,擅长语音转文字、图片OCR、语言识别与翻译。二者单独使用各有优势,但通过双镜像协同部署,却能形成一套完全离线、可控、高智能的本地AI工作流。
本文将手把手教你完成 OpenClaw + MoltBot 双镜像部署与配置,全程无需修改源码、无需云服务API密钥,只需几条 Docker 命令和一次简单的 JSON 配置,即可实现翻译润色、多语言纪要生成、跨境电商文案优化等高级场景。无论你是想搭建个人翻译助手,还是为团队构建内网多语言协作工具,这套方案都能提供稳定、高效的体验。

文章导航
为什么选择 OpenClaw + MoltBot 双镜像协同?
单独使用 OpenClaw,你拥有流畅的对话界面、强大的语义理解和内容生成能力,但缺乏原生的多模态输入和实时翻译。单独使用 MoltBot,你能快速处理语音、图片和多语言消息,但缺少深度推理和自然语言润色能力。
将两者结合后,能力实现完美互补:
| 功能维度 | ClawdBot 单独使用 | MoltBot 单独使用 | 双镜像协同后 |
|---|---|---|---|
| 文本生成与润色 | 优秀(大模型推理) | 一般(无大模型) | 优秀(ClawdBot 深度处理) |
| 语音转文字 | 无 | 优秀(Whisper tiny) | 优秀(MoltBot 处理后交给 ClawdBot) |
| 图片OCR | 无 | 优秀(PaddleOCR) | 优秀(提取后可进一步语义加工) |
| 实时翻译 | 一般(需额外配置) | 优秀(LibreTranslate + Google fallback) | 优秀(翻译+自然润色) |
| 上下文保持 | 优秀(Workspace 持久化) | 一般(仅消息级) | 优秀(ClawdBot 统一管理) |
| 离线能力 | 完全离线(推理部分) | 完全离线(除可选Google翻译) | 完全离线(可关闭在线fallback) |
| 部署复杂度 | 中等 | 低 | 中等(一次配置长期使用) |
这种“感知层(MoltBot)+ 理解表达层(OpenClaw)”的架构,让你在本地就能拥有接近云端多模态AI助手的体验,同时保证数据隐私和可控性。
环境准备:一台设备同时跑两个容器
好消息是,你不需要两台物理机器。OpenClaw 和 MoltBot 都提供官方 Docker 镜像,轻量高效,完全可以在同一台电脑或服务器上并行运行。
硬件与系统要求
- 操作系统:Linux(Ubuntu 22.04/24.04 推荐)、macOS(启用 Rosetta2)、Windows(推荐 WSL2)
- 内存:≥8GB(推荐 16GB,模型加载后实际占用 5-7GB)
- 磁盘:≥30GB 可用空间(模型 + 缓存)
- Docker:≥24.0
- Docker Compose:≥2.20
树莓派 4(8GB 版本)实测也可稳定运行,但建议关闭 Google 翻译 fallback,使用纯离线 LibreTranslate。
第一步:一键部署 MoltBot(5 分钟上线)
MoltBot 的设计理念是“极简”,官方提供了一份开箱即用的 docker-compose.yml。
# 创建目录
mkdir -p ~/moltbot && cd ~/moltbot
# 下载官方 compose 文件(2026 年 1 月最新版已验证)
curl -fsSL https://raw.githubusercontent.com/moltbot/moltbot/main/docker-compose.yml -o docker-compose.yml
# 启动
docker compose up -d
# 查看日志确认运行正常
docker compose logs -f moltbot
成功启动后,你会看到:
- Whisper tiny 语音模型加载完成
- PaddleOCR 初始化:支持中英日韩等多语言
- LibreTranslate 引擎就绪
- Telegram Bot 开始轮询(可选)
此时 MoltBot 已监听本地 http://localhost:8080,提供翻译、OCR、语音转写等 HTTP 接口。
国内网络小贴士:若需访问 Google 翻译 fallback,可在 docker-compose.yml 的 moltbot 服务中添加代理环境变量:
environment:
- HTTP_PROXY=http://127.0.0.1:7890
- HTTPS_PROXY=http://127.0.0.1:7890
第二步:部署 OpenClaw(含 vLLM 推理后端)
OpenClaw 提供 CLI 工具和完整服务栈,推荐使用官方 CLI 方式管理。
# 安装 OpenClaw CLI
pip install openclaw
# 初始化配置目录
openclaw init
# 启动 vLLM 推理服务(以 Qwen3-4B-Instruct-2507 为例)
openclaw vllm launch --model Qwen3-4B-Instruct-2507 --port 8000
# 在另一个终端启动主服务(网关 + UI)
openclaw serve --host 0.0.0.0 --port 18780
首次启动会自动下载模型(约 2.8GB),请耐心等待。成功后你会看到:
– vLLM server ready at http://localhost:8000/v1
– Gateway listening on http://0.0.0.0:18780
解锁 Web 控制台(重要安全步骤)
OpenClaw 默认禁用远程 Web 访问,需要手动授权设备:
# 列出待批准设备
openclaw devices list
# 批准(替换实际 ID)
openclaw devices approve <device-id>
# 生成带 token 的安全链接
openclaw dashboard
按提示在浏览器打开链接并粘贴 token,即进入完整 Web 控制台。
关键配置:让 OpenClaw 调用 MoltBot 的能力
协同的核心在于让 OpenClaw 学会“工具调用”(Tool Calling)。我们通过编辑 ~/.openclaw/openclaw.json 来注册 MoltBot 的翻译、OCR、语音转写等能力。
注册核心翻译工具
在 openclaw.json 的 tools 和 tool_configs 字段添加以下内容:
{
"tools": [
{
"type": "function",
"function": {
"name": "moltbot_translate",
"description": "将文本翻译为目标语言,支持自动检测源语言",
"parameters": {
"type": "object",
"properties": {
"text": { "type": "string", "description": "待翻译文本" },
"target": { "type": "string", "description": "目标语言代码,如 en, ja, fr" }
},
"required": ["text", "target"]
}
}
},
{
"type": "function",
"function": {
"name": "moltbot_ocr",
"description": "对上传的图片进行文字识别",
"parameters": {
"type": "object",
"properties": {
"image_url": { "type": "string", "description": "图片本地路径或临时URL" }
},
"required": ["image_url"]
}
}
},
{
"type": "function",
"function": {
"name": "moltbot_speech_to_text",
"description": "将语音文件转写为文字",
"parameters": {
"type": "object",
"properties": {
"audio_url": { "type": "string", "description": "语音文件路径" }
},
"required": ["audio_url"]
}
}
}
],
"tool_configs": {
"moltbot_translate": {
"method": "POST",
"url": "http://host.docker.internal:8080/translate",
"headers": { "Content-Type": "application/json" },
"body": { "text": "{{text}}", "target": "{{target}}" },
"response_path": "translatedText"
},
"moltbot_ocr": {
"method": "POST",
"url": "http://host.docker.internal:8080/ocr",
"headers": { "Content-Type": "application/json" },
"body": { "image_url": "{{image_url}}" },
"response_path": "text"
},
"moltbot_speech_to_text": {
"method": "POST",
"url": "http://host.docker.internal:8080/speech-to-text",
"headers": { "Content-Type": "application/json" },
"body": { "audio_url": "{{audio_url}}" },
"response_path": "text"
}
}
}
关键说明:
– host.docker.internal 是 Docker 官方提供的特殊域名,让容器访问宿主机服务
– {{xxx}} 占位符会被 ClawdBot 自动替换
– 保存后执行 openclaw serve --reload 重启服务
验证工具调用
openclaw tools call moltbot_translate --text "今天天气真好" --target "en"
预期返回:The weather is really nice today.
在 Web 控制台 → Agents → 默认 Agent → Tools 页,也能看到三个工具已激活。
实战场景:一次配置,多场景全覆盖
配置完成后,所有高级功能无需额外代码即可实现。
场景1:会议录音自动生成中英双语纪要
用户指令:“把刚才的会议录音转成文字,并整理成中英双语纪要,标出行动项”
流程:
- OpenClaw 识别“会议录音” → 调用 moltbot_speech_to_text
- 得到中文文本 → 调用 moltbot_translate 翻译英文
- Qwen3 模型分析内容,提取行动项并双语对照输出
场景2:跨境电商商品图文优化
用户上传商品图片并指令:“翻译图片文字为中文,并按淘宝风格重写详情”
流程:
- 调用 moltbot_ocr 提取原文
- 调用 moltbot_translate 得到中文初稿
- OpenClaw 结合电商文案知识生成带 emoji、卖点突出的专业描述
场景3:技术文档术语统一
用户上传英文 SDK 文档:“请统一把 callback 翻译为‘回调’,并检查全文”
流程:
- 整体翻译为中文草稿
- OpenClaw 结合预设术语表(Workspace 中的 CSV)进行批量替换与修订说明生成
进阶技巧:让协同更稳定智能
1. 设置翻译 fallback 与超时重试
在 tool_configs 中增强 moltbot_translate:
"moltbot_translate": {
"method": "POST",
"url": "http://host.docker.internal:8080/translate",
"timeout": 8000,
"retry": 3,
"fallback_url": "http://host.docker.internal:8080/translate?engine=libre"
}
2. 建立多语言术语库
在 OpenClaw Web 控制台 → Workspace 新建 terms_zh-en.csv:
source,target,context
callback,回调,programming
latency,延迟,network
throughput,吞吐量,performance
在 Agent 系统提示词中加入:“所有翻译必须严格遵循 /workspace/terms_zh-en.csv 中的术语表。”
3. 日志监控
Web 控制台 → Logs → Tool Calls 可实时查看每次工具调用详情,便于调试与优化。
常见问题与解决方案
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| ClawdBot 无法调用 MoltBot 接口 | 网络不通(host.docker.internal 解析失败) | 确保两个容器在同一宿主机运行;或使用自定义 Docker network 并指定服务名 |
| 翻译超时或返回空 | Google fallback 被墙 | 添加代理环境变量或强制使用 libre 引擎 |
| Web 控制台打不开 | 设备未授权 | 执行 clawdbot devices approve |
| 树莓派启动 vLLM 失败 | 默认尝试 CUDA | 启动时加环境变量 VLLM_DEVICE=cpu 并加大 shm(–shm-size=2g) |
结语
通过以上步骤,你已经成功完成了 OpenClaw + MoltBot 双镜像的协同部署。这套方案的核心价值在于:用最少的配置,换来了最完整的本地多模态AI能力。所有数据留在你的设备上,所有能力可无限扩展。
你可以把它部署在出差笔记本上,随时将外文菜单照片变成地道中文推荐;也可以放在公司服务器,为团队提供专业的多语言文档处理服务;甚至装在树莓派上,做成家庭离线翻译盒子。
未来当 MoltBot 支持更多语言,或 OpenClaw 接入更大模型时,你只需更新对应镜像,能力自动升级。
真正的本地AI时代,已经到来。
延展阅读:
不投DOU+可以上抖音热门吗?抖音免费流量怎么获取?不投DOU+也能上热门的实战指南!