Fish Speech

最先进的开源文本转语音（TTS）模型，支持真人级语音生成与情感控制。

AIToolsLibrary

Visit Website→

视频演示与介绍

通过以下官方演示视频，您可以快速了解 Fish Speech 的强大合成与克隆效果：

官方效果展示

官方展示：Fish Speech 高质量语音合成与声音克隆效果演示。

什么是 Fish Speech？

Fish Speech (由 Fish Audio 团队开发) 是一款最先进的开源文本转语音 (TTS) 模型。其核心宗旨是生成听起来自然、真实且情感丰富的语音，打破传统 TTS 系统的机械感和“播音腔”限制。

最新版本的 Fish Speech 专注于捕捉人类真实的说话方式，包括情感、语调变化、停顿和潜在的意图。其开源的 S1-mini 模型为您提供了触手可及的超逼真语音合成与零样本声音克隆体验（注：40 亿参数的 S1 旗舰版仅供在线体验，未开源权重）。

核心功能详解

1. 卓越的 TTS 质量与真人级发音

在 TTS-Arena2 排行榜表现优异，英文文本词错误率 (WER) 极低。
生成的语音具有极强的对话感，能精准复刻时间、重音和韵律的微小变化，使合成声音听起来就像真人说话。

2. 零样本 / 少样本声音克隆

仅需提供 10-30 秒的清晰参考音频，即可实现高质量的音色克隆，快速复刻任何人的声音。

3. 细粒度情感控制

业界首批支持通过显式情感和语调标记进行开放领域控制的 TTS 模型。
支持 20 多种基础情感、25 种复杂高级情感，可以轻松控制模型发出笑声、哭泣等多种特殊语气音效。

4. 强大的多语言支持

无需复杂的音素或特定语言预处理，原生支持高质量跨语种合成。
涵盖中文、英语、日语、德语、法语、韩语、俄语等十余种主要语言，并且语种支持还在持续扩容中。

优势与缺点

优势

核心模型开源免费：代码仓库完全开源，且提供了 S1-mini（5亿参数）等模型的开源权重，社区生态活跃，极客和开发者可以基于其进行免费使用和二次开发。
极强的情感表现力：比肩甚至超越许多商业闭源模型的高级情感表现力和几乎为零口音的多语言能力。
部署极为友好：使用 Torch Compile 加速，原生支持 Linux 和 Windows 环境，官方提供全功能且极易上手的 Gradio WebUI。
灵活的版本选择：开源的 S1-mini (5亿参数版) 专为快速推理与本地私有化部署优化；追求极致效果的用户亦可选择官方基于 40 亿参数旗舰版 (S1) 所提供的在线云端服务。

缺点

硬件门槛较高：本地流畅推理建议配备至少 12GB 显存的 GPU设备；若需微调至少需要 8GB 显存。普通轻薄本纯 CPU 跑起来会相对吃力。
合规与滥用风险：高质量且门槛极低的声音克隆技术容易被滥用，使用者需严格遵守相关开源协议以及当地法律法规，避免侵犯他人权益。

如何使用？

Fish Speech 提供了非常灵活的使用方式，满足从小白用户到极客开发者的不同需求：

在线体验 (免部署零门槛)

访问官方 Web 平台：fish.audio
注册登录后，即可在网页端输入文本合成语音。
您还可以直接上传 30 秒左右的干净口播音频来构建您的专属克隆声音模型。

本地部署 (极客首选)

克隆代码库：

git clone https://github.com/fishaudio/fish-speech.git

准备环境：建议使用 Conda 创建全新的 Python 虚拟环境，并安装 PyTorch 等所需依赖项。
下载模型权重：从 Hugging Face 下载所需版本的预训练模型，并放入工程对应目录 (例如 checkpoints/fish-speech-1.5)。
启动 WebUI：
```
python tools/run_webui.py
```
启动后即可在浏览器中通过图形化界面进行本地高配机器算力下的无限制生成与调参。
API集成与命令行：除了图形界面，工程内含直接可调用的命令行脚本与 HTTP API 接口，方便集成进你的个人工作流或企业应用中。

总结

Fish Speech 无疑是目前开源界表现最惊艳的 TTS 和声音克隆模型之一。如果你在寻找一个拥有极致情感表现力和逼真度的免费语音合成方案，无论是在线轻度体验还是本地重度部署，Fish Speech 绝对是不容错过的顶级工具。

推荐指数：⭐⭐⭐⭐⭐ (5/5) 获取地址：GitHub - fishaudio/fish-speech

← Back to Recommendations

Fish Speech

视频演示与介绍​

官方效果展示​

什么是 Fish Speech？​

核心功能详解​

1. 卓越的 TTS 质量与真人级发音​

2. 零样本 / 少样本声音克隆​

3. 细粒度情感控制​

4. 强大的多语言支持​

优势与缺点​

优势​

缺点​

如何使用？​

在线体验 (免部署零门槛)​

本地部署 (极客首选)​

总结​