刷到一个挺有意思的话题,结合自己之前的经验,整理了一下核心要点。
前言
如果放在两三年前,声音克隆还是不少人眼中的“黑科技”。想要让 AI 学会一个人的声音,往往需要准备大量训练数据、配置繁琐环境,甚至还需要一定的机器学基础。对于普通用户来说,即便看到了演示效果,也很难真正上手。
但最近一年情况发生了明显变化。随着语音合成模型的发展,声音克隆的门槛正在快速降低。现在不少模型只需要几十秒参考音频,就能生成相似度相当高的语音东西。对于视频创作者、有声书制作者、自媒体从业者,甚至普通爱好者来说,这意味着过去需要专业团队才能完成的事情,如今在一台个人电脑上就有机会实现。
我第一次接触 Index-TTS 时,最感兴趣的并不是它的部署方式,而是它的零样本语音克隆能力。简单来说,只要提供一段参考音频,系统就能学其中的音色特征,然后根据输入的文本生成对应风格的语音东西。整个过程不需要漫长的训练,也不需要提前构建专属语音模型,对于想体验 AI 配音的人来说十分友好。
不过实际使用过程中,很快又会遇到另一个麻烦。不少高性能 AI 工具都部署在本地电脑或者家里的 GPU 设备上,生成效果不错,但访问范围被限制在局域网内。人在公司时访问不了家里的服务,出差时调用不了本地算力,想给朋友演示还得远程控制电脑,使用体验并不理想。
这也是很多本地 AI 项目都会面临的共同麻烦:软件已经搭好了,但服务仍然被困在局域网里。
这篇文章要介绍的方案,就是利用 Index-TTS 搭建本地声音克隆服务,再结合 cpolar 将服务安全映射到公网。这样无论是在办公室、咖啡馆还是出差途中,只要打开浏览器,就能直接访问自己的 AI 配音平台。对于经常需要生成配音东西、测试语音模型或者远程协作的用户来说,这种方式会比单纯的本地部署更加灵活。
1 什么是Index-TTS
Index-TTS(Index Text-to-Speech)是一个工业级的、可控且高效的零样这篇文章本转语音(TTS)系统。它主要基于 XTTS 和 Tortoise 等先进的语音合成技术,旨在提供高质量、高效率的语音克隆和文本转语音服务。Index-TTS 的核心优势在于其“零样本”能力,这意味着它只需要极少量的参考音频(甚至无需预先训练),就能学并模仿特定音色的语音风格,从而生成自然、富有表现力的语音。
Index-TTS 的主要特点包括:
- 工业级品质: 具备在实际应用中稳定运行和提供高质量语音输出的能力。
- 可控性: 允许用户对语音的语速、音调、情感等多个维度进行精细化控制,以满足不同场景的需求。
- 高效性: 优化了语音合成的效率,能够在较短时间内完成文本到语音的转换。
- 零样本学习: 仅需少量参考音频即可实现声音克隆,极大地降低了使用门槛。
- 多语言支持: 能够支持中文和英文等多种语言的语音合成。
2 Index-TTS下载及启动
由于官方的开源代码方式部署环境较为繁琐不适宜新手小白入门上手,所以本教程演示的将使用@宇宙重女库瓦特罗,@心空 12138 制作的整合包,让新手小白入门上手变得更加简单!
2.1 硬件与系统要求
NVIDIA 50 系显卡/ AMD 显卡 / MAC 用户:请下载对应的专用整合包。
⚠️MAC 专用包仅限 M 芯片可使用
在开始使用 Index-TTS 整合包之前,请确保您的计算机满足以下基本要求:
硬件/软件类别最低要求建议用配置说明操作系统Windows 10Windows 11确保系统已安装最新的系统更新和驱动程序显卡类型NVIDIA 显卡NVIDIA 显卡务必支持CUDA显存容量6GB8GB 或更高显存越大,处理速度越快显卡型号GTX 1060 6GBRTX 3060 及以上建议用RTX系列以获得更好性能处理器Intel i5 / AMD Ryzen 5Intel i7 / AMD Ryzen 7多核心处理器有助于提升性能内存(RAM)8GB16GB 或更高内存不足可能导致程序崩溃存储空间10GB 可用空间20GB 可用空间用于安装和运行,模型文件较大网络速度2MB/s5MB/s 或更高首次运行需要下载模型文件
⚠️ 尤其提醒:
情况说明建议无独立显卡也能使用CPU进行推理处理速度会十分慢,请做好心理准备首次启动系统会自动下载模型文件这可能需要较长时间,请耐心等待运行环境建议关闭其他占用显存的应用程序以确保最佳性能
满足以上要求的计算机也能流畅运行 Index-TTS 整合包,为您提供高质量的声音克隆服务。
2.2 整合包下载
整合包获取:
这边将以windows操作系统进行操作演示,所以这里下载windows的整合包。
2.3 启动整合包
将解压工具7-Zip下载下来后安装,使用7-Zip工具进行解压整合包:
- Win11 用户可能需要先点击“显示更多选项”才能看到 7-Zip 菜单。
⚠️请务必使用 7-Zip 进行解压!Windows 自带解压,WPS 解压,360 压缩等工具可能会导致文件缺失或损坏,引发后续各种奇怪的错误。
接着进入到解压后的目录,找到脚本run.ps1,右键点击使用PowerShell运行:
🚫 路径禁忌:
解压后的文件夹路径,绝对不能包含中文、空格或特殊字符!
错误示范:D:\AI工具\IndexTTS\index-tts-test
正确示范:D:\AI\IndexTTS\index-tts-test
运行后,会弹出PowerShell窗口:
可能会弹出是否允许Python通过防火墙,点击允许即可
⚠️控制台如果显示乱码,不影响正常使用,也能参考如下图
等待一会儿,浏览器会自动打开网页:
http://localhost:9874
可以看到,Index-TTS正常启动啦!
3 Index-TTS声音克隆使用
首先,在网页上点击1-TTS推理,然后点击打开TTS推理WebUI按钮,如下图:
接着,将准备好的音频素材放入工作目录WORKSPACE中:
D:\AI\IndexTTS\index-tts-test\WORKSPACE\source\灵笼-白月魁
这里将音频素材放在工作目录的source目录下:
接着,回到页面,依次如下图操作:
点击刷新文本后,滚动到下方,上传原素材参考音频,然后点击生成音频按钮:
生成完成后,可以点击播放按钮进行播放,也可以将其下载,下来:
也可以在工作目录中找到克隆生成的音频文件:
让咱们试听一下原素材的音频和克隆后的音频对比:
原素材(灵笼-白月魁 [分离人声-43s]):
您的浏览器不支持 audio 标签。
克隆后的音频文件:
好啦,是不是尤其的像?到这儿,Index-TTS克隆声音的教程就结束啦!
4 使用cpolar将Index-TTS穿透至公网
4.1为什么要穿透Index-TTS?
很多时候咱们在本地电脑或服务器上部署了 Index-TTS,但又希望能在外面随时访问,比如和同事协作、给客户演示,或者让别人直接调用生成语音。麻烦是本地服务默认只能在局域网里用,外网是访问不到的。通过 cpolar 咱们可以把本地的 Index-TTS 安全地映射到公网,拿到一个随时可用的公网地址,这样无论身处何地,都能方便地远程使用和共享,再也不用折腾繁琐的网络配置或购买固定公网 IP。
4.2 什么是cpolar?
- cpolar 是一款内网穿透工具,可以将各位在局域网内运行的服务(如本地 Web 服务器、SSH、远程桌面等)通过一条安全加密的中间隧道映射至公网,让外部设备无需配置路由器即可访问。
- 广泛支持 Windows、macOS、Linux、树莓派、群晖 NAS 等平台,并提供一键安装脚本方便部署。
4.3 下载cpolar
打开cpolar官网的下载页面:点击立即下载 64-bit按钮,下载cpoalr的安装包:
下来下来是一个压缩包,解压后执行目录种的应用程序,一路默认安装即可,安装完成后,打开cmd窗口输入如下命令确认安装:
cpolar version
出现如上版本即代表安装成功!
4.4注册及登录cpolar web ui管理界面
4.4.1 注册cpolar
访问cpolar官网,点击免费注册按钮,进行账号注册
注册页面:
4.4.2 访问web ui管理界面
注册完成后,在浏览器中输入如下地址访问 web ui管理界面:
http://127.0.0.1:9200
输入刚才注册好的cpolar账号登录即可进入后台页面:
4.5 穿透Index-TTS的WebUI界面
前面可以看到,TTS推理WebUI的界面,端口显示为:9872
所以我们需要将该端口进行穿透以支持咱们公网访问!
4.5.1 随机域名方式(免费方案)
随机域名方式适合预算有限的用户。使用此方式时,系统会每隔 24 小时左右 自动更换一次域名地址。对于长期访问的不太友好,但是该方案是免费的,如果您有一定的预算,可以查看大纲4.2 的固定域名方式,且访问更稳定。
点击左侧菜单栏的隧道管理,展开进入隧道列表页面,页面下默认会有 2 个隧道:
- ssh隧道,指向22端口,tcp协议
- website隧道,指向8080端口,http协议(http协议默认会生成2个公网地址,一个是http,另一个https,免去配置ssl证书的繁琐步骤)
点击website隧道的编辑按钮,填写如下信息:
- 注意:每个用户创建的隧道显示的公网地址都不一样!
状态菜单,接着点击在线隧道列表菜单按钮,可以看到有2个website的隧道,一个为http协议,另一个为https协议:
接下来在浏览器中访问website隧道生成的公网地址(http和https皆可)
这里以https为例:
可以看到成功访问啦!
4.5.2 固定域名方式(升级任意套餐皆可)
进入官网的预留页面:https://dashboard.cpolar.com/reserved
列表中显示了一条已保留的二级子域名记录:
- 地区:显示为
China Top。 - 二级域名:显示为
indextts。
注:二级域名是唯一的,每个账号都不相同,请以自己设置的二级域名保留的为主
进入侧边菜单栏的隧道管理下的隧道列表,可以看到名为index-tts的隧道
点击编辑按钮进入编辑页面,修改域名类型为二级子域名,然后填写前面配置好的子域名,点击更新按钮:
来到状态菜单下的在线隧道列表可以看到隧道名称为index-tts的公网地址已经变更为二级子域名+固定域名主体及后缀的形式了:
这里以https协议做访问测试:
访问成功!
接下来进行测试,这里使用原来的音频素材,文案换一个如下:
cpolar 是一款内网穿透工具,可以将你在局域网内运行的服务(如本地 Web 服务器、SSH、远程桌面等)通过一条安全加密的中间隧道映射至公网,让外部设备无需配置路由器即可访问。
操作步骤参考图如下:
可以看到,成功生成且下载下来了克隆的音频文件,让我们听一下输出的效果:
这样一来,即使 Index-TTS 服务部署在家中或本地服务器,使用 cpolar 将其映射到公网后,人在外地也可以像访问普通网站一样通过浏览器直接使用家中的语音服务。无论是远程协作、给客户演示,还是随时生成语音内容,都无需担心网络配置复杂或公网 IP 问题,让使用更加灵活便捷。
5 给Index-TTS服务添加授权验证
由于Index-TTS服务的WebUI界面无需登录即可进行访问,为了保护个人的隐私即安全,cpolar的隧道服务支持给网站添加授权验证功能,防止您部署在家中的Index-TTS服务被滥用。
首先,打开隧道列表,点击编辑index-tts的隧道:
然后,点击高级按钮,展开,按照如下图进行配置:
点击更新按钮后,访问穿透的地址,可以注意到需要授权验证:
https://indextts.cpolar.top
输入用户名admin和密码123456进行登录:
可以注意到,成功登录进来啦!这样,一个可以随时访问且带有安全性的Index-TTS网页端就弄好啦!
总结
从实际体验来看,Index-TTS 最大的价值并不只是声音克隆本身,而是把原本复杂的语音合成能力降低到了普通用户也能尝试的门槛。通过整合包方式部署后,即使没有深厚的 AI 技术背景,也能够快速完成语音生成和音色复刻。
而 cpolar 解决的则是另外一个长期存在的问题:本地服务如何被远程访问。将两者结合后,本地部署的 AI 语音平台不再局限于一台电脑或一个局域网,而是能够在不同地点、不同设备之间灵活调用。无论是个人创作、远程协作还是项目演示,都能获得更大的使用空间。
如果各位正准备体验 AI 配音、数字人语音或者个性化语音生成,那么 Index-TTS 加上公网访问能力,确实是一个值得尝试的组合方案。
暂时整理到这里。以上都是个人理解,可能有疏漏,欢迎指正。
评论 (0)
暂无评论