2025-09-18 21:56:25 +08:00
2025-09-18 21:56:25 +08:00
2025-09-18 21:56:25 +08:00
2025-09-18 21:56:25 +08:00
2025-09-18 21:56:25 +08:00
2025-09-18 21:56:25 +08:00
2025-09-18 21:56:25 +08:00
2025-09-12 15:42:17 +08:00

沐曦 MetaX C500 语音合成

该模型测试框架在沐曦 MetaX C500加速卡上适配了 Kokoro, F5-TTS, GPT-SoVITS 等模型,将语音信号转换为文本。

GPT-SoVITS 模型是一个集成了语音转换和文本转语音功能的先进 AI 系统,基于 GPT 和 SoVITS 技术构建。 Kokoro 是由 hexgrad 团队开发并开源的轻量级、高性能文本转语音TTS模型。 F5-TTS 模型由上海交通大学团队发布,是基于扩散 Transformer 和 ConvNeXt V2 的文本转语音TTS模型。

如何使用语音合成模型测试框架

代码实现了一个接收音频数据并返回识别文本的语音识别 HTTP 服务,将该 HTTP 服务重新打包成 docker 镜像,通过 k8s 集群sut容器去请求这个 HTTP 服务。

沐曦 MetaX C500系列上语音合成模型运行测试结果

在沐曦 MetaX C500系列上对部分语音合成模型进行适配测试方式为在 Nvidia A100 和 沐曦 MetaX C500 加速卡上对同一段text进行语音合成任务获取运行时间

模型名称 模型类型 适配状态 沐曦 MetaX C500运行时间/s Nvidia A100运行时间/s
kokoro StyleTTS 2, ISTFTNet 成功 4.3 5.4
f5-TTS DiT, ConvNeXt V2 成功 7.1 5.4
gpt-sovits VITS 成功 24.4 20.5
matcha OT-CFM, Transformer 成功 2.9 3.2
piper - 成功 2.0 1.7
Description
运行于沐曦曦云C系列算力卡的【语音合成】引擎,基于 transformer 和 diffusion 架构,支持 GPT-SoVITS、F5-TTS 等最新流行模型
Readme 97 MiB
Languages
Python 67.1%
C++ 27.8%
Jupyter Notebook 3.4%
Shell 0.7%
Cuda 0.3%
Other 0.6%