EngineX-MetaX/enginex-c_series-tts

Go to file

zhousha f59a7c693b update Dockerfile

2025-09-18 21:56:25 +08:00

metaX-C500-f5-tts

update Dockerfile

2025-09-18 21:56:25 +08:00

metaX-C500-gpt-sovits

update Dockerfile

2025-09-18 21:56:25 +08:00

metaX-C500-kokoro

update Dockerfile

2025-09-18 21:56:25 +08:00

metaX-C500-matcha

update Dockerfile

2025-09-18 21:56:25 +08:00

metaX-C500-piper

update Dockerfile

2025-09-18 21:56:25 +08:00

.DS_Store

update Dockerfile

2025-09-18 21:56:25 +08:00

README.md

update kokoro fix

2025-09-12 15:42:17 +08:00

README.md

沐曦 MetaX C500 语音合成

该模型测试框架在沐曦 MetaX C500加速卡上，适配了 Kokoro, F5-TTS, GPT-SoVITS 等模型，将语音信号转换为文本。

GPT-SoVITS 模型是一个集成了语音转换和文本转语音功能的先进 AI 系统，基于 GPT 和 SoVITS 技术构建。 Kokoro 是由 hexgrad 团队开发并开源的轻量级、高性能文本转语音（TTS）模型。 F5-TTS 模型由上海交通大学团队发布，是基于扩散 Transformer 和 ConvNeXt V2 的文本转语音（TTS）模型。

如何使用语音合成模型测试框架

代码实现了一个接收音频数据并返回识别文本的语音识别 HTTP 服务，将该 HTTP 服务重新打包成 docker 镜像，通过 k8s 集群sut容器去请求这个 HTTP 服务。

沐曦 MetaX C500系列上语音合成模型运行测试结果

在沐曦 MetaX C500系列上对部分语音合成模型进行适配，测试方式为在 Nvidia A100 和沐曦 MetaX C500 加速卡上对同一段text进行语音合成任务，获取运行时间

模型名称	模型类型	适配状态	沐曦 MetaX C500运行时间/s	Nvidia A100运行时间/s
kokoro	StyleTTS 2, ISTFTNet	成功	4.3	5.4
f5-TTS	DiT, ConvNeXt V2	成功	7.1	5.4
gpt-sovits	VITS	成功	24.4	20.5
matcha	OT-CFM, Transformer	成功	2.9	3.2
piper	-	成功	2.0	1.7

Languages

Python 67.1%

C++ 27.8%

Jupyter Notebook 3.4%

Shell 0.7%

Cuda 0.3%

Other 0.6%