GPT-SoVITS 模型是一个集成了语音转换和文本转语音功能的先进 AI 系统，基于 GPT 和 SoVITS 技术构建。 Kokoro 是由 hexgrad 团队开发并开源的轻量级、高性能文本转语音（TTS）模型。 F5-TTS 模型由上海交通大学团队发布，是基于扩散 Transformer 和 ConvNeXt V2 的文本转语音（TTS）模型。

如何使用语音合成模型测试框架

代码实现了一个接收音频数据并返回识别文本的语音识别 HTTP 服务，将该 HTTP 服务重新打包成 docker 镜像，通过 k8s 集群sut容器去请求这个 HTTP 服务。

寒武纪MLU370系列上语音合成模型运行测试结果

在寒武纪MLU370系列上对部分语音合成模型进行适配，测试方式为在 Nvidia A100 和寒武纪MLU370系列加速卡上对同一段text进行语音合成任务，获取运行时间

模型名称	模型类型	适配状态	寒武纪MLU370-X8运行时间/s	寒武纪MLU370-X4运行时间/s	Nvidia A100运行时间/s
kokoro	StyleTTS 2, ISTFTNet	成功	2.5	2.2	5.4
f5-TTS	DiT, ConvNeXt V2	成功	39.1	32.1	5.4
gpt-sovits	VITS	成功	28.8	27.2	20.5
matcha	OT-CFM, Transformer	成功	2.5	2.1	3.1
piper	-	成功	0.8	0.7	1.9

Languages

Python 67.1%

C++ 27.8%

Jupyter Notebook 3.4%

Shell 0.7%

Cuda 0.3%

Other 0.6%

README.md Unescape Escape

寒武纪MLU370系列 语音合成

如何使用语音合成模型测试框架

寒武纪MLU370系列上语音合成模型运行测试结果

README.md

寒武纪MLU370系列语音合成