ff78032400aebbac0480b6ce964cc9b0dbfdd702
寒武纪MLU370系列 语音合成
该模型测试框架在MLU370-x4, MLU370-x8加速卡上,适配了 Kokoro, F5-TTS, GPT-SoVITS 这3个模型,将语音信号转换为文本。
GPT-SoVITS 模型是一个集成了语音转换和文本转语音功能的先进 AI 系统,基于 GPT 和 SoVITS 技术构建。 Kokoro 是由 hexgrad 团队开发并开源的轻量级、高性能文本转语音(TTS)模型。 F5-TTS 模型由上海交通大学团队发布,是基于扩散 Transformer 和 ConvNeXt V2 的文本转语音(TTS)模型。
如何使用语音合成模型测试框架
代码实现了一个接收音频数据并返回识别文本的语音识别 HTTP 服务,将该 HTTP 服务重新打包成 docker 镜像,通过 k8s 集群sut容器去请求这个 HTTP 服务。
寒武纪MLU370系列上语音合成模型运行测试结果
在寒武纪MLU370系列上对部分语音合成模型进行适配,测试方式为在 Nvidia A100 和 寒武纪MLU370系列加速卡上对同一段text进行语音合成任务,获取运行时间
| 模型名称 | 模型类型 | 适配状态 | 寒武纪MLU370-X8运行时间/s | 寒武纪MLU370-X4运行时间/s | Nvidia A100运行时间/s |
|---|---|---|---|---|---|
| kokoro | StyleTTS 2, ISTFTNet | 成功 | 2.5 | 2.2 | 5.4 |
| f5-TTS | DiT, ConvNeXt V2 | 成功 | 39.1 | 32.1 | 5.4 |
| gpt-sovits | VITS | 成功 | 28.8 | 27.2 | 20.5 |
| matcha | OT-CFM, Transformer | 成功 | 2.5 | 2.1 | 3.1 |
| piper | - | 成功 | 0.8 | 0.7 | 1.9 |
Description
运行于【寒武纪 MLU370】系列算力卡的【语音合成】引擎,基于 transformer 和 diffusion 架构,支持 GPT-SoVITS、F5-TTS 等最新流行模型
Languages
Python
67.1%
C++
27.8%
Jupyter Notebook
3.4%
Shell
0.7%
Cuda
0.3%
Other
0.6%