From b59fcb911613a68e27ab6ee717337d0af782d145 Mon Sep 17 00:00:00 2001 From: luopingyi Date: Wed, 10 Sep 2025 11:16:37 +0800 Subject: [PATCH] update README --- README.md | 125 +++++++++++++++++++++++++++++++++++++++++++++++++++++- 1 file changed, 123 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 5ce9cbe..9b396e6 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,124 @@ -# enginex-ascend-910-tts +# 昇腾-910系列 语音合成 -运行于【昇腾-910】系列算力卡的【语音合成】引擎,基于 transformer 和 diffusion 架构,支持 GPT-SoVITS、F5-TTS 等最新流行模型 +该模型测试框架在昇腾-910加速卡上,适配了 Kokoro, F5-TTS, GPT-SoVITS 等模型,将语音信号转换为文本。 + +GPT-SoVITS 模型是一个集成了语音转换和文本转语音功能的先进 AI 系统,基于 GPT 和 SoVITS 技术构建。 +Kokoro 是由 hexgrad 团队开发并开源的轻量级、高性能文本转语音(TTS)模型。 +F5-TTS 模型由上海交通大学团队发布,是基于扩散 Transformer 和 ConvNeXt V2 的文本转语音(TTS)模型。 + + + +## 如何使用语音合成模型测试框架 +代码实现了一个接收音频数据并返回识别文本的语音识别 HTTP 服务,将该 HTTP 服务重新打包成 docker 镜像,通过 k8s 集群sut容器去请求这个 HTTP 服务。 + +## 昇腾-910系列上语音合成模型运行测试结果 +在昇腾-910系列上对部分语音合成模型进行适配,测试方式为在 Nvidia A100 和 昇腾-910B4 加速卡上对同一段text进行语音合成任务,获取运行时间 + +| 模型名称 | 模型类型 | 适配状态 | 昇腾-910B4运行时间/s | Nvidia A100运行时间/s | +| ---------- | ---------------------- | -------- | ----------------- | --------------------- | +| kokoro | StyleTTS 2, ISTFTNet | 成功 | 2.3 | 5.4 | +| f5-TTS | DiT, ConvNeXt V2 | 成功 | 10.5 | 5.4 | +| gpt-sovits | VITS | 成功 | 108.3 | 20.5 | +| matcha | OT-CFM, Transformer | 成功 | 3.6 | 3.2 | +| piper | - | 成功 | 3.3 | 1.7 |