enginex-c_series-asr/README.md

# 沐曦 MetaX C500 FunASR

## 镜像构造
```bash
docker build -t <built_img> .
```
其中，基础镜像 maca-c500-pytorch:2.33.0.6-torch2.6-py310-ubuntu24.04-amd64 通过联系沐曦厂商技术支持可获取

## 使用说明
### 快速镜像测试
对funasr的测试需要在以上构造好的镜像容器内测试，测试步骤
1. 本项目中附带上了示例测试数据，音频文件为`lei-jun-test.wav`，音频的识别准确内容文件为`lei-jun.txt`，用户需要准备好相应的ASR模型路径，本例中假设我们已经下载好了SenseVoiceSmall模型存放于/model/SenseVoiceSmall
2. 在本项目路径下执行以下快速测试命令, 如果安装了 [metax-docker](https://developer.metax-tech.com/softnova/category?package_kind=Cloud&dimension=metax&chip_name=%E6%9B%A6%E4%BA%91C500%E7%B3%BB%E5%88%97&deliver_type=%E5%88%86%E5%B1%82%E5%8C%85&series_name=metax-docker):
    ```bash
    metax-docker run -it \ 
        --gpus=[0] \
        -v $PWD:/tmp/workspace \
        -v /model:/model \
        -e MODEL_DIR=/model/SenseVoiceSmall \
        -e TEST_FILE=lei-jun-test.wav \
        -e ANSWER_FILE=lei-jun.txt \
        -e RESULT_FILE=result.json \
        --cpus=4 --memory=16g \
        <built_img>
    ```
上述测试指令成功运行将会在terminal中看到对测试音频的识别结果，运行时间以及1-cer效果指标，并且当前文件下会生成一个`result.json`文件记录刚才的测试结果

### 定制化手动运行

用户可使用类似上述的docker run指令以交互形式进入镜像中，主要的测试代码为`test_funasr.py`,用户可自行修改代码中需要测试的模型路径、测试文件路径以及调用funASR逻辑

## MetaX C500 模型适配情况
我们在 MetaX C500 上针对funASR部分进行了所有大类的适配，测试方式为在Nvidia A100环境下和智铠100加速卡上对同一段长音频进行语音识别任务，获取运行时间，1-cer指标。运行时都只使用一张显卡

| 模型大类 | 模型地址 |A100运行时间(秒)|MetaX C500 运行时间(秒)|A100 1-cer| MetaX C500 1-cer| 备注                           |
|------|---------------|-----|----|-------|-------|---------------------|
| sense_voice | https://www.modelscope.cn/models/iic/SenseVoiceSmall | 1.4411 | 1.3589 | 0.980033 | 0.980033 |  |
| whisper | https://www.modelscope.cn/models/iic/Whisper-large-v3 | 21.5582 | 26.7610 | 0.910150 | 0.910150 |
| paraformer | https://modelscope.cn/models/iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch | 3.9888 | 4.8517 | 0.955075 | 0.955075 |  |
| conformer | https://www.modelscope.cn/models/iic/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch | 80.4228 | 78.2914 | 0.349418 | 0.346090 |  |
| uni_asr | https://www.modelscope.cn/models/iic/speech_UniASR-large_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline | 90.8399 | 68.6999 | 0.717138 | 0.717138 | |
-												first revise

											
										
										
											2025-08-28 19:00:03 +08:00
+								# 沐曦 MetaX C500 FunASR
-												init

											
										
										
											2025-08-28 18:46:56 +08:00
 								## 镜像构造
-												docs: update readme

											
										
										
											2025-08-29 10:48:15 +08:00
+								```bash
-												first revise

											
										
										
											2025-08-28 19:00:03 +08:00
+								docker build -t <built_img> .
-												init

											
										
										
											2025-08-28 18:46:56 +08:00
+								```
-												update Readme

											
										
										
											2025-09-18 22:22:56 +08:00
+								其中，基础镜像 maca-c500-pytorch:2.33.0.6-torch2.6-py310-ubuntu24.04-amd64 通过联系沐曦厂商技术支持可获取
-												init

											
										
										
											2025-08-28 18:46:56 +08:00
 								## 使用说明
 								### 快速镜像测试
 								对funasr的测试需要在以上构造好的镜像容器内测试，测试步骤
 . 本项目中附带上了示例测试数据，音频文件为`lei-jun-test.wav`，音频的识别准确内容文件为`lei-jun.txt`，用户需要准备好相应的ASR模型路径，本例中假设我们已经下载好了SenseVoiceSmall模型存放于/model/SenseVoiceSmall
-												docs: update readme

											
										
										
											2025-08-29 10:48:15 +08:00
+. 在本项目路径下执行以下快速测试命令, 如果安装了 [metax-docker](https://developer.metax-tech.com/softnova/category?package_kind=Cloud&dimension=metax&chip_name=%E6%9B%A6%E4%BA%91C500%E7%B3%BB%E5%88%97&deliver_type=%E5%88%86%E5%B1%82%E5%8C%85&series_name=metax-docker):
 								    ```bash
 								    metax-docker run -it \
 								        --gpus=[0] \
 								        -v $PWD:/tmp/workspace \
 								        -v /model:/model \
 								        -e MODEL_DIR=/model/SenseVoiceSmall \
 								        -e TEST_FILE=lei-jun-test.wav \
 								        -e ANSWER_FILE=lei-jun.txt \
 								        -e RESULT_FILE=result.json \
 								        --cpus=4 --memory=16g \
 								        <built_img>
 								    ```
-												init

											
										
										
											2025-08-28 18:46:56 +08:00
+								上述测试指令成功运行将会在terminal中看到对测试音频的识别结果，运行时间以及1-cer效果指标，并且当前文件下会生成一个`result.json`文件记录刚才的测试结果
 								### 定制化手动运行
 								用户可使用类似上述的docker run指令以交互形式进入镜像中，主要的测试代码为`test_funasr.py`,用户可自行修改代码中需要测试的模型路径、测试文件路径以及调用funASR逻辑
-												first revise

											
										
										
											2025-08-28 19:00:03 +08:00
+								## MetaX C500 模型适配情况
 								我们在 MetaX C500 上针对funASR部分进行了所有大类的适配，测试方式为在Nvidia A100环境下和智铠100加速卡上对同一段长音频进行语音识别任务，获取运行时间，1-cer指标。运行时都只使用一张显卡
-												init

											
										
										
											2025-08-28 18:46:56 +08:00
-												update model tests

											
										
										
											2025-08-28 19:05:18 +08:00
+								| 模型大类 | 模型地址 |A100运行时间(秒)|MetaX C500 运行时间(秒)|A100 1-cer| MetaX C500 1-cer| 备注                           |
-												init

											
										
										
											2025-08-28 18:46:56 +08:00
+								|------|---------------|-----|----|-------|-------|---------------------|
-												update model tests

											
										
										
											2025-08-28 19:05:18 +08:00
+								| sense_voice | https://www.modelscope.cn/models/iic/SenseVoiceSmall | 1.4411 | 1.3589 | 0.980033 | 0.980033 |  |
-												docs: whisper large v3

											
										
										
											2025-09-02 13:18:01 +08:00
+								| whisper | https://www.modelscope.cn/models/iic/Whisper-large-v3 | 21.5582 | 26.7610 | 0.910150 | 0.910150 |
-												update model tests

											
										
										
											2025-08-28 19:05:18 +08:00
+								| paraformer | https://modelscope.cn/models/iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch | 3.9888 | 4.8517 | 0.955075 | 0.955075 |  |
 								| conformer | https://www.modelscope.cn/models/iic/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch | 80.4228 | 78.2914 | 0.349418 | 0.346090 |  |
-												docs: update readme

											
										
										
											2025-08-29 10:48:15 +08:00
+								| uni_asr | https://www.modelscope.cn/models/iic/speech_UniASR-large_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline | 90.8399 | 68.6999 | 0.717138 | 0.717138 | |