Go to file

ModelHub XC 1dd146187c 初始化项目，由ModelHub XC社区提供模型

Model: FaisaI/tadabur-Whisper-Small
Source: Original Platform

2026-05-08 16:19:43 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

added_tokens.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

generation_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

merges.txt

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

model.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

normalizer.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

optimizer.pt

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

preprocessor_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

rng_state.pth

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

scaler.pt

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

scheduler.pt

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

special_tokens_map.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

trainer_state.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

training_args.bin

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

vocab.json

初始化项目，由ModelHub XC社区提供模型

2026-05-08 16:19:43 +08:00

README.md

base_model, datasets, language, license, metrics, pipeline_tag, library_name, tags

base_model

datasets

language

license

metrics

pipeline_tag

library_name

Tadabur-Whisper-Small

A Whisper Small model fine-tuned on Tadabur for Qur'anic speech recognition.

Overview

Tadabur-Whisper-Small is a fine-tuned version of Whisper Small on the Tadabur dataset, as presented in the paper Tadabur: A Large-Scale Quran Audio Dataset.

GitHub Repository: fherran/tadabur
Project Page: fherran.github.io/tadabur

Training Iteration

Step	Epoch	WER ↓
2,500	0.15	13.78%
5,000	0.30	11.20%
7,500	0.44	11.15%
25,000	1.48	7.89% ⭐
32,500	1.93	14.75%

Usage

from transformers import pipeline

asr = pipeline(
    "automatic-speech-recognition",
    model="FaisaI/tadabur-whisper-small",
    generate_kwargs={"language": "arabic"}
)

result = asr("path/to/audiofile")
print(result["text"])

Or with the full Whisper API:

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import librosa

processor = WhisperProcessor.from_pretrained("FaisaI/tadabur-whisper-small")
model = WhisperForConditionalGeneration.from_pretrained("FaisaI/tadabur-whisper-small")



# Audio must be 16kHz mono
audio_array, sampling_rate = librosa.load("path/to/audiofile", sr=16000,mono=True)
inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt")

predicted_ids = model.generate(**inputs, language="arabic")
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])

Limitations

Not suitable for speaker identification or diarization.
May underperform on noisy or low-quality recordings.
Not fully generalized — transcription errors are expected.

Ethical Considerations

This model is trained exclusively on Qur'anic recitation data. Users must engage with outputs respectfully and must not use this model for mockery, distortion, or any disrespectful application involving Qur'anic content.

For research and educational use only.

Citation

@misc{alherran2026tadabur,
  author        = {Alherran, Faisal},
  title         = {Tadabur: A Large-Scale Quran Audio Dataset},
  year          = {2026},
  eprint        = {2604.18932},
  archivePrefix = {arXiv},
  primaryClass  = {cs.SD},
  doi           = {10.48550/arXiv.2604.18932},
  url           = {https://arxiv.org/abs/2604.18932}
}