wav2vec2-large-xlsr-korean

Go to file

ModelHub XC 4f9314551e 初始化项目，由ModelHub XC社区提供模型

Model: kresnik/wav2vec2-large-xlsr-korean
Source: Original Platform

2026-05-22 02:24:16 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

model.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

optimizer.pt

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

preprocessor_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

pytorch_model.bin

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

rng_state.pth

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

scaler.pt

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

scheduler.pt

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

special_tokens_map.config

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

trainer_state.json

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

training_args.bin

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

vocab.json

初始化项目，由ModelHub XC社区提供模型

2026-05-22 02:24:16 +08:00

README.md

language, datasets, tags, license, model-index

language

datasets

Evaluation on Zeroth-Korean ASR corpus

Google colab notebook(Korean)

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
from datasets import load_dataset
import soundfile as sf
import torch
from jiwer import wer

processor = Wav2Vec2Processor.from_pretrained("kresnik/wav2vec2-large-xlsr-korean")

model = Wav2Vec2ForCTC.from_pretrained("kresnik/wav2vec2-large-xlsr-korean").to('cuda')

ds = load_dataset("kresnik/zeroth_korean", "clean")

test_ds = ds['test']

def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

test_ds = test_ds.map(map_to_array)

def map_to_pred(batch):
    inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding="longest")
    input_values = inputs.input_values.to("cuda")
    
    with torch.no_grad():
        logits = model(input_values).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = test_ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=["speech"])

print("WER:", wer(result["text"], result["transcription"]))

README.md

Evaluation on Zeroth-Korean ASR corpus

Expected WER: 4.74%

Expected CER: 1.78%