--- language: - zh license: apache-2.0 library_name: transformers tags: - minimind - qwen3 - chat - text-generation - ascend pipeline_tag: text-generation --- # MiniMind3-Ascend-Dense 这是一个基于 **MiniMind3-Ascend** 训练链路导出的 Dense 对话模型,默认兼容 Transformers 推理方式,适合作为轻量级中文对话模型使用。 ## 模型信息 - 模型名:`fzkun/minimind3-ascend-dense` - 架构:Dense - 导出兼容:`Qwen3ForCausalLM` - 参数规模:约 **64M** - 主要配置: - `hidden_size = 768` - `num_hidden_layers = 8` ## 文件说明 仓库中包含: - `config.json` - `generation_config.json` - `model.safetensors` - `tokenizer.json` - `tokenizer_config.json` - `special_tokens_map.json` - `chat_template.jinja` ## 使用方式 ### Transformers ```python from transformers import AutoTokenizer, AutoModelForCausalLM model_id = "fzkun/minimind3-ascend-dense" tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True) messages = [{"role": "user", "content": "你好"}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer(text, return_tensors="pt") out = model.generate(**inputs, max_new_tokens=256) print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)) ``` ## Benchmark 结果 评测环境: - Ascend 910B - 单卡 `npu:0` - `batch_size = 16` | ceval | cmmlu | arc | piqa | openbookqa | hellaswag | siqa | |---:|---:|---:|---:|---:|---:|---:| | 22.66 | 25.04 | 28.66 | 51.85 | 25.60 | 28.73 | 32.60 | 说明: - `ceval / cmmlu / arc / piqa / openbookqa / hellaswag` 使用 `acc_norm` - `social_iqa` 使用 `acc` ## 补充说明 - Dense 版本更轻量,适合资源受限场景 - 对应 SwanLab 实验记录: