HssaLLM-8B-Base/README.md

---
frameworks:
- Pytorch
license: Apache License 2.0
tags: []
tasks:
- text-generation

#model-type:
##如 gpt、phi、llama、chatglm、baichuan 等
#- gpt

#domain:
##如 nlp、cv、audio、multi-modal
#- nlp

#language:
##语言代码列表 https://help.aliyun.com/document_detail/215387.html?spm=a2c4g.11186623.0.0.9f8d7467kni6Aa
#- cn

#metrics:
##如 CIDEr、Blue、ROUGE 等
#- CIDEr

#tags:
##各种自定义，包括 pretrained、fine-tuned、instruction-tuned、RL-tuned 等训练方法和其他
#- pretrained

#tools:
##如 vllm、fastchat、llamacpp、AdaSeq 等
#- vllm
---
# 兰章大语言模型

<div align="center">
  <img src="./images/logo_new.png" alt="兰章大语言模型 Logo" width="450" />
</div>

# (Large Language Model for Humanities and Social Sciences Academia)

[ModelScope](https://www.modelscope.cn/models/njauzwh/HssaLLM-8B) | [License](https://www.google.com/search?q=https://github.com/Opencv/opencv/blob/master/LICENSE)

**兰章大语言模型** 是首个开源的人文社会科学学术大语言模型，也是基于目前规模最大、学科覆盖最完整和时间跨度最长的人文社会科学学术语料所训练的开源模型。针对通用大模型在人文社科垂直领域缺乏深度语义理解、理论支撑不足以及长文本逻辑推演能力受限等问题，团队以 **Qwen3** 系列（8B/32B）为基座，构建了包含 **116亿 token** 的高质量双语学术语料数据集。通过**继续预训练**与**多任务指令微调**，兰章大语言模型深度内化了人文社会科学的学科知识体系与学术表达范式，旨在赋能新文科的“数智化”发展，为跨学科研究提供智能化的方法论指引与数据支持。

## 模型下载

兰章系列模型已在 ModelScope 社区开源，包含基座模型（Base）和指令微调模型（Instruct）。

| 模型名称 | 参数量 | 模型类型 | 下载地址 |
| --- | --- | --- | --- |
| **HssaLLM-8B-Base** | 8B | 基座模型 | [ModelScope Link](https://www.modelscope.cn/models/njauzwh/HssaLLM-8B-Base) |
| **HssaLLM-8B** | 8B | 指令模型 | [ModelScope Link](https://www.modelscope.cn/models/njauzwh/HssaLLM-8B) |
| **HssaLLM-32B-Base** | 32B | 基座模型 | [ModelScope Link](https://www.modelscope.cn/models/njauzwh/HssaLLM-32B-Base) |
| **HssaLLM-32B** | 32B | 指令模型 | [ModelScope Link](https://www.modelscope.cn/models/njauzwh/HssaLLM-32B) |

## 评价基准

为选取性能优越的基线模型并验证兰章大语言模型的有效性，本研究制定了面向人文社会科学学术领域的专用评价体系。针对学术研究场景，构建了如下评测任务：

| 任务 | 说明 | 测试数据量 |
| --- | --- | --- |
| 学术论文章节标题生成 | 基于学术全文本内容，生成论文章节标题 | 1000（中）+1000（英） |
| 学术论文结语生成 | 基于学术全文本内容，生成论文结论 | 1000（中）+1000（英） |
| 学术论文文献综述生成 | 基于学术全文本内容，生成论文文献综述 | 1000（中）+1000（英） |
| 学术文献实体识别 | 根据学术全文本内容进行实体标注 | 1000（中）+1000（英） |
| 图书自动分类 | 基于图书全文本数据判定学科类别 | 1000 |


## 数据收集与模型训练

### 数据来源与规模

本研究构建了人文社会科学学术数据集，总规模约 **116亿 token**，时间跨度覆盖 **1992-2025年**。

* **中文学术数据**：来源于中文社会科学引文索引（CSSCI）、CNKI人文社科期刊、人大复印报刊资料等，包含题录及学术全文本。
* **英文学术数据**：来源于 Web of Science (SSCI, A&HCI)、Project MUSE 和 Project Gutenberg，涵盖期刊摘要、论文全文本及经典学术专著。

### 训练策略

为解决通用模型在特定领域的“灾难性遗忘”并提升指令跟随能力，研究采用了两阶段训练策略：

1. **继续预训练 (Continued Pre-training)**：利用构建的 116B token 领域语料，对 **Qwen3-8B** 和 **Qwen3-32B** 进行全参数训练，注入人文社科特有的理论体系、专业术语及长文本逻辑结构。
2. **指令微调 (Instruction Tuning)**：构建高质量的多任务指令微调数据集（[hss_sft.json](https://www.modelscope.cn/datasets/njauzwh/HssaLLM-SFT-data)），涵盖学术论文章节标题生成、学术论文结语生成、学术论文文献综述生成、学术文献实体识别、图书自动分类、学科分类、语步识别、术语抽取与分类、中英文献互译等任务。

## 快速使用

```python
from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "njauzwh/HssaLLM-8B"

# 加载模型与分词器
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", trust_remote_code=True)

# 构造提示词
prompt = "简述大语言模型在数字人文中的应用前景。"
messages = [{"role": "user", "content": prompt}]

# 推理生成
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
```
## 研究团队
兰章大语言模型由南京理工大学沈思教授团队研发，如果大家有什么问题请通过如下的邮箱进行交流： jisuanyuyan@163.com，谢谢大家。

## 声明

1. **数据合规性**：从纯粹学术研究的目的，兰章大语言模型基于大规模人文社会科学学术数据训练，我们已采取技术手段对数据进行清洗与脱敏。
2. **幻觉问题**：受大语言模型架构限制，模型生成的学术内容（如引文、数据等）可能存在“幻觉”现象。在用于严谨学术研究时，**务必对生成内容进行人工核实**。
3. **免责条款**：本模型仅供学术研究与交流使用。任何机构或个人因使用本模型及其衍生内容而引发的直接或间接损失，研发团队不承担法律责任。使用本模型需严格遵守《生成式人工智能服务管理暂行办法》及相关法律法规。