196 lines
7.4 KiB
Markdown
196 lines
7.4 KiB
Markdown
---
|
||
frameworks:
|
||
- Pytorch
|
||
license: "MIT License"
|
||
tasks:
|
||
- text-generation
|
||
tags:
|
||
- 污水处理
|
||
- 环境
|
||
---
|
||
## 1. 简介
|
||
|
||
FST-ET1(Future Sewage Treatment-Engineer and Teacher 1)是专为污水处理行业打造的小型推理模型,可胜任教师 / 工程师级别的专业问答,面向学生、一线运维人员、科研与行政岗位、法务、培训等多种角色。
|
||
|
||
**开源版本**:为了支持研究社区,我们已经开源了 **FST-ET1-1.5B**、**FST-ET1-7B**、**FST-ET1-14B** 三个密集小参数模型。
|
||
|
||
**特色与定位**:我们尝试并提出了使用专业领域内数据定制化训练小参数模型的路径,形成参数规模小、专业度高、颗粒度高、成本低、可在消费级计算机本地部署、保障数据安全的模型。模型训练可牺牲部分非专业领域内的泛化性能来提升本领域专业性能,打造一个“生活小白,行业专家” 的小模型。
|
||
|
||
**国产全链路**:本模型的训练框架采用国产 [ms-swift](https://github.com/Spectrelight/ms-swift),算力设施使用国产 ppu,保证了模型训练的可控性并且显著降低了训练成本。1.5B 模型进行 3 亿 token 级别训练的算力成本约为 1500 元(单次训练成本,实际训练中常需多次调整训练),7B 模型约 3300 元,14B 模型约 6400 元。
|
||
|
||
### 模型规格速览
|
||
|
||
| 模型 | 格式 | 适用场景 | 最低显存需求 |
|
||
|------|------|----------|--------------|
|
||
| FST-ET1-1.5B | BF16 | 行业基础 / 简单问题 | 4 GB |
|
||
| FST-ET1-7B | BF16 | 科研、运维、行政等专业问题 | 16 GB |
|
||
| FST-ET1-14B | BF16 | 逻辑较复杂、专业要求较高的问题 | 32 GB |
|
||
|
||
## 2. 模型概述
|
||
|
||
### 2.1 训练数据包含的 17 类污水处理领域知识
|
||
|
||
1. 基础知识与技术
|
||
2. 科研与技术创新
|
||
3. 运营管理与实践
|
||
4. 商业与市场分析
|
||
5. 政策与法规体系
|
||
6. 可持续发展与循环经济
|
||
7. 国际经验与区域差异
|
||
8. 跨领域协同与系统集成
|
||
9. 职业发展与教育体系
|
||
10. 未来挑战与战略机遇
|
||
11. 环境监测与影响评估
|
||
12. 公共卫生与疾病防控
|
||
13. 数据安全与数字化治理
|
||
14. 公众参与社会治理
|
||
15. 伦理与法律争议
|
||
16. 分散式与农村污水处理
|
||
17. 气候变化适应与韧性建设
|
||
|
||
### 2.2 数据来源
|
||
|
||
- [DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek) 蒸馏后人工审核语料
|
||
- 污水处理行业日常运维记录
|
||
- 专家及从业人员经验总结
|
||
|
||
共形成 **9 万条 ≈ 3 亿 token**。
|
||
|
||
## 3. 本地部署指南
|
||
|
||
**我们提供了 FP16、INT8、INT4、q8_0、q4_K_M 等不同版本的量化模型**,试验性运行 / 训练推荐使用 BF16 版本,本地部署运行推荐使用 FP16 / INT8 / q8_0 版本。
|
||
|
||
### 3.1 GPU / NPU 依赖
|
||
|
||
- **NVIDIA**:驱动 + CUDA Toolkit
|
||
- **Apple Silicon (M1-M4)**:Metal Performance Shaders (MPS)
|
||
- **华为 Ascend**:NPU 驱动与计算库
|
||
|
||
### 3.2 快速启动示例
|
||
|
||
**(1) [GGUF](https://github.com/ggerganov/llama.cpp/tree/master/gguf) 格式推荐使用 [Ollama](https://github.com/ollama/ollama) 或 [Llama.cpp](https://github.com/ggerganov/llama.cpp) 进行本地部署推理与加速。**
|
||
GGUF 格式模型均配有 **Modelfile**(内含模型创建参数与对话设置等)。请将该文件与模型权重置于同一文件夹,`ollama` 会使用该文件完成模型导入与参数配置。
|
||
|
||
```bash
|
||
# Ollama
|
||
ollama create <model-name> -f /path/to/Modelfile
|
||
ollama run <model-name>
|
||
|
||
# Llama.cpp
|
||
./main -m /path/to/model.gguf --interactive
|
||
```
|
||
|
||
**(2) Safetensors (FP16 / BF16) 可使用 [Hugging Face Transformers](https://huggingface.co/docs/transformers/index) 或 [vLLM](https://github.com/vllm-project/vllm) 快速启动。**
|
||
|
||
```python
|
||
from transformers import AutoModelForCausalLM
|
||
|
||
model = AutoModelForCausalLM.from_pretrained(
|
||
"模型路径",
|
||
torch_dtype="torch.float16",
|
||
device_map="auto"
|
||
)
|
||
```
|
||
|
||
```bash
|
||
python -m vllm.entrypoints.api_server --model 模型路径 --dtype half
|
||
```
|
||
|
||
**(3) Safetensors (GPTQ) 可使用 [AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) 或 [ExLlamaV2](https://github.com/turboderp/exllamav2) 快速启动。**
|
||
|
||
```python
|
||
from auto_gptq import AutoGPTQForCausalLM
|
||
|
||
model = AutoGPTQForCausalLM.from_quantized("模型路径", device="cuda:0")
|
||
```
|
||
|
||
```python
|
||
from exllama import ExLlama, ExLlamaCache, ExLlamaConfig
|
||
|
||
config = ExLlamaConfig("模型路径/config.json")
|
||
model = ExLlama(config)
|
||
```
|
||
|
||
### 3.3 集成工具推荐
|
||
|
||
- [Ollama](https://github.com/ollama/ollama)
|
||
**Ollama快速启动:**
|
||
```bash
|
||
ollama create <model-name> -f "Modelfile文件路径/Modelfile"
|
||
ollama run <model-name>
|
||
```
|
||
|
||
- [ms-swift](https://github.com/Spectrelight/ms-swift)
|
||
**ms-swift快速启动:**
|
||
```bash
|
||
CUDA_VISIBLE_DEVICES=0 swift app \
|
||
--model 模型路径 \
|
||
--model_type deepseek_r1 \
|
||
--stream true \
|
||
--infer_backend pt或vllm或lmdeploy \
|
||
--max_new_tokens 8000
|
||
```
|
||
|
||
|
||
### 3.4 使用建议
|
||
|
||
- 在 `generation_config.json` 或推理框架中调整 `temperature` / `top_p` 等参数。
|
||
- 重复性预防:`temperature` 建议 **0.6 – 0.9**。
|
||
- 需要创意输出时:`temperature` **0.9 – 1.0**。
|
||
- 直接提问,无需额外提示词。
|
||
- 模型专注污水处理领域,**避免跨域使用**。
|
||
|
||
### 3.5 量化模型列表
|
||
|
||
#### FST-ET1-1.5B
|
||
|
||
| 量化模型 | 说明 |
|
||
|----------|------|
|
||
| FST-ET1-1.5B-fp16 | 显存需求不变,精度无损 |
|
||
| FST-ET1-1.5B-fp16-GGUF | 显存需求不变,精度无损 |
|
||
| FST-ET1-1.5B-q8_0-GGUF | 显存需求减少 50%,精度几乎无损 |
|
||
| FST-ET1-1.5B-int8-GPTQ | 显存需求减少 50%,精度几乎无损 |
|
||
| FST-ET1-1.5B-q4_K_M-GGUF | 显存需求减少 75%,精度略有损失 |
|
||
| FST-ET1-1.5B-int4-GPTQ | 显存需求减少 75%,精度略有损失 |
|
||
|
||
#### FST-ET1-7B
|
||
|
||
| 量化模型 | 说明 |
|
||
|----------|------|
|
||
| FST-ET1-7B-fp16 | 显存需求不变,精度无损 |
|
||
| FST-ET1-7B-fp16-GGUF | 显存需求不变,精度无损 |
|
||
| FST-ET1-7B-q8_0-GGUF | 显存需求减少 50%,精度几乎无损 |
|
||
| FST-ET1-7B-int8-GPTQ | 显存需求减少 50%,精度几乎无损 |
|
||
| FST-ET1-7B-q4_K_M-GGUF | 显存需求减少 75%,精度略有损失 |
|
||
| FST-ET1-7B-int4-GPTQ | 显存需求减少 75%,精度略有损失 |
|
||
|
||
#### FST-ET1-14B
|
||
|
||
| 量化模型 | 说明 |
|
||
|----------|------|
|
||
| FST-ET1-14B-fp16 | 显存需求不变,精度无损 |
|
||
| FST-ET1-14B-fp16-GGUF | 显存需求不变,精度无损 |
|
||
| FST-ET1-14B-q8_0-GGUF | 显存需求减少 50%,精度几乎无损 |
|
||
| FST-ET1-14B-int8-GPTQ | 显存需求减少 50%,精度几乎无损 |
|
||
| FST-ET1-14B-q4_K_M-GGUF | 显存需求减少 75%,精度略有损失 |
|
||
| FST-ET1-14B-int4-GPTQ | 显存需求减少 75%,精度略有损失 |
|
||
|
||
> **注:** AutoGPTQ 采用 *symmetric group-wise* 方式量化并在量化过程中进行了数据校准,以提升模型生成精度。该模型需要 compute capability > 8.0(Ampere、Ada Lovelace、Hopper 架构)的 Nvidia GPU 来支持 INT8 或 INT4 混合精度计算。
|
||
|
||
## 4. 许可证
|
||
|
||
本项目由 **北京境界探微技术有限公司** 与 **苏州镃源科技有限公司** 联合开发。
|
||
|
||
部分代码和权重源自 **[DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek)**(MIT License)与 **[Qwen-2.5](https://github.com/QwenLM/Qwen2)**(Apache 2.0)。
|
||
更多详情请查阅项目根目录下的 `LICENSE-MIT` 与 `LICENSE-APACHE` 文件。
|
||
|
||
## 5. 贡献者
|
||
|
||
- 高嵩 博士
|
||
- 金正宇 博士
|
||
- 邢玉坤 博士
|
||
|
||
## 6. 联系我们
|
||
|
||
如有问题或合作意向,请通过 xyk_fst@163.com 与我们联系。
|