85 lines
2.7 KiB
Markdown
85 lines
2.7 KiB
Markdown
---
|
|
language:
|
|
- vi
|
|
- en
|
|
license: apache-2.0
|
|
base_model: Qwen/Qwen3-4B-Instruct-2507
|
|
tags:
|
|
- qwen3
|
|
- accounting
|
|
- vietnamese
|
|
- kế-toán
|
|
- thông-tư-133
|
|
- fine-tuned
|
|
- cot
|
|
- chain-of-thought
|
|
datasets:
|
|
- custom-tt133
|
|
pipeline_tag: text-generation
|
|
---
|
|
|
|
# AAI Accountant — TT133 v1.0
|
|
|
|
**AI kế toán chuyên biệt cho Thông tư 133/2016/TT-BTC** (Chế độ kế toán doanh nghiệp nhỏ và vừa Việt Nam)
|
|
|
|
## Thông tin mô hình
|
|
|
|
| Thuộc tính | Giá trị |
|
|
|---|---|
|
|
| Base model | `Qwen/Qwen3-4B-Instruct-2507` |
|
|
| Fine-tune method | QLoRA (rank=32, RSLoRA) |
|
|
| Dataset | 903 samples từ TT133 + Phụ lục biểu mẫu |
|
|
| Language | Tiếng Việt (kế toán) |
|
|
| Context length | 4096 tokens |
|
|
| Format | ChatML + `<think>...</think>` CoT |
|
|
|
|
## Khả năng
|
|
|
|
- ✅ **Định khoản kế toán** theo TT133 (Nợ/Có, TK XXX)
|
|
- ✅ **Giải thích điều khoản** — trả lời câu hỏi về 91 Điều của TT133
|
|
- ✅ **Biểu mẫu BCTC** — hướng dẫn điền B01-DNN, B02-DNN, B09-DNN...
|
|
- ✅ **Danh mục tài khoản** — tra cứu mã TK, phân loại, bút toán điển hình
|
|
- ✅ **Chain-of-Thought** — suy luận từng bước rõ ràng trước khi trả lời
|
|
|
|
## Dataset breakdown
|
|
|
|
| Loại nội dung | Samples | % |
|
|
|---|---|---|
|
|
| Văn bản (Điều khoản chung) | 298 | 33% |
|
|
| Nguyên tắc kế toán | 264 | 29% |
|
|
| Biểu mẫu BCTC (Phụ lục) | 175 | 19% |
|
|
| Ví dụ thực tế | 73 | 8% |
|
|
| Định khoản Nợ/Có | 66 | 7% |
|
|
| Phụ lục chung | 27 | 3% |
|
|
|
|
## Cách dùng
|
|
|
|
```python
|
|
from transformers import AutoModelForCausalLM, AutoTokenizer
|
|
import torch
|
|
|
|
model_id = 'steve-nguyen/aai-accountant-tt133-v1.0'
|
|
tokenizer = AutoTokenizer.from_pretrained(model_id)
|
|
model = AutoModelForCausalLM.from_pretrained(
|
|
model_id, torch_dtype=torch.float16, device_map='auto'
|
|
)
|
|
|
|
messages = [
|
|
{'role': 'system', 'content': 'Bạn là AI agent kế toán chuyên nghiệp, tuân thủ Thông tư 133/2016/TT-BTC.'},
|
|
{'role': 'user', 'content': 'Công ty mua hàng 100 triệu đồng, chưa trả tiền. Định khoản?'},
|
|
]
|
|
inputs = tokenizer.apply_chat_template(messages, return_tensors='pt', add_generation_prompt=True).to('cuda')
|
|
outputs = model.generate(inputs, max_new_tokens=512, temperature=0.6, do_sample=True)
|
|
print(tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True))
|
|
```
|
|
|
|
## Lưu ý
|
|
|
|
- Mô hình được tối ưu cho **Thông tư 133** (DNNVV). Với TT200 (doanh nghiệp lớn) cần thêm dataset.
|
|
- Luôn kiểm tra lại bút toán với kế toán viên — AI có thể mắc lỗi trong các trường hợp phức tạp.
|
|
- Không áp dụng cho mục đích pháp lý mà không có xác nhận chuyên môn.
|
|
|
|
## License
|
|
|
|
Apache 2.0 — kế thừa từ Qwen3-4B-Instruct.
|