--- language: - vi - en license: apache-2.0 base_model: Qwen/Qwen3-4B-Instruct-2507 tags: - qwen3 - accounting - vietnamese - kế-toán - thông-tư-133 - fine-tuned - cot - chain-of-thought datasets: - custom-tt133 pipeline_tag: text-generation --- # AAI Accountant — TT133 v1.0 **AI kế toán chuyên biệt cho Thông tư 133/2016/TT-BTC** (Chế độ kế toán doanh nghiệp nhỏ và vừa Việt Nam) ## Thông tin mô hình | Thuộc tính | Giá trị | |---|---| | Base model | `Qwen/Qwen3-4B-Instruct-2507` | | Fine-tune method | QLoRA (rank=32, RSLoRA) | | Dataset | 903 samples từ TT133 + Phụ lục biểu mẫu | | Language | Tiếng Việt (kế toán) | | Context length | 4096 tokens | | Format | ChatML + `...` CoT | ## Khả năng - ✅ **Định khoản kế toán** theo TT133 (Nợ/Có, TK XXX) - ✅ **Giải thích điều khoản** — trả lời câu hỏi về 91 Điều của TT133 - ✅ **Biểu mẫu BCTC** — hướng dẫn điền B01-DNN, B02-DNN, B09-DNN... - ✅ **Danh mục tài khoản** — tra cứu mã TK, phân loại, bút toán điển hình - ✅ **Chain-of-Thought** — suy luận từng bước rõ ràng trước khi trả lời ## Dataset breakdown | Loại nội dung | Samples | % | |---|---|---| | Văn bản (Điều khoản chung) | 298 | 33% | | Nguyên tắc kế toán | 264 | 29% | | Biểu mẫu BCTC (Phụ lục) | 175 | 19% | | Ví dụ thực tế | 73 | 8% | | Định khoản Nợ/Có | 66 | 7% | | Phụ lục chung | 27 | 3% | ## Cách dùng ```python from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_id = 'steve-nguyen/aai-accountant-tt133-v1.0' tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.float16, device_map='auto' ) messages = [ {'role': 'system', 'content': 'Bạn là AI agent kế toán chuyên nghiệp, tuân thủ Thông tư 133/2016/TT-BTC.'}, {'role': 'user', 'content': 'Công ty mua hàng 100 triệu đồng, chưa trả tiền. Định khoản?'}, ] inputs = tokenizer.apply_chat_template(messages, return_tensors='pt', add_generation_prompt=True).to('cuda') outputs = model.generate(inputs, max_new_tokens=512, temperature=0.6, do_sample=True) print(tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True)) ``` ## Lưu ý - Mô hình được tối ưu cho **Thông tư 133** (DNNVV). Với TT200 (doanh nghiệp lớn) cần thêm dataset. - Luôn kiểm tra lại bút toán với kế toán viên — AI có thể mắc lỗi trong các trường hợp phức tạp. - Không áp dụng cho mục đích pháp lý mà không có xác nhận chuyên môn. ## License Apache 2.0 — kế thừa từ Qwen3-4B-Instruct.