--- language: - ko library_name: transformers license: apache-2.0 pipeline_tag: text-generation model_id: kakaocorp/kanana-safeguard-8b repo: kakaocorp/kanana-safeguard-8b developers: Kanana Safeguard Team training_regime: bf16 mixed precision --- # Kanana Safeguard [๐ฆModels](https://huggingface.co/collections/kakaocorp/kanana-safeguard-68215a02570de0e4d0c41eec) | [๐ Blog](https://tech.kakao.com/posts/705) ## ๋ชจ๋ธ ์์ธ์ค๋ช Kanana Safeguard๋ ์นด์นด์ค์ ์์ฒด ์ธ์ด๋ชจ๋ธ์ธ Kanana 8B๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ ํด ์ฝํ ์ธ ํ์ง ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ๋ํํ AI ์์คํ ๋ด ์ฌ์ฉ์ ๋ฐํ ๋๋ AI ์ด์์คํดํธ์ ๋ต๋ณ์ผ๋ก๋ถํฐ ๋ฆฌ์คํฌ ์ฌ๋ถ๋ฅผ ๋ถ๋ฅํ๋๋ก ํ์ต๋์์ต๋๋ค. ๋ถ๋ฅ ๊ฒฐ๊ณผ๋ <SAFE> ๋๋ <UNSAFE-S4> ํ์์ ๋จ์ผ ํ ํฐ์ผ๋ก ์ถ๋ ฅ๋ฉ๋๋ค. ์ฌ๊ธฐ์์ S4๋ ์ฌ์ฉ์ ๋ฐํ ๋๋ AI ์ด์์คํดํธ ๋ต๋ณ์ด ์๋ฐํ ๋ฆฌ์คํฌ ์นดํ ๊ณ ๋ฆฌ์ ์ฝ๋๋ฅผ ์๋ฏธํฉ๋๋ค. ์๋๋ Kanana Safeguard ๋ชจ๋ธ์ ์๋ ์์์ ๋๋ค.  ## ๋ฆฌ์คํฌ ๋ถ๋ฅ ์ฒด๊ณ ๋ณธ ๋ชจ๋ธ์ ๋ฆฌ์คํฌ ์นดํ ๊ณ ๋ฆฌ๋ [MLCommons ๋ถ๋ฅ์ฒด๊ณ](https://mlcommons.org/2024/04/mlc-aisafety-v0-5-poc/)์ ๊ธฐ๋ฐํ๊ณ ์์ผ๋ฉฐ, ์ฌ๊ธฐ์ ํ๊ตญ ๋ก์ปฌ ํน์ฑ์ ๋ง๋ ๋ฆฌ์คํฌ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ์๋์ ๊ฐ์ด ์ด 7๊ฐ์ง ์นดํ ๊ณ ๋ฆฌ๋ก ๊ตฌ์ฑ๋ ๋ฆฌ์คํฌ ๋ถ๋ฅ์ฒด๊ณ๋ฅผ ์๋ฆฝํ์์ต๋๋ค. ๋ณธ ๋ชจ๋ธ์์ โ ์ฌ์ฉ์์ ๋ฐํ์ โกAI ์ด์์คํดํธ์ ๋ต๋ณ์ ๋์ผํ ๋ฆฌ์คํฌ ๋ถ๋ฅ์ฒด๊ณ์ ์ํด ํ๋ณ๋ฉ๋๋ค.
| ์ฝ๋ | ์นดํ ๊ณ ๋ฆฌ | ์ค๋ช |
|---|---|---|
| S1 | ์ฆ์ค | ์ถ์ , ์ธ์ข , ์ธ์, ์ฅ์ ๋ฐ ์ง๋ณ ์ ๋ฌด, ์ฌํ ๊ฒฝ์ ์ ์ํฉ ๋ฐ ์ง์, ์ข ๊ต, ์ฐ๋ น, ์ฑ๋ณยท์ฑ ์ ์ฒด์ฑยท์ฑ์ ์งํฅ ๋๋ ๊ธฐํ ์ ์ฒด์ฑ ์์ธ ๋ฑ์ ์ด์ ๋ก ํน์ ๋์์ ์ฐจ๋ณํ๊ฑฐ๋, ์ด๋ฌํ ์ฐจ๋ณ์ ๊ธฐ๋ฐํด ๊ฐ์ธ ๋๋ ์ง๋จ์ ๊ณต๊ฒฉํ๋ ๋ฐํ |
| S2 | ๊ดด๋กญํ | ํ์ธ์๊ฒ ๋ถ์พ๊ฐ์ด๋ ๊ตด์๊ฐ์ ์ฃผ๊ฑฐ๋, ์ํ์ ์ด๊ฑฐ๋, ํน์ ๋์์ ๋ํ ๊ดด๋กญํ์ ๋ถ์ถ๊ธฐ๋ ๋ฐํ |
| S3 | ์ฑ์ ์ฝํ ์ธ | ์ฑ์ ํ์๋ ์ ์ฒด๋ฅผ ๋ฌ์ฌ/์์ํ๊ฑฐ๋, ์ฑ์ ์์น์ฌ/ํ์ค๊ฐ์ ์ผ์ผํฌ ์ ์๋ ๋ฐํ (์ฑ๊ต์ก ๋ฐ ์ฐ๋น ์ ์ธ) |
| S4 | ๋ฒ์ฃ | ๋ถ๋ฒ์ ์ธ ํ์(์: ํญ๋ ฅโ๋นํญ๋ ฅ ๋ฒ์ฃ, ์ฑ๋ฒ์ฃ, ๋ฌด๊ธฐ ์ ์ยท์กฐ๋ฌ)๋ฅผ ๊ธฐํํ๊ณ ์ค๋นํ๋ ๊ณผ์ ์ ๋ด์ ๋ฐํ |
| S5 | ์๋ ์ฑ์ฐฉ์ทจ | ์๋ ๋์์ ์ฑ์ ํ๋์ ๊ด๋ จ๋ ์ค๋ช , ๊ฒฉ๋ ค, ์ง์ง ๋ฑ์ ๋ฐํ (์: ๊ทธ๋ฃจ๋ฐ, CSAM ๊ด๋ จ ํ ์คํธ ๋ฑ) |
| S6 | ์์ด ๋ฐ ์ํด | ์๋์ ์ผ๋ก ์์ ์ ์๋ช ์ ๋๊ฑฐ๋ ์์ ์ ์ ์ฒด๋ฅผ ์๋์ ์ผ๋ก ํด์น๋ ํ์๋ฅผ ๋ฌ์ฌํ๊ฑฐ๋ ์ ๋ํ๋ ๋ฐํ |
| S7 | ์๋ชป๋ ์ ๋ณด | ๊ฐ์ธ์ด๋ ์ง๋จ์๊ฒ ์๋ชป๋ ์ ๋ณด๋ฅผ ์ ํํ ์ ์๋ ๋ฐํ |
| Model | F1 Score | Precision | Recall |
|---|---|---|---|
| Kanana Safeguard 8B | 0.946 | 0.944 | 0.948 |
| LlamaGuard3 8B | 0.540 | 0.893 | 0.387 |
| ShieldGemma 9B | 0.477 | 0.640 | 0.380 |
| GPT-4o (zero-shot) | 0.763 | 0.696 | 0.843 |