enginex-ascend-910-llama.cpp

EngineX-Ascend/enginex-ascend-910-llama.cpp

Fork 0

79e0b68c17 llama: add LLAMA_API to deprecated llama_kv_self_seq_div (#14708) Min-Hua 2025-07-16 12:00:42 +08:00
c81f4192f9 gguf-py : dump bpw per layer and model in markdown mode (#14703) Ed Addario 2025-07-15 23:04:42 +01:00
4a4f426944 model : add Kimi-K2 support (#14654) Gabriel Larson 2025-07-15 14:54:22 -05:00
ba1ceb3456 vulkan: fix noncontig check for mat_mul_id splitting (#14683) Jeff Bolz 2025-07-15 14:51:09 -05:00
10a0351a97 vulkan: add RTE variants for glu/add/sub/mul/div (#14653) Jeff Bolz 2025-07-15 14:32:11 -05:00
68e37a61a7 model : add PLaMo-2 support (#14560) Shunta Saito 2025-07-16 01:11:42 +09:00
cbc68be51d cuda: fix build warnings in set-rows.cu (unused variable) (#14687) R0CKSTAR 2025-07-15 15:28:53 +08:00
bdca38376f sycl: Hotfix for non dnnl codepath (#14677) Anton Mitkov 2025-07-14 18:12:42 +01:00
55c509daf5 ggml : refactor llamafile_sgemm PPC code (#14673) shalinib-ibm 2025-07-14 18:46:42 +05:30
9c9e4fc635 llama-context: add ability to get logits (#14672) Aman Gupta 2025-07-14 21:01:41 +08:00
494c5899cb scripts: benchmark for HTTP server throughput (#14668) Johannes Gäßler 2025-07-14 13:14:30 +02:00
0f4c6ec0f1 SYCL: use 1D kernel for set_rows (#14618) Akarshan Biswas 2025-07-14 15:07:55 +05:30
65a3ebb0aa sycl: Batched mulmat rework for oneDNN dispatch (#14617) Anton Mitkov 2025-07-14 10:37:35 +01:00
0d9226763c llama : add jinja template for rwkv-world (#14665) Molly Sophia 2025-07-14 07:43:43 +08:00
982e347255 quantize : fix minor logic flaw in --tensor-type (#14572) Ed Addario 2025-07-13 17:02:17 +01:00
923e3ea2e3 cuda : add set rows for bf16 (#14664) Sigbjørn Skjæret 2025-07-13 15:01:24 +02:00
e743cddb60 cuda : add ELU support (#14657) Yavor Ivanov 2025-07-13 02:33:16 -07:00
05fec5bd29 ggml : add build-time message to remind about ggml_set_rows (#14661) Georgi Gerganov 2025-07-13 10:36:33 +03:00
dcf7f2ea3c metal : Add missing unary ops Metal support (#14660) Yavor Ivanov 2025-07-12 22:38:13 -07:00
84b396e051 cmake : Add CMake presets for Linux and GCC (#14656) Yavor Ivanov 2025-07-12 22:12:36 -07:00
c31e60647d tests : cover lfm2 cases in test_ssm_conv (#14651) Tarek Dakhran 2025-07-12 19:10:14 +02:00
67eade1bf9 docs : add LFM2 to models section (#14650) Tarek Dakhran 2025-07-12 19:07:08 +02:00
7de5c7cab6 CUDA: add set rows for f32 and f16 (#14551) Aman Gupta 2025-07-12 21:31:38 +08:00
8eff95544e sync : ggml Georgi Gerganov 2025-07-12 16:06:12 +03:00
3120413ccd vulkan : remove unused vars (#0) Georgi Gerganov 2025-07-12 12:39:32 +03:00
215535701d sync : ggml Georgi Gerganov 2025-07-12 12:39:27 +03:00
74bb294591 vulkan : implement bilinear interpolation (ggml/1291) Acly 2025-07-12 12:37:37 +03:00
3e303b1107 vulkan : implement ggml_roll (ggml/1290) Acly 2025-07-12 12:32:32 +03:00
0c1df14b5f server : fix pooled embedding output (#14645) Douglas Hanley 2025-07-12 06:21:02 -04:00
b3ad3a0191 vulkan: support SET_ROWS (#14587) Jeff Bolz 2025-07-12 05:12:26 -05:00
98197e5c98 vulkan: optimizations for deepseek prompt processing (#14555) Jeff Bolz 2025-07-12 04:51:58 -05:00
f5e96b368f model : support LiquidAI LFM2 hybrid family (#14620) Tarek Dakhran 2025-07-11 20:27:01 +02:00
756aa1020a HIP : Add HIP 7.0+ compatibility for hipBLAS compute types (#14634) Slobodan Josic 2025-07-11 18:55:00 +02:00
aaa088d87f readme : add hot PRs (#14636) Georgi Gerganov 2025-07-11 16:07:55 +03:00
0d5375d54b llama : move enum llama_vocab_pre_type to implementation (#14631) Georgi Gerganov 2025-07-11 13:46:07 +03:00
576c82eda2 vocab : add midm-2.0 model pre-tokenizer (#14626) Dowon 2025-07-11 16:36:04 +09:00
0aedae00e6 model : Granite Four (#13550) Gabe Goodhart 2025-07-10 18:20:13 -06:00
6bdda13981 opencl: add tiled mul_mat_f16_f32 (#14535) rmatif 2025-07-10 23:58:12 +02:00
0b8855775c opencl: add set_rows for f16 and f32 (#14547) lhez 2025-07-10 11:48:52 -07:00
4bb625b713 Smoldocling support (#14597) Ryan Mangeno 2025-07-10 13:41:00 -04:00
11ee0fea2a Docs: script to auto-generate ggml operations docs (#14598) Aman Gupta 2025-07-10 23:29:01 +08:00
a457551332 cmake : do not search for curl libraries by ourselves (#14613) Eric Zhang 2025-07-10 20:29:05 +08:00
704bb7a71c SYCL: Initial set_rows kernel implementation (#14562) Akarshan Biswas 2025-07-10 13:59:38 +05:30
435a6d10d6 llama : minor coding style fix for smollm3 (#14605) Xuan-Son Nguyen 2025-07-10 09:00:20 +02:00
f9a867f592 cmake : bump llguidance version to v1.0.1 (#14609) Eric Zhang 2025-07-10 13:19:37 +08:00
ac44eb6c80 cmake : llguidance build parser library only (#14608) Eric Zhang 2025-07-10 13:19:13 +08:00
a57d1bcb3c cuda : support Falcon-H1 state size for SSM_SCAN (#14602) compilade 2025-07-09 23:54:38 -04:00
cb9178f885 llama : remove llm_graph_input_one (#14603) Xuan-Son Nguyen 2025-07-09 23:09:28 +02:00
4a5686da22 llama : support Jamba hybrid Transformer-Mamba models (#7531) compilade 2025-07-09 14:59:57 -04:00
98bab638fb ggml : add ggml_scale_bias (#14417) Xuan-Son Nguyen 2025-07-09 18:16:12 +02:00
26a48ad699 ggml : prevent integer overflow in gguf tensor size calculation (#14595) Miaoqian Lin 2025-07-09 20:33:53 +08:00
ffd59e7d18 model : add skt/A.X-4.0 model vocabulary (#14589) Dowon 2025-07-09 17:22:31 +09:00
105554595f llama : remove unintended whitespace (#14592) Sigbjørn Skjæret 2025-07-09 10:19:50 +02:00
04655063c4 model : add support for Falcon-H1 family (#14534) ibrahim khadraoui 2025-07-09 12:03:49 +04:00
20b7bf8a32 convert : fix smollm3 jinja template (#14586) Xuan-Son Nguyen 2025-07-09 08:26:13 +02:00
6efcd65945 vulkan: optimize flash attention split_k_reduce (#14554) Jeff Bolz 2025-07-08 13:11:42 -05:00
699f4392a3 model : fix hunyuan moe chat template (#14584) stevenkuang 2025-07-09 00:29:29 +08:00
08382869a2 model : add SmolLM3 (#14581) Xuan-Son Nguyen 2025-07-08 18:07:01 +02:00
bb4f7a9e4e memory : fix broken batch splits for recurrent cache (#14575) compilade 2025-07-08 11:37:47 -04:00
b8eeb8741d vulkan : fix rope with partial rotation and non-cont src (#14582) Jeff Bolz 2025-07-08 08:21:21 -05:00
17a1f0d2d4 server: Add ability to mount server at prefix (#14544) Alawode Oluwandabira 2025-07-08 11:47:33 +03:00
8f22dc0a53 model : add hunyuan moe (#14425) Xuan-Son Nguyen 2025-07-08 10:24:06 +02:00
53903ae6fa vulkan: increase timeout for CI (#14574) Jeff Bolz 2025-07-08 02:38:31 -05:00
4d0dcd4a06 cuda : fix rope with partial rotation and non-cont src (#14580) Georgi Gerganov 2025-07-08 10:15:21 +03:00
75c91de6e9 CUDA: add bilinear interpolation for upscale (#14563) Aman Gupta 2025-07-08 10:11:18 +08:00
68155c66f0 musa: fix build warnings (unused variable) (#14561) R0CKSTAR 2025-07-08 07:58:30 +08:00
e1a7059053 llama : fix incorrect minicpm3 v_states shape (#14571) Sigbjørn Skjæret 2025-07-07 23:35:35 +02:00
12f55c302b llama : remove ggml_cont where possible (#14568) Sigbjørn Skjæret 2025-07-07 21:35:08 +02:00
b9c3eefde1 CUDA: add bf16 and i32 to getrows (#14529) Aman Gupta 2025-07-07 21:45:43 +08:00
6491d6e4f1 vulkan: increase LOAD_VEC_A to 8 (IQ1/IQ2) or 4 (IQ3) (#14485) Eve 2025-07-06 10:29:36 +00:00
e592be1575 vulkan: fix rms_norm+mul fusion (#14545) Jeff Bolz 2025-07-06 03:08:16 -05:00
a0374a67e2 vulkan: Handle updated FA dim2/3 definition (#14518) Jeff Bolz 2025-07-05 02:26:04 -05:00
ddef99522d server : fix assistant prefilling when content is an array (#14360) Sigbjørn Skjæret 2025-07-05 09:17:14 +02:00
6681688146 opencl: add GELU_ERF (#14476) Sigbjørn Skjæret 2025-07-05 08:24:56 +02:00
bac8bed248 eval-callback : check for empty input (#14539) Georgi Gerganov 2025-07-05 07:18:09 +03:00
b81510a7b7 test-backend-ops: add support for specifying output format (#14368) R0CKSTAR 2025-07-05 12:10:53 +08:00
ef797db357 metal : disable fast math in all quantize kernels (#14528) Georgi Gerganov 2025-07-04 19:19:09 +03:00
67d1ef23c6 batch : add optional for sequential equal split (#14511) Georgi Gerganov 2025-07-04 09:08:59 +03:00
7b50f7c025 graph : prepare for 4D mask (#14515) Georgi Gerganov 2025-07-04 09:05:36 +03:00
c79184d2d1 batch : add n_used count (#14512) Georgi Gerganov 2025-07-04 09:04:59 +03:00
499a8f5a78 CANN: Replace aclrtMemsetSync with aclnnInplaceZero operator (#14002) luyhcsu 2025-07-04 11:50:07 +08:00
28657a8229 ggml : implement GEGLU_ERF and GEGLU_QUICK ops (#14445) Sigbjørn Skjæret 2025-07-03 23:07:22 +02:00
bee28421be opencl : broadcast for soft_max (#14510) lhez 2025-07-03 11:22:24 -07:00
2b72bedec1 vulkan: support mixed/deepseekR1 FA head sizes (#14509) Jeff Bolz 2025-07-03 13:21:14 -05:00
c8c4495b8d ggml: backward pass for split swiglu (#14483) Johannes Gäßler 2025-07-03 17:05:18 +02:00
7b63a71a6b Fix conditional enabling following arch checks for ggml-sycl (#14504) Nicolò Scipione 2025-07-03 11:00:03 +02:00
0c2ee38ab7 convert : correct gemma 3n conversion (#14450) Xuan-Son Nguyen 2025-07-03 10:03:06 +02:00
a70c8a0c4b kv-cache : use ggml_set_rows (#14285) Georgi Gerganov 2025-07-03 10:53:35 +03:00
9067487c44 ggml : fix FA mask dim 2 and 3 (#14505) Georgi Gerganov 2025-07-03 10:46:57 +03:00
d4cdd9c1c3 ggml : remove kompute backend (#14501) Georgi Gerganov 2025-07-03 07:48:32 +03:00
55c2646b45 CUDA: add dynamic shared mem to softmax, refactor general usage (#14497) Aman Gupta 2025-07-03 07:45:11 +08:00
e75ba4c043 gguf-py : add support for chat template jinja files (#14508) Sigbjørn Skjæret 2025-07-02 21:02:35 +02:00
5d46babdc2 llama : initial Mamba-2 support (#9126) compilade 2025-07-02 13:10:24 -04:00
e17991c466 sync : ggml Georgi Gerganov 2025-07-02 19:35:47 +03:00
c46944aa25 ggml : add version function to get lib version (ggml/1286) Daniel Bevenius 2025-07-02 13:55:32 +02:00
f3ed38d793 Set RPATH to "@loader_path" / "$ORIGIN" to ensure executables and dynamic libraries search for dependencies in their origin directory. (#14309) Rotem Dan 2025-07-02 19:37:16 +03:00
55a1c5a5fd CUDA: add softmax broadcast (#14475) Aman Gupta 2025-07-02 20:34:24 +08:00
12a81af45f CUDA: broadcasting for FlashAttention mask (#14500) Johannes Gäßler 2025-07-02 13:42:12 +02:00
8875523eb3 vulkan: support softmax/FA batch and broadcast (#14449) Jeff Bolz 2025-07-01 03:32:56 -05:00
ec68e84c32 ggml : support bcast ggml_soft_max_ext, ggml_flash_attn_ext (#14435) Georgi Gerganov 2025-06-27 21:50:57 +03:00

Commit Graph Select branches Hide Pull Requests main b7003-full Mono Color

Commit Graph

Select branches

Hide Pull Requests

main

b7003-full