The Local LLM Index / Quantization & Formats / #208

dipampaul17/KVSplit

by dipampaul17 · Quantization & Formats · updated 1y ago

Run larger LLMs with longer contexts on Apple Silicon by using differentiated precision for KV cache quantization. KVSplit enables 8-bit keys & 4-bit values, reducing memory by 59% with <1% quality loss. Includes benchmarking, visualization, and one-command setup. Optimized for M1/M2/M3 Macs with Metal support.

momentum

361

stars

forks

#208

rank

apple-silicongenerative-aikv-cachellama-cppllmm1m2m3memory-optimizationmetaloptimizationquantization

View on GitHub →

dipampaul17/KVSplit

More in Quantization & Formats