~/bookmarks

/**/

GitHub - ubergarm/llama.cpp at ug/port-sweep-bench

github.comSaved March 31, 202611 min

ubergarm · via GitHub

Summary

llama.cpp is a plain C/C++ library for LLM inference with state-of-the-art performance across hardware like Apple silicon, x86, RISC-V, NVIDIA GPUs, and Vulkan.

It supports models including LLaMA series, Mistral, Mixtral, DBRX, and PLaMo-13B via GGUF format with quantization from 1.5-bit to 8-bit. Installation options include brew, Docker, pre-built binaries, or source builds, with commands like llama-cli for local models or llama-server for OpenAI-compatible APIs.

Topics

LLM Inference GGUF Models Llama.cpp C/C++ Implementation Quantization Techniques

View on GitHub All Bookmarks

William's Bookmark Library

/**/

GitHub - ubergarm/llama.cpp at ug/port-sweep-bench

github.comSaved March 31, 202611 min

ubergarm · via GitHub

Summary

llama.cpp is a plain C/C++ library for LLM inference with state-of-the-art performance across hardware like Apple silicon, x86, RISC-V, NVIDIA GPUs, and Vulkan.

Topics

LLM Inference GGUF Models Llama.cpp C/C++ Implementation Quantization Techniques

View on GitHub All Bookmarks

~/bookmarks

GitHub - ubergarm/llama.cpp at ug/port-sweep-bench

Summary

Topics

Discover Similar Content

GitHub - ubergarm/llama.cpp at ug/port-sweep-bench

Summary

Topics