LOCAL · OLLAMA · LM STUDIO · GGUF
Local LLM Cheat Sheet · 8GB RAM
Um painel prático para escolher modelos locais que ainda deixam margem numa máquina com 8GB. Foco em quantizações utilizáveis, contexto razoável e uso real no dia a dia.
8GB Cheat Sheet
O ponto seguro em 8GB raramente é “o maior modelo possível”. É o modelo que responde bem, cabe com folga e não mata o resto da máquina.
Classe A · diária
Classe B · especialista
Classe C · eficiente
Classe D · micro
muito rápido
rápido
razoável
perto do limite
FILTROS V2
Escolhe por uso e por RAM
Uso
RAM máxima estimada
0 modelos
a aplicar filtros…
CPU / RAM
Se correres estes modelos em CPU (por exemplo via GGUF em Ollama, LM Studio ou llama.cpp), o limite principal deixa de ser a VRAM e passa a ser a RAM total disponível e o tempo de inferência. Ou seja: podem caber sem GPU dedicada, mas vão responder mais devagar e o contexto continua a custar memória.
Exemplos comuns: Qwen2.5 3B
Phi-3.5 Mini
Gemma 2 2B