LOCAL · OLLAMA · LM STUDIO · GGUF

Local LLM Cheat Sheet · 8GB RAM

Um painel prático para escolher modelos locais que ainda deixam margem numa máquina com 8GB. Foco em quantizações utilizáveis, contexto razoável e uso real no dia a dia.

8GB Cheat Sheet

O ponto seguro em 8GB raramente é “o maior modelo possível”. É o modelo que responde bem, cabe com folga e não mata o resto da máquina.

Classe A · diária Classe B · especialista Classe C · eficiente Classe D · micro

Janela segura 3.0–5.2 GB para manter browser e sistema respirarem

Zona de risco 6.0+ GB mais swaps, menos margem, contexto mais caro

Uso ideal Q4 / Q5 equilíbrio melhor entre qualidade e peso

Regra prática 1 tarefa um modelo principal por sessão dá menos fricção

muito rápido

rápido

razoável

perto do limite

FILTROS V2

Escolhe por uso e por RAM

0 modelos a aplicar filtros…

CPU / RAM

Se correres estes modelos em CPU (por exemplo via GGUF em Ollama, LM Studio ou llama.cpp), o limite principal deixa de ser a VRAM e passa a ser a RAM total disponível e o tempo de inferência. Ou seja: podem caber sem GPU dedicada, mas vão responder mais devagar e o contexto continua a custar memória.

Exemplos comuns: Qwen2.5 3B Phi-3.5 Mini Gemma 2 2B