Ollama Self-Hosted: LLMs auf eigener Hardware

sgit.space
1 min read
Ollama Self-Hosted: LLMs auf eigener Hardware

Ollama ohne GPU

Ja, das geht. Ollama läuft auch auf CPU. Die Geschwindigkeit ist natürlich begrenzt — aber für einen privaten AI-Chat reicht es. Wir betreiben 14 Modelle verschiedener Größen.

Modell-Auswahl

Kleine Modelle (1-3B Parameter) für schnelle Antworten. Mittlere Modelle (7-13B) für komplexere Aufgaben. Die Auswahl basiert auf RAM-Verfügbarkeit und Antwortqualität.

Integration

Ollama läuft als Docker Container und bedient zwei Frontends: unseren eigenen AI-Chat (ai.sgit.space) und Open WebUI für die interne Nutzung. Beide sprechen die Ollama API.

Performance-Tuning

RAM ist der Flaschenhals. Nur ein Modell wird gleichzeitig in den Speicher geladen. Swap (8 GB) ist konfiguriert als Fallback. Die Antwortzeit liegt bei 2-10 Sekunden je nach Modellgröße und Prompt-Länge.

Fazit

Für eine private Plattform zum Experimentieren ist Ollama auf CPU absolut brauchbar. Für Production braucht man GPU — aber zum Lernen und Testen reicht es.