Ollama Self-Hosted: LLMs auf eigener Hardware
Ollama ohne GPU
Ja, das geht. Ollama läuft auch auf CPU. Die Geschwindigkeit ist natürlich begrenzt — aber für einen privaten AI-Chat reicht es. Wir betreiben 14 Modelle verschiedener Größen.
Modell-Auswahl
Kleine Modelle (1-3B Parameter) für schnelle Antworten. Mittlere Modelle (7-13B) für komplexere Aufgaben. Die Auswahl basiert auf RAM-Verfügbarkeit und Antwortqualität.
Integration
Ollama läuft als Docker Container und bedient zwei Frontends: unseren eigenen AI-Chat (ai.sgit.space) und Open WebUI für die interne Nutzung. Beide sprechen die Ollama API.
Performance-Tuning
RAM ist der Flaschenhals. Nur ein Modell wird gleichzeitig in den Speicher geladen. Swap (8 GB) ist konfiguriert als Fallback. Die Antwortzeit liegt bei 2-10 Sekunden je nach Modellgröße und Prompt-Länge.
Fazit
Für eine private Plattform zum Experimentieren ist Ollama auf CPU absolut brauchbar. Für Production braucht man GPU — aber zum Lernen und Testen reicht es.