Dank der Unterstützung von Ollama für heterogenes Computing kann XRAG effizient auf verschiedenen Hardware-Plattformen wie NVIDIA-Grafikprozessoren, AMD-Beschleunigern und Apple-Chips der M-Serie laufen. Dank der Fähigkeit, automatisch die optimale Quantisierungsstufe auszuwählen, kann XRAG 13 Milliarden parametrische Modelle quantisiert ausführen, sogar auf einer RTX 3060 (6 GB Grafikspeicher). Praktische Tests zeigen, dass Ollama-fähiges XRAG auf Intel i9-13900K-CPUs immer noch eine Inferenzgeschwindigkeit von 15 Token/s erreichen kann, um die Anforderungen an Echtzeit-Interaktion zu erfüllen. Diese Hardware-Anpassungsfähigkeit ermöglicht es XRAG, in einer Vielzahl von Umgebungen wie Edge-Geräten, privaten Servern usw. eingesetzt zu werden, wodurch die starke Abhängigkeit des traditionellen RAG-Systems vom Cloud-Computing gelöst wird.
Diese Antwort stammt aus dem ArtikelXRAG: Ein visuelles Bewertungsinstrument zur Optimierung von Systemen zur RetrievalverbesserungDie































