Ollamaのヘテロジニアスコンピューティングサポートにより、XRAGはNVIDIA GPU、AMDアクセラレータ、Apple Mシリーズチップなどの異なるハードウェアプラットフォーム上で効率的に実行できます。最適な量子化レベルを自動的に選択する機能により、XRAGはRTX 3060(グラフィックメモリ6GB)上でも130億のパラメトリックモデルを量子化して実行することができます。実際のテストでは、Ollama対応のXRAGはIntel i9-13900K CPU上でも15トークン/秒の推論速度を達成し、リアルタイムインタラクションの要件を満たすことができる。このハードウェアの適応性により、XRAGはエッジデバイスやプライベートサーバーなど様々な環境に導入することができ、従来のRAGシステムがクラウドコンピューティングに強く依存していた点を解決することができる。
この答えは記事から得たものである。XRAG:検索機能拡張生成システムの最適化のための視覚的評価ツールについて































