Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

RAG-Anything ist ein Programm, das auf LichtRAG Vollständig integrierte, multimodale Dokumentenverarbeitung RAG System. Die meisten traditionellen Frage- und Antwortsysteme (RAG) können nur mit reinem Textinhalt umgehen, aber die Dokumente, mit denen wir täglich in Berührung kommen, wie z.B. PDFs, Word-Dokumente oder Präsentationen, enthalten oft mehrere Arten von Inhalten wie Text, Bilder, Tabellen, Formeln usw. Wenn nur Text extrahiert wird, gehen viele Schlüsselinformationen verloren. RAG-Anything löst dieses Problem, indem es diese komplexen Dokumente, die mehrere Elemente wie Text, Bilder, Tabellen oder mathematische Formeln enthalten, vollständig analysiert, so dass sie genau erkannt und verstanden werden können. Es zerlegt und analysiert alle Elemente des Dokuments und baut dann einen Wissensgraphen auf, so dass das System bei einer Frage nicht nur den Text versteht, sondern auch den Inhalt der Bilder liest und die Daten in der Tabelle analysiert. Auf diese Weise kann es eine umfassendere und genauere Antwort geben, die auf allen Informationen des Dokuments basiert. Dieses System eignet sich besonders für die Bearbeitung von Dokumenten mit unterschiedlichen Informationen, wie z. B. akademische Abhandlungen, technische Handbücher und Finanzberichte.

 

Funktionsliste

  • Integrierter BehandlungsprozessDer gesamte Prozess vom Hochladen der Dokumente über das Parsing bis hin zur intelligenten Frage und Antwort ist vollständig automatisiert.
  • Unterstützt mehrere DateiformateBenutzer können PDF, Word, PPT, Excel, Bilder und viele andere gängige Formate zur Bearbeitung hochladen.
  • Spezieller InhaltsanalysatorDas System verfügt über integrierte Werkzeuge, die speziell für das Erkennen und Verstehen verschiedener Inhalte wie Bilder, Tabellen, mathematische Formeln usw. entwickelt wurden.
  • Aufbau eines multimodalen WissensgraphenEs extrahiert automatisch Schlüsselinformationen aus Dokumenten und stellt Verbindungen zwischen Texten, Bildern, Tabellen und anderen Inhalten her, um ein Wissensnetzwerk zu bilden.
  • Flexible VerarbeitungsmodiDer Benutzer kann wählen, ob das System das gesamte Dokument automatisch analysieren soll oder ob er dem System direkten Zugang zu dem geben will, was er bereits organisiert hat.
  • Hybride intelligente SucheBei der Suche nach Antworten kombiniert das System sowohl den Abgleich von Schlüsselwörtern als auch das Verstehen von Kontexten, um Informationen präziser zu finden.
  • Visuelles Sprachmodell Verbesserte AbfrageWenn ein Benutzer eine Frage stellt, die ein Bild beinhaltet, ruft das System automatisch ein visuelles Modell auf, um den Bildinhalt zu analysieren und eine kombinierte grafische Antwort zu erhalten.

Hilfe verwenden

RAG-Anything ist ein leistungsfähiges Werkzeug, das Dokumente mit Text, Bildern, Tabellen und vielem mehr analysiert und es Ihnen ermöglicht, mit diesen Dokumenten zu interagieren, indem Sie Fragen stellen. Im Folgenden finden Sie eine detaillierte Beschreibung der Installation und Verwendung.

I. Einbau

Es gibt zwei Möglichkeiten, RAG-Anything zu installieren, wobei die erste empfohlen wird, da sie einfacher ist.

Weg 1: Direkt von PyPI installieren (empfohlen)

Dies ist der schnellste Weg zur Installation. Öffnen Sie Ihr Terminal oder Kommandozeilenprogramm und geben Sie den folgenden Befehl ein:

# 基础安装
pip install raganything

Mit diesem Basisbefehl wird nur die Kernfunktionalität installiert. Moderne Dokumente liegen in einer Vielzahl von Formaten vor, und damit das Programm weitere Dateitypen verarbeiten kann, können Sie bei Bedarf zusätzliche Funktionspakete installieren.

  • Wenn Sie möchten, dass das Programm alle unterstützten Dateitypen verarbeitet (empfohlen):
    pip install 'raganything[all]'
  • Wenn Sie nur mit Bildformaten (z.B. BMP, TIFF, GIF, etc.) arbeiten müssen:
    pip install 'raganything[image]'
  • Wenn Sie nur mit reinen Textdateien (z. B. TXT, MD) arbeiten müssen:
    pip install 'raganything[text]'

Weg 2: Installation aus dem Quellcode

Wenn Sie den Code studieren oder sekundäre Entwicklung betreiben wollen, ist dies der richtige Weg.

  1. Klonen Sie zunächst den Code von GitHub auf Ihren Computer:
    git clone https://github.com/HKUDS/RAG-Anything.git
    
  2. Rufen Sie den Projektkatalog auf:
    cd RAG-Anything
    
  3. Installieren Sie es dann über pip:
    pip install -e .
    
  4. Verwenden Sie auch diesen Befehl, wenn Sie alle Dateiformate unterstützen müssen:
    pip install -e '.[all]'

II. die Umweltkonfiguration

1. installieren Sie LibreOffice

RAG-Anything arbeitet mit Office-Dokumenten (z.B. .docx, .pptx, .xlsx) mit Hilfe von LibreOffice, einer freien Bürosoftware. Sie müssen diese zunächst auf Ihrem Betriebssystem installieren.

  • Windows (Computer): Weiter zu LibreOffice offizielle WebsiteHerunterladen und installieren.
  • macOSEs ist einfach, es mit Homebrew zu installieren, der Befehl lautet brew install --cask libreoffice.
  • Ubuntu/Debian:: Verwendung von Befehlen sudo apt-get install libreoffice.

2. den API-Schlüssel konfigurieren

RAG-Anything muss ein großes Sprachmodell (LLM), wie die GPT-Modellfamilie von OpenAI, aufrufen, wenn es Inhalte versteht und Antworten generiert. Sie benötigen einen API-Schlüssel.

Erstellen Sie in Ihrem Projektordner eine Datei namens .env Datei, kopieren Sie den folgenden Text hinein und ersetzen Sie ihn durch Ihre eigenen Schlüsselinformationen.

OPENAI_API_KEY="sk-xxxxxxxxxxxxxxxxxxxxxxxx"
# 如果你使用代理或者第三方服务,还需要配置这个地址
OPENAI_BASE_URL="https://api.your-proxy.com/v1"

III. Methoden der Nutzung

Im Folgenden wird ein komplettes Beispiel für die Bearbeitung eines Dokuments und das Stellen von Fragen mit RAG-Anything beschrieben.

1. vorbereitende Arbeiten

Stellen Sie zunächst sicher, dass Sie RAG-Anything installiert und mit einem API-Schlüssel konfiguriert haben. Bereiten Sie dann ein Dokument vor, mit dem Sie arbeiten möchten, z.B. eine Datei namens report.pdf des Dokuments.

2. das Schreiben von Code

Erstellen Sie eine Python-Datei, zum Beispiel main.pyund kopieren Sie dann den folgenden Code hinein. Dieser Code veranschaulicht den gesamten Prozess von der Konfiguration und Verarbeitung von Dokumenten bis hin zum Stellen von Fragen.

import asyncio
from raganything import RAGAnything, RAGAnythingConfig
from lightrag.llm.openai import openai_complete_if_cache, openai_embed
from lightrag.utils import EmbeddingFunc
# 异步函数是现代Python中处理高并发任务的方式
async def main():
# 1. 设置你的API密钥和代理地址
api_key = "your-api-key" # 替换成你的 OpenAI API Key
base_url = "your-base-url" # 如果有代理,替换成你的代理地址
# 2. 配置 RAG-Anything 的工作方式
config = RAGAnythingConfig(
working_dir="./rag_storage",  # 指定一个文件夹,用来存放处理后的数据
parser="mineru",              # 使用mineru解析器
parse_method="auto",          # 自动判断解析方式
enable_image_processing=True, # 启用图片处理
enable_table_processing=True, # 启用表格处理
)
# 3. 定义与大语言模型交互的函数
# 文本模型,用于生成回答
def llm_model_func(prompt, **kwargs):
return openai_complete_if_cache(
"gpt-4o-mini",
prompt,
api_key=api_key,
base_url=base_url,
**kwargs,
)
# 视觉模型,用于理解图片内容
def vision_model_func(prompt, image_data=None, **kwargs):
return openai_complete_if_cache(
"gpt-4o",
"",
messages=[{"role": "user", "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}}]}],
api_key=api_key,
base_url=base_url,
**kwargs,
)
# 嵌入模型,用于将文本转换成向量,方便计算机理解和检索
embedding_func = EmbeddingFunc(
embedding_dim=3072,
func=lambda texts: openai_embed(
texts, model="text-embedding-3-large", api_key=api_key, base_url=base_url
),
)
# 4. 初始化 RAG-Anything 系统
rag = RAGAnything(
config=config,
llm_model_func=llm_model_func,
vision_model_func=vision_model_func,
embedding_func=embedding_func,
)
# 5. 处理你的文档
# 将 "path/to/your/document.pdf" 替换成你自己的文件路径
await rag.process_document_complete(
file_path="path/to/your/document.pdf", 
output_dir="./output"
)
# 6. 开始提问
print("文档处理完成,现在可以开始提问了。")
# 示例问题:一个纯文本问题
text_result = await rag.aquery(
"请总结一下这份文档的核心观点,并分析图表传达了哪些主要信息?", 
mode="hybrid" # hybrid模式会结合多种方式检索,结果更准
)
print("问题的回答:", text_result)
if __name__ == "__main__":
asyncio.run(main())

3. die Ausführung des Codes

Ändern Sie den Code in der your-api-keyundyour-base-url im Gesang antworten path/to/your/document.pdf Ersetzen Sie sie durch Ihre eigenen aktuellen Informationen. Führen Sie dann diese Datei im Terminal aus:

python main.py

Das Programm lädt zunächst die erforderlichen Modelle herunter und beginnt dann mit dem Parsing der von Ihnen angegebenen Dokumente. Dieser Vorgang kann einige Minuten dauern, je nach Größe und Komplexität des Dokuments. Sobald der Vorgang abgeschlossen ist, druckt es die Antworten auf die von Ihnen gestellten Fragen aus.

Dieses Beispiel zeigt die Hauptanwendung von RAG-Anything. Es unterstützt auch fortgeschrittenere Funktionen, wie die Stapelverarbeitung ganzer Ordner von Dokumenten, die direkte Übergabe von geparsten Inhalten oder das Stellen von Fragen zu bestimmten Bildern oder Tabellen, so dass Sie sich in der offiziellen Dokumentation über diese fortgeschrittenen Anwendungen informieren können.

Anwendungsszenario

  1. akademische Forschung
    RAG-Anything ist in der Lage, diese Dokumente vollständig zu analysieren und hilft den Forschern, Schlüsselinformationen schnell zu finden, Diagramme von experimentellen Ergebnissen zu verstehen und Daten aus verschiedenen Dokumenten zu vergleichen, was die Effizienz der Literaturrecherche und Datenorganisation erheblich verbessert.
  2. Wissensmanagement im Unternehmen
    Unternehmen haben in der Regel eine große Anzahl von technischen Handbüchern, Finanzberichten, Marktanalysen und Präsentationen im Haus. Diese Dokumente sind in verschiedenen Formaten und mit unterschiedlichen Inhalten. RAG-Anything schafft eine einheitliche Wissensdatenbank des Unternehmens, in der Mitarbeiter direkt in natürlicher Sprache Fragen stellen können, wie z.B. "Prüfen Sie das Diagramm der Verkaufsdaten des dritten Quartals des letzten Jahres" oder "Zeigen Sie mir das Diagramm der technischen Architektur des XX-Produkts", und das System wird die relevanten Informationen aus verschiedenen Dokumenten genau finden und präsentieren. Das System ist in der Lage, relevante Informationen aus verschiedenen Dokumenten genau zu finden und zu präsentieren.
  3. Finanz- und Rechtsberufe
    Finanzanalysten und Juristen müssen lange Berichte und Vertragsdokumente lesen, die mit Datentabellen, Klauseln und Diagrammen gefüllt sind. RAG-Anything hilft ihnen, schnell Schlüsseldaten zu extrahieren, spezifische Klauseln in Verträgen zu identifizieren und Tabellen in Finanzberichten zu analysieren, um genauere Entscheidungen zu treffen.
  4. Bildung und Lernen
    Studierende und Lehrende können RAG-Anything nutzen, um mit Lehrbüchern, Kursunterlagen und Lernmaterialien zu arbeiten. Studierende können eine PDF-Datei des Lehrmaterials hochladen und dann Fragen zu den darin enthaltenen Diagrammen und Konzepten stellen, und das System kann detaillierte Erklärungen liefern. Lehrkräfte können damit auch schnell Q&A-Materialien erstellen oder Lehrmittel aus verschiedenen Quellen zusammenstellen.

QA

  1. Wie unterscheidet sich RAG-Anything von anderen normalen RAG-Tools?
    Der größte Unterschied ist, dass RAG-Anything multimodale Inhalte verarbeiten kann. Gewöhnliche RAG-Werkzeuge können in der Regel nur den reinen Text eines Dokuments extrahieren und verstehen, Nicht-Text-Informationen wie Bilder, Tabellen, Formeln usw. werden ignoriert. RAG-Anything hingegen ist speziell dafür ausgelegt, solche Inhalte zu erkennen, Bilder zu lesen und Tabellendaten zu analysieren, wodurch ein umfassenderes Verständnis des gesamten Dokuments und somit genauere und vollständigere Antworten möglich sind.
  2. Warum ist es notwendig, LibreOffice zu installieren, wenn man mit Office-Dokumenten (Word, PPT) arbeitet?
    RAG-Anything selbst analysiert nicht direkt die komplexe Formatierung von Office-Dokumenten, sondern greift auf LibreOffice zurück, eine leistungsstarke Open-Source-Bürosoftware. Es nutzt LibreOffice, um Dateien wie .docx, .pptx usw. in ein Zwischenformat zu konvertieren, das standardisierter ist und mit dem man vor der Inhaltsextraktion und -analyse leichter arbeiten kann. LibreOffice ist also eine Front-End-Abhängigkeit für die Verarbeitung dieser Dateien.
  3. Ist dieses Tool kostenlos? Kostet es etwas, es zu benutzen?
    Das RAG-Anything-Projekt selbst ist quelloffen und kostenlos, und Sie können seinen Code frei herunterladen und verwenden. Allerdings muss es während seines Betriebs APIs für Large Language Models (LLM) und Embedding Models, wie z.B. GPT-4o von OpenAI, aufrufen. Diese API-Dienste werden in der Regel pro Nutzung berechnet. Ihre Kosten ergeben sich also hauptsächlich aus den Kosten für den Aufruf dieser Drittanbieter-APIs.
  4. Kann das Programm mit handschriftlichen Formeln oder unklaren Diagrammen in meinem Dokument umgehen?
    Die Verarbeitungsergebnisse hängen von der Klarheit des Inhalts ab. Bei gedruckten mathematischen Formeln und klaren Diagrammen ist die Erkennungsgenauigkeit hoch. Wenn die Diagramme jedoch sehr unscharf sind oder die Formeln in gekritzelter Handschrift vorliegen, kann das OCR-Modul (Optical Character Recognition) des Systems Schwierigkeiten haben, sie genau zu erkennen, was sich auf das endgültige Verständnis und die Q&A-Ergebnisse auswirken wird.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Neue Veröffentlichungen

zurück zum Anfang

de_DEDeutsch