AI Sheets ist ein Open-Source-Tool von Hugging Face. Benutzer können Datensätze mit KI-Modellen erstellen, anreichern und transformieren, ohne Code zu schreiben. Es unterstützt die lokale Bereitstellung oder die Ausführung auf dem Hugging Face Hub. Das Tool stellt eine Verbindung zu Tausenden von Open-Source-Modellen im Hugging Face Hub her und greift über Inferenzprovider auf sie zu. Benutzer können auch lokale Modelle verwenden, darunter gpt-oss von OpenAI. Die Schnittstelle ist so einfach wie eine Tabellenkalkulation. Die Benutzer erstellen neue Spalten, indem sie Prompts schreiben, und können schnell mit kleinen Datensätzen experimentieren, bevor sie auf große Pipelines skalieren. Der Schwerpunkt des Tools liegt auf der Iteration, wobei die Benutzer Zellen bearbeiten oder Ergebnisse validieren, um dem Modell etwas beizubringen. Im Kern nutzt es KI zur Verarbeitung von Daten, von der Klassifizierung bis zur Erzeugung synthetischer Daten. Ideal für das Testen von Modellen, die Verbesserung von Hinweisen und die Analyse von Datensätzen. Exportiert die Ergebnisse in den Hub und generiert auch Konfigurationen zur Skalierung der Datengenerierung.
Funktionsliste
- Die Datensätze werden von Grund auf neu generiert: Sie geben Beschreibungen in natürlicher Sprache ein, und die KI erstellt automatisch Strukturen und Beispielzeilen, z. B. Städtelisten mit Ländern und Bildern von Wahrzeichen.
- Datenimport und -verarbeitung: Hochladen von XLS-, TSV-, CSV- oder Parkettdateien, Unterstützung von bis zu 1000 Zeilen, unbegrenzte Anzahl von Spalten, Möglichkeit zur Bearbeitung und Erweiterung von Daten.
- KI-Spalten hinzufügen: Erstellen Sie neue Spalten mit Aufforderungen wie "Informationen extrahieren", "Text zusammenfassen", "Inhalt übersetzen" oder "Benutzerdefinierte Aktionen" und verweisen Sie dabei auf vorhandene Spalten wie {{Spalte}}.
- Modellauswahl und -wechsel: Wählen Sie ein Modell und einen Anbieter aus dem Hugging Face Hub, z. B. meta-llama/Llama-3.3-70B-Instruct oder openai/gpt-oss-120b, um die unterschiedlichen Leistungen zu testen.
- Feedback-Mechanismus: Wenn Sie Zellen manuell bearbeiten oder gute Ergebnisse mögen, werden diese als Beispiele mit wenigen Aufnahmen verwendet, um die Ausgabe bei der Neugenerierung zu verbessern.
- Web-Suchschalter: Wenn er aktiviert ist, bezieht das Modell aktuelle Informationen aus dem Internet, z. B. um die Postleitzahl einer Adresse zu finden; wenn er deaktiviert ist, wird nur das Modellwissen verwendet.
- Datenerweiterung: Ziehen und Ablegen von Spalten, um mehr Zeilen ohne Neugenerierung zu erzeugen; zum Beheben von Fehlern oder Hinzufügen von Daten.
- In Hub exportieren: Speichert den Datensatz und die YAML-Konfigurationsdatei zur Wiederverwendung von Prompts oder zur Erstellung eines größeren Datensatzes durch Skripting.
- Modellvergleich und -bewertung: Erstellen Sie mehrere Spalten, um verschiedene Modelle zu testen und die Qualität der Ergebnisse zu vergleichen, indem Sie den LLM als Beurteilungsspalte verwenden.
- Synthetische Datengenerierung: Erstellen Sie virtuelle Datensätze wie z. B. berufliche E-Mails auf der Grundlage von Biografien.
- Datenkonvertierung und -bereinigung: Entfernen von Satzzeichen oder standardisiertem Text mit Eingabeaufforderungen.
- Datenklassifizierung und -analyse: Kategorisierung von Inhalten oder Extraktion von Schlüsselideen.
- Datenanreicherung: Ergänzung fehlender Informationen, z. B. Hinzufügen einer Postleitzahl oder Erstellen einer Beschreibung.
- Bilderzeugung: Erstellen von Bildspalten mit Modellen wie black-forest-labs/FLUX.1-dev, die bestimmte Stile unterstützen.
Hilfe verwenden
Die Nutzung von AI Sheets beginnt mit dem Start der Anwendung. Die Benutzer haben zwei Möglichkeiten, darauf zuzugreifen: Online-Testversion oder lokale Installation. Für die Online-Testversion ist keine Installation erforderlich. Rufen Sie https://huggingface.co/spaces/aisheets/sheets auf. Melden Sie sich bei Ihrem Hugging Face-Konto an. Holen Sie sich HF_TOKEN von https://huggingface.co/settings/tokens. Wenn die Schnittstelle erscheint, wählen Sie, ob Sie einen neuen Datensatz erstellen oder bestehende Daten importieren möchten.
Die Erstellung eines Datensatzes von Grund auf eignet sich für die erstmalige Einarbeitung in das Tool, für Brainstorming oder schnelle Experimente. Klicken Sie auf die Option Erzeugen. Geben Sie eine Beschreibung in den Eingabebereich ein, z. B. "Liste der Städte in der Welt, einschließlich des Landes und Bilder im Ghibli-Stil von jedem Wahrzeichen". ai Sheets erstellt ein Schema und 5 Beispielzeilen. Das Ergebnis hat Spalten wie Stadt, Land und Bild. Ziehen Sie den unteren Rand der Spalten, um weitere Zeilen zu erzeugen, bis zu 1000. Ändern Sie die Eingabeaufforderung, um die Struktur neu zu generieren. Geben Sie Zellen manuell ein und ziehen Sie sie per Drag & Drop, um weitere Spalten zu ergänzen.
Der Import eines Datensatzes wird für die meisten Situationen empfohlen. Das Dateiformat für den Upload ist XLS, TSV, CSV oder Parquet. Die Datei muss mindestens einen Spaltennamen und eine Zeile mit Daten enthalten. Nach dem Hochladen werden die Daten in einer Tabelle angezeigt. Leeren Zellen können Sie manuell Einträge hinzufügen. Die Schnittstelle ist wie eine Tabellenkalkulation, und die importierten Zellen können bearbeitet werden, aber sie können nicht von AI geändert werden.AI generierte Zellen können reproduziert werden.
Das Hinzufügen einer neuen Spalte ist der wichtigste Vorgang. Klicken Sie auf die Schaltfläche +. Wählen Sie empfohlene Aktionen wie "Informationen extrahieren", "Text zusammenfassen", "Übersetzen" oder benutzerdefinierte Eingabeaufforderungen wie "Zusätzliche Satzzeichen aus {{text}} entfernen". {{text}} verweist auf eine bestehende Spalte. Konfigurieren Sie das Modell, z.B. wählen Sie meta-llama/Llama-3.3-70B-Instruct, mit einem Anbieter wie groq. Schalten Sie Suche: Aktivieren Sie das Abrufen von Webdaten, z.B. "Finde Postleitzahl für {{address}}". Nach der Erstellung der Spalten können Sie die Ergebnisse anzeigen.
Verfeinern Sie Datensätze durch Feedback und Konfiguration. Bearbeiten Sie KI-Zellen manuell, um Beispiele für die bevorzugte Ausgabe zu liefern. Tippen Sie auf "Gute Ergebnisse" mit "Daumen hoch". Diese dienen als Beispiele. Klicken Sie auf "Neu generieren", um sie auf alle Spalten anzuwenden. Passen Sie Prompts an, z. B. ändern Sie "Kategorie {{Text}}" in eine spezifischere Version. Wechseln Sie die Modelle, um die Leistung zu testen, z. B. von groq Verschiedene Modelle eignen sich für unterschiedliche Aufgaben wie kreative oder strukturierte Ausgabe. Anbieter beeinflussen Geschwindigkeit und Kontextlänge.
Erweitern Sie Daten durch Ziehen und Ablegen. Ziehen Sie von der letzten Zelle einer Spalte nach unten, um sofort eine neue Zeile zu erzeugen. Keine Neugenerierung erforderlich. Diese Methode wird auch verwendet, um falsche Zellen zu korrigieren.
In Hub exportieren, um Ihre Arbeit zu speichern. Klicken Sie auf Exportieren. Das Dataset und die Datei config.yml werden generiert. Die Datei enthält Spaltenkonfigurationen, Eingabeaufforderungen und Modelldetails. Die Beispielkonfiguration hat Spaltenschlüssel, die modelName, userPrompt, etc. für jede Spalte auflisten. Nach dem Hochladen kann die Datei im Hub angezeigt werden, z. B. unter https://huggingface.co/datasets/dvilasuero/nemotron-personas-kimi-questions.
Erzeugen Sie größere Datensätze mit HF Jobs. config und Skripte sind erforderlich. Befehle wie: hf jobs uv run -s HF_TOKEN=$HF_TOKEN https://huggingface.co/datasets/aisheets/uv-scripts/raw/main/extend_dataset/script.py -config https://huggingface.co/datasets/dvilasuero/nemotron-personas-kimi-questions/raw/main/config.yml -num -rows 100 nvidia/Nemotron-Personas dvilasuero/nemotron-kimi-qa-distilled. Geben Sie die Anzahl der Zeilen an oder lassen Sie sie leer, um alle Zeilen zu erzeugen.
Lokale Installation von GitHub. https://github.com/huggingface/aisheets klonen. HF_TOKEN einrichten. mit Docker: export HF_TOKEN=dein_token_hier; docker run -p 3000:3000 -e HF_ TOKEN=$HF_TOKEN huggingface/sheets. visit http://localhost:3000. with pnpm: install pnpm, clone repository, export HF_TOKEN, pnpm install, pnpm dev. visit http:// localhost:5173. Produktions-Builds: pnpm build, pnpm serve.
Beginnen Sie mit einem maßgeschneiderten LLM wie Ollama. Ollama server: export OLLAMA_NOHISTORY=1; ollama serve; ollama run llama3. set MODEL_ENDPOINT_URL=http://localhost:11434, MODEL_ENDPOINT_NAME=llama3 Führen Sie die App aus. Die Anpassungen müssen mit der OpenAI-API übereinstimmen. Die Bilderzeugung ist mit der Hugging Face API festgelegt.
Die erweiterte Konfiguration verwendet Umgebungsvariablen.OAUTH_CLIENT_ID für die Authentifizierung.DEFAULT_MODEL zum Ändern des Standardmodells.NUM_CONCURRENT_REQUESTS zur Steuerung der Gleichzeitigkeit, Standardwert 5.SERPER_API_KEY zur Aktivierung der Suche.DATA_DIR zur Festlegung des Datenverzeichnisses.
Beispiel für ein operationelles Verfahren: Testen des Modells. Importieren Sie den Datensatz mit Prompts. Fügen Sie Spalten wie "Antwort: {{prompt}}" hinzu und wählen Sie verschiedene Modelle aus. Fügen Sie Beurteilungsspalten hinzu wie "Evaluate {{prompt}} for response 1: {{model1}}, response 2: {{model2}}". Prüfen Sie manuell oder verwenden Sie LLM zur Optimierung.
Kategorisierter Datensatz: Laden Sie einen Textdatensatz hoch. Fügen Sie die Spalte "Kategorisieren Sie die Hauptthemen von {{Text}}" hinzu. Schlechte Ergebnisse bearbeiten, gute markieren, neu generieren.
Daten synthetisieren: Erstellen Sie die Spalte "Schreiben Sie eine kurze Beschreibung einer Fachkraft in einem Pharmaunternehmen". E-Mail-Spalte hinzufügen "Schreiben Sie eine echte berufliche E-Mail von {{Person_bio}}".
Analyse: Spalte "Schlüsselideen aus {{Text}} extrahieren" hinzufügen.
Anreicherung: Spalte "Postleitzahl von {{Adresse}} finden" hinzufügen, um die Suche zu ermöglichen.
Diese Schritte machen den Einstieg für die Nutzer einfach. Das Tool betont das Experimentieren und die Iteration, um die Datenqualität zu gewährleisten.
Anwendungsszenario
- Modellprüfung und Vergleich
Die Benutzer möchten das neueste Modell an ihren eigenen Daten ausprobieren. Importieren Sie einen Datensatz mit Fragen. Erstellen Sie mehrere Spalten, die jeweils mit einem anderen Modell beantwortet werden. Fügen Sie Beurteilungsspalten hinzu, um die Qualität mit LLM zu vergleichen. Ideal für Entwickler, um das beste Modell auszuwählen. - Queue-Optimierung
Erstellen einer Anwendung zur automatischen Beantwortung von Kundenanfragen. Laden Sie einen Beispielanfragedatensatz. Iterieren Sie über verschiedene Eingabeaufforderungen und Modelle, um Antworten zu generieren. Bearbeiten Sie Zellen, um Feedback zu geben und fügen Sie automatisch Beispiele mit wenigen Bildern hinzu. Ideal für die Erstellung effizienter Prompts. - Datenbereinigung und -konvertierung
Die Datensatzspalten enthalten unvollständigen Text. Fügen Sie neue Spalten mit Aufforderungen zum Entfernen von Interpunktion oder Normalisieren hinzu. Schnelle Verarbeitung von großen Datenmengen. Ideal für Datenwissenschaftler zur Vorverarbeitung. - Klassifizierung der Daten
Kategorisieren Sie den Inhalt wie im Thema der Frage. Fügen Sie Spalten hinzu, die mit Aufforderungen kategorisiert sind. Manuelle Validierung und Regenerierung verbessern die Genauigkeit. Ideal für die Analyse von Hub-Datensätzen. - Datenanalyse und -extraktion
Extrahieren Sie die Hauptgedanken des Textes. Fügen Sie Spalten für Zusammenfassungen oder Extraktionen mit Aufforderungen hinzu. Aktivieren Sie die Suche, um Informationen in Echtzeit abzurufen. Ideal für Forschungsprojekte. - Datenreichtum
Fügen Sie fehlende Angaben wie Adresse und Postleitzahl hinzu. Spalten mit Hinweisen hinzufügen, Websuche aktivieren. Gewährleistet genaue Ergänzungen. Geeignet für vollständige Datensätze. - Erzeugung synthetischer Daten
Wahrung der Privatsphäre bei virtuellen Daten wie E-Mails. Erzeugen Sie Biospalten und generieren Sie darauf basierende Inhalte. Gut zum Testen oder Prototyping.
QA
- Welche Modelle werden von AI Sheets unterstützt?
Open-Source-Modelle, die Hugging Face Hub unterstützen, sind über Inference Providers verfügbar, ebenso wie lokale Modelle wie gpt-oss oder eine benutzerdefinierte LLM, die mit der OpenAI-API konform ist. - Wie erzeugt man Bildspalten?
Verwenden Sie eine Eingabeaufforderung wie "Erzeugen Sie ein isometrisches Symbol für {{Objektname}}", wählen Sie ein Bildmodell wie black-forest-labs/FLUX.1-dev. Behoben mit Hugging Face API. - Wie funktioniert das Feedback?
Bearbeiten Sie AI-Zellen oder Likes. Diese werden zu Beispielen mit wenigen Aufnahmen. Auf Spalten bei der Regeneration anwenden. - Wie kann ich nach dem Exportieren erweitern?
HF Jobs mit config.yml und Skripten ausführen. die Anzahl der Zeilen angeben, um einen größeren Datensatz zu erzeugen. - Ist ein Abonnement erforderlich?
Kostenlose Online-Testversion. 20-fache Nutzung mit PRO-Abonnement für lokale oder mehr Begründungen. - Wie hoch ist die Datenobergrenze?
Hochladen oder Erstellen von bis zu 1000 Zeilen. Unbegrenzte Anzahl von Spalten. Erweitern Sie noch mehr mit Jobs. - Wie kann ich die Websuche aktivieren?
In der Spalte Konfigurationsschalter schalten Sie die Suche um.