Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Qwen-Image-Edit ist ein vom Alibaba Tongyi Qianqian-Team entwickeltes KI-Modell zur Bildbearbeitung. Es wurde auf dem Qwen-Image-Modell mit 20 Milliarden Parametern trainiert und seine Kernfunktion besteht darin, den Nutzern zu ermöglichen, Bilder durch einfache chinesische oder englische Textbefehle zu verändern. Das Modell nutzt sowohl das visuelle semantische Verständnis als auch die Kontrolle des visuellen Erscheinungsbildes, so dass der Editor sowohl hochrangige Befehle verstehen kann (z. B. "Ändere den Hintergrund in die Antarktis") als auch feinkörnige lokale Änderungen vornehmen kann (z. B. "Entferne Haarsträhnen"), während der Rest des Bildes unverändert bleibt. während der Rest des Bildes so unverändert wie möglich bleibt. Eine der herausragenden Eigenschaften des Modells ist seine leistungsstarke Textbearbeitungsfunktion, die es ermöglicht, chinesische und englische Schriftzeichen im Bild direkt zu ändern und dabei den ursprünglichen Schriftstil beizubehalten. Das Modell ist derzeit auf Hugging Face und anderen Plattformen als Open Source verfügbar und steht unter der Apache 2.0-Lizenz, die eine kommerzielle Nutzung erlaubt.

Erfahrung Adresse:

QWEN CHAT

https://modelscope.cn/models/Qwen/Qwen-Image-Edit

 

Funktionsliste

  • semantischer EditorUnterstützt fortgeschrittene Änderungen, die ein Gesamtverständnis des Bildes voraussetzen. Zum Beispiel die Umwandlung eines Porträts in einen bestimmten künstlerischen Stil (z. B. Ghibli-Anime-Stil), das Drehen des Blickwinkels eines Objekts in einem Bild (sogar um 180 Grad) oder die Erstellung eines Bildes einer IP-Figur (z. B. eines Maskottchens) in einem anderen Szenario und Stil unter Beibehaltung ihrer Eigenschaften.
  • Erscheinungsbild-EditorDie Bildbearbeitung konzentriert sich auf präzise Änderungen an bestimmten Bereichen eines Bildes, wobei der Rest des Bildes unverändert bleibt. Beispiele sind das Hinzufügen neuer Objekte zu einer Szene (z. B. ein Schild), das Entfernen unerwünschter Elemente (z. B. Unordnung oder winzige Haarsträhnen), das Ändern der Kleidung einer Figur oder des Hintergrunds usw.
  • Präzise TextbearbeitungChinesische und englische Schriftzeichen können direkt auf dem Bild hinzugefügt, gelöscht oder geändert werden, wobei Schriftart, Größe und Stil des Originals beibehalten werden.
  • Ketten-EditorEs unterstützt die kontinuierliche Änderung von Bildern durch mehrere Runden und progressive Befehle, um schrittweise den endgültigen gewünschten Effekt zu erzielen. Zum Beispiel können Sie in der erzeugten Kalligraphiearbeit die falschen oder unbefriedigenden Zeichen korrigieren, indem Sie sie nacheinander einrahmen.

Hilfe verwenden

Das Qwen-Image-Edit-Modell kann direkt auf Plattformen wie Hugging Face und AliCloud Hundred Refinements verwendet werden und unterstützt auch die lokale Bereitstellung über Code oder Tools wie ComfyUI.

1. online bei Hugging Face Space

Das ist der einfachste und unkomplizierteste Weg, um sie zu erleben, und erfordert keine Programmierkenntnisse.

  • Zugang zur Modellseite: Öffnen Sie die Homepage von Qwen-Image-Edit unter Hugging Face (https://huggingface.co/Qwen/Qwen-Image-Edit).
  • Suche nach der ArgumentationsschnittstelleSuchen Sie "Dieses Modell verwenden" oder eine ähnliche Schnittstelle auf der Seite.
  • Originalbild hochladenAuf der Benutzeroberfläche wird ein Bereich zum Hochladen von Bildern angezeigt. Klicken Sie auf "Bilddatei hierher ziehen oder auf durchsuchen von Ihrem Gerät", um das Bild hochzuladen, das Sie bearbeiten möchten.
  • Geben Sie den BearbeitungsbefehlIn dem Textfeld (normalerweise mit "Eingabeaufforderung" oder ähnlich beschriftet) beschreiben Sie Ihren Änderungswunsch in einfachem, direktem Chinesisch oder Englisch. Geben Sie zum Beispiel "Change the rabbit's color to purple, with a flash light background."(Ändern Sie die Farbe des Kaninchens in lila und den Hintergrund in einen Blitz).
  • Bild generierenKlicken Sie auf die Schaltfläche "Berechnen" oder "Erzeugen" und warten Sie, bis das Modell verarbeitet wurde. Nach der Verarbeitung wird das neu bearbeitete Bild im Ausgabebereich angezeigt. Sie können das Bild direkt speichern, indem Sie es mit der rechten Maustaste anklicken.

2. durch Python-Code (diffusersBibliothek) unter Verwendung von

Wenn Sie über einige Programmierkenntnisse verfügen, können Sie Hugging Face'sdiffusersBibliothek, um das Modell aufzurufen, was mehr Flexibilität bietet.

  • Installationsumgebung: Stellen Sie zunächst sicher, dass Sie die erforderlichen Python-Bibliotheken installiert haben.
    pip install torch transformers diffusers accelerate
    

    Um die neuesten Modellierungsfunktionen zu nutzen, empfiehlt es sich, diese direkt von GitHub zu installieren!diffusers.

    pip install git+https://github.com/huggingface/diffusers
    
  • Schreiben Sie den aufrufenden CodeDas Folgende ist ein einfaches Beispiel für die Verwendung.
    import os
    from PIL import Image
    import torch
    from diffusers import QwenImageEditPipeline
    # 从Hugging Face Hub加载模型,模型会自动下载
    pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
    # 如果你有可用的GPU,将模型移至GPU以加速计算
    pipeline.to("cuda")
    # 打开本地的原始图片
    image = Image.open("./input.png").convert("RGB")
    # 设定你的编辑指令
    prompt = "把这只熊手里的东西换成画板和画笔"
    # 配置生成参数
    inputs = {
    "image": image,
    "prompt": prompt,
    "generator": torch.manual_seed(0), # 设置随机种子以确保结果可复现
    "true_cfg_scale": 4.0,
    "negative_prompt": " ", # 可以留空或输入不希望出现的内容
    "num_inference_steps": 50, # 推理步数,越高细节可能越好,但耗时越长
    }
    # 执行推理
    with torch.inference_mode():
    output = pipeline(**inputs)
    # 获取并保存生成的图片
    output_image = output.images[0]
    output_image.save("output_image_edit.png")
    print("图片已保存至:", os.path.abspath("output_image_edit.png"))
    

3. verwendet auf der AliCloud Hundred Refinement Platform

Die AliCloud Hundred Refinement Platform bietet API-Aufrufe, die von Entwicklern in ihre Anwendungen integriert werden können.

  • Offener DienstZunächst müssen Sie den Modelldienst in AliCloud Hundred Refinement Platform öffnen und den API-Schlüssel erhalten.
  • Konfiguration der UmgebungKonfigurieren Sie den erworbenen API-Schlüssel in eine Umgebungsvariable und installieren Sie das DashScope SDK (Python- und Java-Unterstützung) nach Bedarf.
  • Aufrufen der APIAufrufen des Modells durch Senden einer HTTP-POST-Anforderung an den angegebenen API-Endpunkt. Der Anforderungskörper muss den Modellnamen enthalten (qwen-image-edit), das Eingabebild (normalerweise im URL-Format) und den Textbefehl.
    Zum Beispiel mit dercurlEin Beispiel für eine Anfrage ist unten abgebildet:

    curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
    --header 'Content-Type: application/json' \
    --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
    --data '{
    "model": "qwen-image-edit",
    "input": {
    "messages": [
    {
    "role": "user",
    "content": [
    { "image": "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg" },
    { "text": "将图中的人物改为站立姿势,弯腰握住狗的前爪" }
    ]
    }
    ]
    },
    "parameters": {}
    }'
    

    Nach erfolgreichem API-Aufruf enthalten die zurückgegebenen Daten die URL des erzeugten Bildes. Beachten Sie, dass die URL eine Gültigkeitsdauer von 24 Stunden hat und rechtzeitig gespeichert werden muss.

Anwendungsszenario

  1. e-Commerce
    Händler können Produktbilder schnell ändern, z. B. den Produkthintergrund an verschiedene Werbemotive anpassen, Bildfehler korrigieren oder die Farbe der Kleidung auf einem Modellbild ändern, ohne dass eine neue Aufnahme gemacht werden muss.
  2. Erstellung von Inhalten für soziale Medien
    Die Nutzer können ihre Fotos ganz einfach mit kreativen Elementen versehen, Hintergründe ändern, Passanten entfernen oder Fotos in bestimmte Stile (z. B. Anime, Ölgemälde) umwandeln, um interessantere Inhalte zu erstellen.
  3. Werbung und Design
    Designer können das Modell nutzen, um schnell erste Entwürfe von Designs und Plakaten zu erstellen. Das Ändern oder Hinzufügen von Werbeslogans und das Anpassen der Farbe und Position von Bildschirmelementen direkt im Bild verbessert die Arbeitseffizienz erheblich.
  4. Persönliche Unterhaltung und IP-Erstellung
    Die Nutzer können Bilder ihrer Haustiere oder Lieblingscharaktere nachbilden, verschiedene Emoticons, Kostüme und Szenen für sie entwerfen und ganz einfach personalisierte IP-Bilder erstellen.

QA

  1. Ist das Modell Qwen-Image-Edit kostenlos?
    Das Modell ist quelloffen und steht unter der Apache-2.0-Lizenz, d. h., Sie können es kostenlos herunterladen und nutzen, und es ist für kommerzielle Zwecke zugelassen. Wenn es über eine Cloud-Service-Plattform wie AliCloud aufgerufen wird, kann eine Gebühr anfallen, die sich nach der Preisstrategie der Plattform richtet.
  2. Welche Art von Bearbeitungsbefehlen kann dieses Modell verarbeiten?
    Es kann zwei Haupttypen von Befehlen verarbeiten: zum einen die "optische Bearbeitung", die sehr spezifisch ist, wie z. B. "färbe diese Blume blau" oder "entferne die Straßenlaterne in der oberen rechten Ecke des Bildes"; zum anderen die "semantische Bearbeitung", die mehr auf Kreativität und Stil ausgerichtet ist, wie z. B. "verwandle dieses Bild in einen Van-Gogh-Stil" oder "mache diese Figur fröhlicher". Bei der "semantischen Bearbeitung" sind die Anweisungen stärker auf Kreativität und Stil ausgerichtet, z. B. "verwandeln Sie dieses Foto in einen Van-Gogh-Stil" oder "lassen Sie diese Figur fröhlicher aussehen". Eine der herausragendsten Fähigkeiten des Programms ist die genaue Bearbeitung von Text in Bildern.
  3. Brauche ich Programmierkenntnisse, um dieses Modell zu nutzen?
    Nicht nötig. Normale Nutzer können die grafische Schnittstelle direkt im Space der Hugging Face Community oder in der Bildbearbeitungsfunktion auf der Tongyiqianqian-Website nutzen, indem sie einfach Bilder hochladen und Text eingeben. Entwickler können den offiziellen Python-Code oder die API-Schnittstelle verwenden, um sie in ihre eigene Anwendung zu integrieren.
  4. Wie unterscheidet es sich von anderen AI-Bildbearbeitungsprogrammen?
    Der Hauptvorteil von Qwen-Image-Edit sind die leistungsstarken chinesischen und englischen Textwiedergabe- und -bearbeitungsfunktionen, die eine direkte und präzise Änderung des Textinhalts im Bild ermöglichen, was mit vielen anderen Modellen nur schwer möglich ist. Darüber hinaus schafft es durch seine einzigartige Dual-Path-Technologie ein gutes Gleichgewicht zwischen der Notwendigkeit, die Details des Originalbildes (Aussehen) zu erhalten, und der Notwendigkeit, kreative Änderungen (Semantik) vorzunehmen.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Neue Veröffentlichungen

zurück zum Anfang

de_DEDeutsch