Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " Praktische AI-Tutorials

Daten crawlen ist schwierig? Automa Plugin hilft Ihnen leicht!

2025-01-12 833

Leiden Sie unter einem dieser Probleme?"Das manuelle Kopieren und Einfügen von Daten ist zu zeitaufwändig und ineffizient..;"Ich möchte Webseitendaten in großen Mengen sammeln, aber ich weiß nicht, wie man Code schreibt"..;"Ich habe andere Crawler-Tools ausprobiert, aber sie sind zu kompliziert und kostspielig zu erlernen"..;"Ich mache mir Sorgen, dass der Crawler von der Website verbannt wird, und ich weiß nicht, wie ich damit umgehen soll..

Aber keine Sorge! Heute werde ich Ihnen zeigen, wie Sie Automa Dieses Artefakt macht das Crawlen von Daten einfach und effizient!

 

1. automa: Ihr Assistent für die Datenerfassung ohne Code

Übersicht über die Automa-Plugin-Schnittstelle

Automa ist ein leistungsstarkes Automatisierungs-Plugin für Chrome. Es hilft Ihnen dabei"Automatisieren Sie das Surfen im Internet, sammeln Sie Daten in Stapeln, exportieren Sie Daten in verschiedene Formate und richten Sie zeitlich begrenzte Aufgaben ein..

Das Wichtigste:"Sie brauchen überhaupt keinen Code zu schreiben, Sie tun es einfach über die visuelle Schnittstelle!"

 

2. vom Anfänger zum Meister: Drei Schritte zum Data Crawling

Schritt 1: Installation und Grundeinstellung

在 Chrome 商店搜索”Automa”并安装,点击浏览器右上角的 Automa 图标,然后创建新的工作流。

Chrome Store Installationsbildschirm

Standort des Automa-Plugins

Bildschirm zur Erstellung des Workflows

 

Schritt 2: Gestaltung des Arbeitsablaufs

Nehmen Sie als Beispiel das Crawlen von Produktdaten aus dem elektronischen Handel."Kernschritte"Eingeschlossen:"Einstellen der Startseite, Hinzufügen eines Schleifenblocks für das Blättern, Extrahieren von Produktinformationen und schließlich Exportieren von Daten"..

Schritt 3: Ausführen und Optimieren

Um die Stabilität und Effizienz der Datenerhebung zu gewährleisten"Sie müssen eine angemessene Wartezeit festlegen, bis die Seite fertig geladen ist".. Zugleich ist es wichtig, dass"Fügen Sie einen Mechanismus zur Fehlerbehandlung hinzu, um unbeabsichtigte Unterbrechungen zu verhindern.".

 

3. praktischer Fall: kleine Süßkartoffel Hot Post Datenerhebung

Anmerkung zum Automa-Kernkonzept

Bevor wir zur Sache kommen, wollen wir einige grundlegende Konzepte von Automa erläutern:

  1. Arbeitsablauf (Arbeitsablauf): Container für den gesamten Aufgabenablauf
  2. Block: Jedes spezifische Funktionsmodul
  3. Selektor: Ein Werkzeug zur Positionierung von Elementen auf einer Webseite.
  4. Variable: Speichert temporäre Daten.
  5. Auslöser: Eine Bedingung, die einen Workflow initiiert.
  6. Tabelle: Ein Formular zum Sammeln und Ordnen von Daten.

Überblick über die Grundlagen der Workflow-Automatisierung

 

Fallstudien

Schauen wir uns an, wie Automa zur Erfassung von Hot-Notes-Daten verwendet werden kann, und zwar am Beispiel der Little Sweet Potato Hot Notes-Datenerfassung. Im Kern wird der Prozess der manuellen Erfassung nachgeahmt, der dann mit Automa automatisiert wird.

Prozess der Datenerhebung im Kleinen Roten Buch

Sehen wir uns zunächst an, wie man mit Automa Daten aus dem Kleinen Roten Buch sammelt. Der gesamte Prozess gliedert sich in die folgenden Schritte.

Workflows erstellen und Auslöser konfigurieren

创建一个名为”小红书数据收集”的工作流。在触发器(Trigger)中添加一个名为”key_word”的参数,用于输入要搜索的关键词。这个参数的默认值设为”独立开发者”。

Auslöser-Konfiguration

Öffnen Sie die Zielseite und suchen Sie

使用”新建标签页”(New Tab)块打开小红书首页(https://www.xiaohongshu.com/explore)。然后使用表单(Forms)块来定位搜索框。

Wie man Elemente auswählt

  1. Über das folgende Symbol in der Seitenleiste des Dashboards gelangen Sie auf die Seite zur Auswahl der Elemente

    Selektor holen

  2. Wählen Sie das Element auf der Capture-Seite aus und klicken Sie auf die Schaltfläche Kopieren in der oberen rechten Ecke

    Selektor kopieren

  3. Fügen Sie die im vorherigen Schritt ausgewählten Elemente in den Css Selcetor von Automa

    Einfügen-Selektor

Zyklische Datenerhebung

Iterieren Sie durch die Liste der Noten mit dem Block Schleifen-Elemente. Wir müssen den Selektor für die Liste der Noten abrufen:

  1. Klicken Sie auf der Seite mit der Notizliste mit der rechten Maustaste auf ein beliebiges Notizcover
  2. 用 Automa 选择器获取工具获取选择器”.note-item .cover”

zyklische Anordnung

Öffnen Sie den Beitrag und erfahren Sie die Details

In der Schleife müssen wir auf jede Notiz klicken, um zur Detailseite zu gelangen. Hier sind die folgenden Punkte zu beachten.

  1. "Warten auf das Laden der Seite"使用”等待元素”(Wait Element)块,确保页面完全加载:
  2. "Klicken Sie auf das Deckblatt der Notiz.使用”点击元素”(Click Element)块,点击每个笔记封面:
  3. "Warten, bis die Detailseite geladen ist"使用”等待元素”(Wait Element)块,确保详情页面完全加载:

    Schema der offenen Elemente

Die Erfassungsmethode des Datenselektors wird in jeder Schleife erfasst:

  1. KOL 名称: 右键点击作者名称 > 检查 > 复制选择器 “a.name”
  2. 笔记标题: 选择器 “div#detail-title”
  3. 笔记内容: 选择器 “#detail-desc > .note-text > span”
  4. Interaktive Daten.
    • 点赞数: “.left > .like-wrapper > .count”
    • 收藏数: “#note-page-collect-board-guide > .count”
    • 评论数: “.chat-wrapper > .count”

Selektor Beispiel

Daten exportieren

Verwenden Sie schließlich den Block Daten exportieren, um die gesammelten Daten im CSV-Format zu exportieren.

Tipp

  • Wenn der Selektor nicht genau ist, versuchen Sie es mit XPath
  • Fügen Sie eine angemessene Wartezeit für das Laden der Seite hinzu
  • Regelmäßig auf Selektorausfall prüfen
  • Es wird empfohlen, nicht mehr als 20 Daten auf einmal zu erfassen.
  • Kontrollieren Sie die Häufigkeit der Sammlung, sammeln Sie nicht häufig

Der gesamte Arbeitsablauf kann die Datenerfassung durch eine angemessene Verzögerungssteuerung und Selektorpositionierung stabil abschließen. Gleichzeitig ist es durch die parametrisierte Konfiguration bequem, die Erfassungsschlüsselwörter entsprechend den unterschiedlichen Bedürfnissen anzupassen.

4. häufig gestellte Fragen und Lösungen

Dynamischer Selektor erklärt

Wir müssen oft dynamische Selektoren verwenden, wenn wir mehrere ähnliche Elemente sammeln. Dies wollen wir anhand eines praktischen Beispiels lernen.

Nehmen Sie diesen Selektor als Beispiel.

!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover

Dieser Selektor sieht kompliziert aus, deshalb wollen wir ihn Schritt für Schritt aufschlüsseln.

!! Das Präfix ist die spezielle Automa-Syntax für die Verwendung von JavaScript-Selektoren anstelle von CSS-Selektoren, die es uns ermöglicht, flexiblere Auswahlmethoden zu verwenden.

.note-item选择 class 为”note-item”的元素,这通常是列表中的每个帖子容器。

:nth-child()ist ein CSS-Sub-Element-Selektor, der verwendet wird, um Unterelemente an einer bestimmten Stelle auszuwählen, entweder mit Zahlen oder Ausdrücken innerhalb der Klammern.

{{loopData.loopId.$index+1}}den Nagel auf den Kopf treffen{{}}ist die Variablensyntax von Automa, undloopData.loopId.$indexist der aktuelle Index in der Schleife (beginnend bei 0), und+1Das liegt daran, dass:nth-childZählen Sie von 1 an.

.coverWählen Sie das endgültige Zielelement aus, in diesem Fall das Titelbild des Beitrags.

Konfigurieren Sie den Schleifenblock wie folgt.

{
  selector: "!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
  timeout: 5000
}

Warum ist sie so geschrieben? Weil es eine dynamische Positionierung ermöglicht: die

  • 1. Zyklus. .note-item:nth-child(1) .cover
  • 2. Zyklus. .note-item:nth-child(2) .cover
  • 3. Zyklus. .note-item:nth-child(3) .cover
  • 以此类推…

Dadurch wird das Problem der festen Selektoren vermieden: Die

/* 错误写法 */
.note-item .cover  // 会选中所有cover元素

/* 正确写法 */
!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover  // 精确选择当前循环的元素

Wenn Sie sich nicht sicher sind, ob der Selektor korrekt ist, können Sie ihn in der Browserkonsole unter testen.

// 假设当前是第3次循环
document.querySelector('.note-item:nth-child(3) .cover')

Sie können auch die Protokollierungsfunktion des Automa verwenden: die

{
  type: "log",
  message: "当前选择器: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}

Durch diesen dynamischen Selektoransatz können wir das Zielelement in jeder Schleife genau lokalisieren, die Auswahl des falschen Elements vermeiden und die Stabilität und Genauigkeit des Arbeitsablaufs verbessern. Das Schreiben von Selektoren ist einer der kritischsten Teile der Datenerfassung. Die sinnvolle Verwendung von dynamischen Selektoren kann Ihren Arbeitsablauf robuster und zuverlässiger machen.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch