Leiden Sie unter einem dieser Probleme?"Das manuelle Kopieren und Einfügen von Daten ist zu zeitaufwändig und ineffizient..;"Ich möchte Webseitendaten in großen Mengen sammeln, aber ich weiß nicht, wie man Code schreibt"..;"Ich habe andere Crawler-Tools ausprobiert, aber sie sind zu kompliziert und kostspielig zu erlernen"..;"Ich mache mir Sorgen, dass der Crawler von der Website verbannt wird, und ich weiß nicht, wie ich damit umgehen soll..
Aber keine Sorge! Heute werde ich Ihnen zeigen, wie Sie Automa Dieses Artefakt macht das Crawlen von Daten einfach und effizient!
1. automa: Ihr Assistent für die Datenerfassung ohne Code

Übersicht über die Automa-Plugin-Schnittstelle
Automa ist ein leistungsstarkes Automatisierungs-Plugin für Chrome. Es hilft Ihnen dabei"Automatisieren Sie das Surfen im Internet, sammeln Sie Daten in Stapeln, exportieren Sie Daten in verschiedene Formate und richten Sie zeitlich begrenzte Aufgaben ein..
Das Wichtigste:"Sie brauchen überhaupt keinen Code zu schreiben, Sie tun es einfach über die visuelle Schnittstelle!"
2. vom Anfänger zum Meister: Drei Schritte zum Data Crawling
Schritt 1: Installation und Grundeinstellung
在 Chrome 商店搜索”Automa”并安装,点击浏览器右上角的 Automa 图标,然后创建新的工作流。

Chrome Store Installationsbildschirm

Standort des Automa-Plugins

Bildschirm zur Erstellung des Workflows
Schritt 2: Gestaltung des Arbeitsablaufs
Nehmen Sie als Beispiel das Crawlen von Produktdaten aus dem elektronischen Handel."Kernschritte"Eingeschlossen:"Einstellen der Startseite, Hinzufügen eines Schleifenblocks für das Blättern, Extrahieren von Produktinformationen und schließlich Exportieren von Daten"..
Schritt 3: Ausführen und Optimieren
Um die Stabilität und Effizienz der Datenerhebung zu gewährleisten"Sie müssen eine angemessene Wartezeit festlegen, bis die Seite fertig geladen ist".. Zugleich ist es wichtig, dass"Fügen Sie einen Mechanismus zur Fehlerbehandlung hinzu, um unbeabsichtigte Unterbrechungen zu verhindern.".
3. praktischer Fall: kleine Süßkartoffel Hot Post Datenerhebung
Anmerkung zum Automa-Kernkonzept
Bevor wir zur Sache kommen, wollen wir einige grundlegende Konzepte von Automa erläutern:
- Arbeitsablauf (Arbeitsablauf): Container für den gesamten Aufgabenablauf
- Block: Jedes spezifische Funktionsmodul
- Selektor: Ein Werkzeug zur Positionierung von Elementen auf einer Webseite.
- Variable: Speichert temporäre Daten.
- Auslöser: Eine Bedingung, die einen Workflow initiiert.
- Tabelle: Ein Formular zum Sammeln und Ordnen von Daten.

Überblick über die Grundlagen der Workflow-Automatisierung
Fallstudien
Schauen wir uns an, wie Automa zur Erfassung von Hot-Notes-Daten verwendet werden kann, und zwar am Beispiel der Little Sweet Potato Hot Notes-Datenerfassung. Im Kern wird der Prozess der manuellen Erfassung nachgeahmt, der dann mit Automa automatisiert wird.

Prozess der Datenerhebung im Kleinen Roten Buch
Sehen wir uns zunächst an, wie man mit Automa Daten aus dem Kleinen Roten Buch sammelt. Der gesamte Prozess gliedert sich in die folgenden Schritte.
Workflows erstellen und Auslöser konfigurieren
创建一个名为”小红书数据收集”的工作流。在触发器(Trigger)中添加一个名为”key_word”的参数,用于输入要搜索的关键词。这个参数的默认值设为”独立开发者”。

Auslöser-Konfiguration
Öffnen Sie die Zielseite und suchen Sie
使用”新建标签页”(New Tab)块打开小红书首页(https://www.xiaohongshu.com/explore)。然后使用表单(Forms)块来定位搜索框。
Wie man Elemente auswählt
- Über das folgende Symbol in der Seitenleiste des Dashboards gelangen Sie auf die Seite zur Auswahl der Elemente
Selektor holen
- Wählen Sie das Element auf der Capture-Seite aus und klicken Sie auf die Schaltfläche Kopieren in der oberen rechten Ecke
Selektor kopieren
- Fügen Sie die im vorherigen Schritt ausgewählten Elemente in den Css Selcetor von Automa
Einfügen-Selektor
Zyklische Datenerhebung
Iterieren Sie durch die Liste der Noten mit dem Block Schleifen-Elemente. Wir müssen den Selektor für die Liste der Noten abrufen:
- Klicken Sie auf der Seite mit der Notizliste mit der rechten Maustaste auf ein beliebiges Notizcover
- 用 Automa 选择器获取工具获取选择器”.note-item .cover”

zyklische Anordnung
Öffnen Sie den Beitrag und erfahren Sie die Details
In der Schleife müssen wir auf jede Notiz klicken, um zur Detailseite zu gelangen. Hier sind die folgenden Punkte zu beachten.
- "Warten auf das Laden der Seite"使用”等待元素”(Wait Element)块,确保页面完全加载:
- "Klicken Sie auf das Deckblatt der Notiz.使用”点击元素”(Click Element)块,点击每个笔记封面:
- "Warten, bis die Detailseite geladen ist"使用”等待元素”(Wait Element)块,确保详情页面完全加载:
Schema der offenen Elemente
Die Erfassungsmethode des Datenselektors wird in jeder Schleife erfasst:
- KOL 名称: 右键点击作者名称 > 检查 > 复制选择器 “a.name”
- 笔记标题: 选择器 “div#detail-title”
- 笔记内容: 选择器 “#detail-desc > .note-text > span”
- Interaktive Daten.
- 点赞数: “.left > .like-wrapper > .count”
- 收藏数: “#note-page-collect-board-guide > .count”
- 评论数: “.chat-wrapper > .count”

Selektor Beispiel
Daten exportieren
Verwenden Sie schließlich den Block Daten exportieren, um die gesammelten Daten im CSV-Format zu exportieren.
Tipp
- Wenn der Selektor nicht genau ist, versuchen Sie es mit XPath
- Fügen Sie eine angemessene Wartezeit für das Laden der Seite hinzu
- Regelmäßig auf Selektorausfall prüfen
- Es wird empfohlen, nicht mehr als 20 Daten auf einmal zu erfassen.
- Kontrollieren Sie die Häufigkeit der Sammlung, sammeln Sie nicht häufig
Der gesamte Arbeitsablauf kann die Datenerfassung durch eine angemessene Verzögerungssteuerung und Selektorpositionierung stabil abschließen. Gleichzeitig ist es durch die parametrisierte Konfiguration bequem, die Erfassungsschlüsselwörter entsprechend den unterschiedlichen Bedürfnissen anzupassen.
4. häufig gestellte Fragen und Lösungen
Dynamischer Selektor erklärt
Wir müssen oft dynamische Selektoren verwenden, wenn wir mehrere ähnliche Elemente sammeln. Dies wollen wir anhand eines praktischen Beispiels lernen.
Nehmen Sie diesen Selektor als Beispiel.
!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover
Dieser Selektor sieht kompliziert aus, deshalb wollen wir ihn Schritt für Schritt aufschlüsseln.
!!
Das Präfix ist die spezielle Automa-Syntax für die Verwendung von JavaScript-Selektoren anstelle von CSS-Selektoren, die es uns ermöglicht, flexiblere Auswahlmethoden zu verwenden.
.note-item
选择 class 为”note-item”的元素,这通常是列表中的每个帖子容器。
:nth-child()
ist ein CSS-Sub-Element-Selektor, der verwendet wird, um Unterelemente an einer bestimmten Stelle auszuwählen, entweder mit Zahlen oder Ausdrücken innerhalb der Klammern.
{{loopData.loopId.$index+1}}
den Nagel auf den Kopf treffen{{}}
ist die Variablensyntax von Automa, undloopData.loopId.$index
ist der aktuelle Index in der Schleife (beginnend bei 0), und+1
Das liegt daran, dass:nth-child
Zählen Sie von 1 an.
.cover
Wählen Sie das endgültige Zielelement aus, in diesem Fall das Titelbild des Beitrags.
Konfigurieren Sie den Schleifenblock wie folgt.
{
selector: "!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover",
timeout: 5000
}
Warum ist sie so geschrieben? Weil es eine dynamische Positionierung ermöglicht: die
- 1. Zyklus.
.note-item:nth-child(1) .cover
- 2. Zyklus.
.note-item:nth-child(2) .cover
- 3. Zyklus.
.note-item:nth-child(3) .cover
- 以此类推…
Dadurch wird das Problem der festen Selektoren vermieden: Die
/* 错误写法 */
.note-item .cover // 会选中所有cover元素
/* 正确写法 */
!!.note-item:nth-child({{loopData.loopId.$index+1}}) .cover // 精确选择当前循环的元素
Wenn Sie sich nicht sicher sind, ob der Selektor korrekt ist, können Sie ihn in der Browserkonsole unter testen.
// 假设当前是第3次循环
document.querySelector('.note-item:nth-child(3) .cover')
Sie können auch die Protokollierungsfunktion des Automa verwenden: die
{
type: "log",
message: "当前选择器: .note-item:nth-child({{loopData.loopId.$index+1}}) .cover"
}
Durch diesen dynamischen Selektoransatz können wir das Zielelement in jeder Schleife genau lokalisieren, die Auswahl des falschen Elements vermeiden und die Stabilität und Genauigkeit des Arbeitsablaufs verbessern. Das Schreiben von Selektoren ist einer der kritischsten Teile der Datenerfassung. Die sinnvolle Verwendung von dynamischen Selektoren kann Ihren Arbeitsablauf robuster und zuverlässiger machen.