ウェブコンテンツ抽出の3つのステップ
pure.mdは最小限の操作プロセスで設計されている:
- 基本フォーマットターゲットURLの前に挿入
pure.md/接頭辞は、例えば、次のように置き換えます。https://example.comに変えるhttps://pure.md/https://example.com - 加工リンクへのアクセスブラウザのアドレスバーに変更したURLを入力し、次のページにアクセスします。
- 結果を出す: システムは自動的に以下の要素を含むMarkdownを返します:
- クリーニングされたボディ
- 予約の段落階層
- 主要なメタデータ(タイトル、著者など)
注:複雑なページ(ダイナミックローディングやクローリング対策を含む)を扱う場合は、追加のリクエストヘッダーパラメーターについて公式ドキュメントを参照することをお勧めします。
この答えは記事から得たものである。pure.md:URLの前に "pure.md/"を挿入して、きれいなテキストを取り出す。について































