PDF変換マニュアル
MarkPDFDownは、さまざまなシナリオの要件に応じて選択できる柔軟な文書変換方法を提供します:
基本変換モード
- 完全な文書変換::
python main.py < input.pdf > output.mdPDF全体をMarkdownに変換 - ページ遷移の指定::
python main.py 2 5 < input.pdf > output.md2-5ページのみ変換
高度応用プログラム
- バッチファイル::
シェルスクリプトを使用して、ディレクトリ内のすべてのPDFファイルを循環させます:for file in *.pdf; do python main.py < "$file" > "${file%.pdf}.md"; done - ドッカー流::
ローカル環境の設定は避ける:docker run -i -e OPENAI_API_KEY=your_key jorben/markpdfdown < input.pdf > output.md
出力結果の調整
変換されたMarkdownファイルは元のドキュメントを保持します:
- タイトルレベル(#タグ付けにより達成)
- 項目をリストアップする(-または数字マーカーを使う)
- テーブル(Markdownテーブル構文に変換)
ユーザーはmain.pyの処理ロジックを編集することで変換を最適化することができます。
この答えは記事から得たものである。MarkPDFDown: マルチモーダルモデルに基づくPDFからMarkdownへの変換について































