共通故障
スキャンされた書籍の図版は、OCRエラーやパスの問題によって失われることがあり、それはMarkdown内の無効な画像リンクという形で現れます。
防護措置
- ルート管理を確保する。
image_dir
パラメーターは相対パスを使う(例えば./images
) - フォーマット・サポートこのツールはPNG/JPGの埋め込みをサポートしており、変換前に画像フォーマットを統一することをお勧めします。
- 質量検査ポストランチェック
images
マークダウンによるフォルダ![]()
ラベル数
回復プログラム
- 使い勝手の悪さを発見
pdfimages -j src.pdf outdir
コマンドでオリジナル画像を抽出する。 - 表形式のコンテンツは次のような場合に推奨される。
screenshot_block=True
パラメーターの全体スクリーンショット - 複雑なイラストは、以下のように適応できる。

手動ラベリング
この答えは記事から得たものである。PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツールについて