一般的な問題
中国のユーザーは、変換後にコードが文字化けしたり、段落がずれたり、句読点がおかしくなったりすることがよくある。
防護措置
- ドキュメントの前処理元のPDFが、特殊なフォントではなく、標準的な中国語フォント(例:宋体、太字)を使用していることを確認する。
- 環境設定Python環境での中国語フルサポートパッケージのインストール
- パラメタリゼーション設定
export OPENAI_DEFAULT_MODEL=gpt-4-1106-preview(最新モデルは中国語への対応が強化されている) - コーディング・ステートメント出力.mdファイルの1行目に以下を追加する。
---
encoding: utf-8
---
問題スクリーニング
コードが文字化けした場合: 1.filePDFのエンコーディングを確認するコマンド 2.まずは英語のPDFを使ってみて、正常な環境かどうかをテストする 3.OpenAI APIが返す生データを見る。
上級プログラム
1. コ ー ド を変更 し て、 中国語後処理モジ ュ ールを追加 2. 正規表現を使っ て、 よ く あ る 変換エ ラ ーを修正 3. 中国語 PDF 微調節モデルに特化 し た訓練。
この答えは記事から得たものである。MarkPDFDown: マルチモーダルモデルに基づくPDFからMarkdownへの変換について




























