文字化けしたり、書式がずれたりした中国語のPDF変換を避けるには？

2025-08-28

1.6 K

一般的な問題

中国のユーザーは、変換後にコードが文字化けしたり、段落がずれたり、句読点がおかしくなったりすることがよくある。

ドキュメントの前処理元のPDFが、特殊なフォントではなく、標準的な中国語フォント（例：宋体、太字）を使用していることを確認する。
環境設定Python環境での中国語フルサポートパッケージのインストール
パラメタリゼーション設定export OPENAI_DEFAULT_MODEL=gpt-4-1106-preview(最新モデルは中国語への対応が強化されている）
コーディング・ステートメント出力.mdファイルの1行目に以下を追加する。--- encoding: utf-8 ---

コードが文字化けした場合： 1.filePDFのエンコーディングを確認するコマンド 2.まずは英語のPDFを使ってみて、正常な環境かどうかをテストする 3.OpenAI APIが返す生データを見る。

1. コードを変更して、中国語後処理モジュールを追加 2. 正規表現を使って、よくある変換エラーを修正 3. 中国語 PDF 微調節モデルに特化した訓練。