海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

強化学習最適化版Seed-X-7Bが基本命令モデルを上回る翻訳性能を発揮

2025-08-20 267

PPO最適化によるパフォーマンスのブレークスルー

Seed-Xチームは、強化学習のProximal Policy Optimisation (PPO)アルゴリズムで基本命令モデルを深くチューニングし、その結果、Seed-X-PPO-7Bのバージョンは、多くのメトリクスでSeed-X-Instruct-7Bを大幅に上回るようになりました。15.2%、用語精度は22.7%向上しており、低リソース言語(例:キスワヒリ語)を扱う場合に特に有利である。

この強化は、PPOアルゴリズムによる翻訳ストラテジーの継続的な最適化に起因しています。モデルは、流暢さ、忠実さ、用語の正確さなど、複数の次元で即座にフィードバック報酬を受け取り、数回の反復を通じて最適な翻訳ストラテジーを学習します。例えば、電子商取引の商品説明の翻訳では、PPOバージョンは、仕様の正確な変換(例えば、「5W-40」モーターオイルの番号)をよりよく維持することができ、同時に、文化的に特異な表現(例えば、「賞味期限」は、各国の慣習的な表現に対応しています。)(例えば、「賞味期限」は各国の慣習的な表現に対応する)。

そのモデルの重みと推論コードは、Hugging Faceハブを通じて直接アクセスすることができ、ベースバージョンと完全に互換性のある方法でデプロイされる。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

新着情報

トップに戻る

ja日本語