コード能力の詳細なレビュー
xAIが発表したテクニカル・ホワイトペーパーによると、Grok-2は以下のプログラミング・シナリオにおいて卓越した能力を示している:
- 複雑なアルゴリズムの実装クロード3.5ソネットの78%を上回る82%の合格率を達成。
- クロスランゲージ変換JavaからRustへのコード変換は、GPT-4-Turboの83%よりも大幅に高い91%の機能インテグリティを維持します。
- デバッグ分析73%の隠れたメモリー・リークを自動的に特定・修正し、CodeLlama-70bを15ポイント上回る。
典型的なワークフロー例高速なソートを実装し、マルチスレッド最適化を追加する」と入力すると、Grok-2は、1)標準的な実装を最初に出力し、2)性能のボトルネックとなる主要なポイントをマークし、3)OpenMP/TBBの2つの並列化オプションを与え、4)テストケース生成の提案を行う。
HuggingFace Open LLM Leaderboardのプログラミングの内訳では、Grok-2は68.7ポイントで3位で、GPT-4-Turboと約2.3ポイント差だが、推論は2.1倍速い。
この答えは記事から得たものである。Grok-2: xAIのオープンソースハイブリッドエキスパート大規模言語モデルについて
































