みなさんこんにちは。ときか姉です♪
イーロン・マスク氏率いるX(旧Twitter)社が、新しい生成AIを発表しました(2024年3月17日)。
その名も”Grok-1″ (produced by xAI)
発表は2023年11月5日に発表されていましたが、4ヶ月後の公開という運びになりました。
以下、Grok-1の特徴です。
無償・オープンソース
商用利用を含めて、誰でも使用・修正・配布可能なオープンソース(Apache-2.0 license)です。Githubより入手可能です。
ネットワーク構成
Grok-1は上記Githubよりダウンロード可能で、アーキテクチャと重みがすべて公開されています。
ベースはMixture-of-Expers (MoE)です。大量のテキストデータで学習済みですが、Fine-tuning前となっています。
MoEは”エキスパート”と呼ばれる独立したネットワークの集合体からなるモデルです。
タスクに対して最適なエキスパートが選択されるしくみになっていて、計算効率が高まります。
エキスパート以外のネットワークを使わずに済むためです。
トレーニングデータの詳細については残念ながら公開されていません。
私見ですが、今後はアーキテクチャやパラメータは公開し、トレーニングデータを秘匿するという流れになっていきそうかなと思っています。
性能
4つのベンチマークテストにおいて、Grok-0では負けていたGPT3.5を上回りました。
残念ながらGPT4には及ばず、GPT3.5 < Grok-1 < GPT4、という関係になっています。
ベンチマークテストは以下の4種です。
https://x.ai/blog/grok
- GSM8k: Middle school math word problems, (Cobbe et al. 2021), using the chain-of-thought prompt.
- MMLU: Multidisciplinary multiple choice questions, (Hendrycks et al. 2021), provided 5-shot in-context examples.
- HumanEval: Python code completion task, (Chen et al. 2021), zero-shot evaluated for pass@1.
- MATH: Middle school and high school mathematics problems written in LaTeX, (Hendrycks et al. 2021), prompted with a fixed 4-shot prompt.
ざっくりいうと、GSM8Kは算数の文章題、MMLUはクイズのような選択問題、HumanEvalはPythonコード生成、MATHは競技数学です。
後継モデル”Grok-1.5″
後継モデルとしてGrok-1.5が2024年3月29日に公開されています。
上記ベンチマークのうち、すべてにおいて前モデルのGrok-1を上回りました。
全体的にGPT-4を越えるには至りませんでしたが、かなり肉迫し、HumanEvalのみとうとう凌駕しました。
まとめ
LLM界隈の仁義なき戦いは今度どう収束していくのか注目です。
収束というより民主化・多様化がさらにすすむのでしょう。
♪♪♪ Have a nice coding day ♪♪♪