Microsoft独自AI「MAI」シリーズ発表！音声生成と言語モデルの性能を徹底解説

Microsoftが独自開発したAIモデル「MAI（Microsoft AI）」シリーズを発表しました。これまでOpenAIのGPTシリーズに依存してきた同社が、ついに本格的な自社製AIに舵を切る大きな転換点となる発表です。今回公開されたのは、高速音声生成AI「MAI-Voice-1」と大規模言語モデル「MAI-1-preview」の2つのモデルです。

本記事では、MAIシリーズの技術的特徴から実際の使用感、そして今後の展開まで、動画で紹介された内容を詳しく解説していきます。

1 MAI（Microsoft AI）シリーズとは？Microsoftの新たなAI戦略
2 MAI-Voice-1：驚異的な高速音声生成AI
3 競合他社との性能比較：現在のAI業界の状況
- 3.1 各分野での性能トレンド
4 まとめ
5 参考リンク
6 よくある質問（FAQ）
- 6.1 この記事の著者
  - 6.1.1 池田朋弘（監修）

MAI（Microsoft AI）シリーズとは？Microsoftの新たなAI戦略

Microsoft AIのウェブページに表示されたMAI-Voice-1とMAI-1-previewのタイトルとロゴ。 — Microsoftが新たに発表したMAIMicrosoft AIシリーズのロゴとモデル名MAI Voice 1MAI 1 preview

MAI（Microsoft AI）は、Microsoftが独自開発した新世代のAIモデルシリーズです。同社はこれまでPhi-4などのオープンソースモデルで高い評価を得てきましたが、MAIシリーズはそれとは異なるレベルの本格的なAIモデルとして位置づけられています。

Microsoftが掲げるMAIの基本方針は以下の通りです：

世界中の人々への支援：AIを通じて知識のゲートウェイとしての役割を果たす
責任・信頼・個性・専門性：これら4つの要素を兼ね備えたAIの開発
世界トップクラスのインフラ：最高水準のチームと技術基盤による開発体制

今回発表された2つのモデルは、それぞれ異なる領域に特化した設計となっており、Microsoftの包括的なAI戦略の一端を示しています。

MAI-Voice-1：驚異的な高速音声生成AI

MAI-Voice-1は、高表現力で自然な音声生成を実現するAIモデルです。最大の特徴は、その圧倒的な処理速度にあります。1分間の音声をわずか1秒で生成できるという性能は、現在の音声生成AIの中でも群を抜いた高速性を誇ります。

既に実用化されている活用事例

MAI-Voice-1は既に以下のMicrosoftサービスで実装されています：

Copilot Daily：ニュースや天気予報の音声読み上げ機能
Podcast機能：ポッドキャスト形式のディスカッション生成
Copilot Labs：デモ体験環境での提供

Copilot Audio Expressionsのスタイル選択ドロップダウンメニューのスクリーンショット。 — Copilot Audio Expressionsの操作画面Mode Voice Styleのドロップダウンメニューで音声表現をカスタマイズできる

実際にCopilot Labsで体験できる音声サンプルを聞くと、同じ声でも話し方のトーンを大幅に変更できることがわかります。例えば、海賊のキャプテンのような荒々しい口調から、シェイクスピア風の格調高い話し方まで、キャラクター設定に応じて音声の表現を柔軟に変化させることができます。

以下は同じ音声モデルで、スタイルを「Meditation」と「Whisper」に変えている例です。

MAI-1-preview：大規模言語モデルの新たな挑戦

MAI-1-previewは、約5,000億パラメータという大規模な言語モデルです。このモデルの学習には、約15,000台のNVIDIA H100 GPUが使用されており、その規模の大きさがうかがえます。

現在の開発状況と今後の展開

MAI-1-previewについては、以下の展開が予定されています：

LM Arena での公開テスト：性能評価のための公開ベンチマークテストを実施中
テスター向けAPIアクセス：開発者向けのAPI提供を準備中
詳細な性能データ：ベンチマーク結果や具体的な能力指標の公開を予定

LM Arenaを確認したところ、今日（2025年9月1日）時点では、Gemini 2.5 FlashやOpenAI o1に並ぶなかなかの水準でした。

image - 生成AIビジネス活用研究所 — LM ArenaでのMAI 1 Previewの結果スコア1399でなかなかの数値

現時点では詳細な性能データは公開されていませんが、5,000億パラメータという規模から考えると、相当に高い性能を持つモデルであることが予想されます。オープンソースではない商用モデルとして位置づけられており、Microsoftの本格的なAI事業展開の中核を担うモデルになると考えられます。

競合他社との性能比較：現在のAI業界の状況

動画では、LM Arenaでの最新の性能ランキングも紹介されており、現在のAI業界の競争状況が明らかになっています。特に注目すべきは、Google の Gemini 2.5 Pro が多くの分野でGPTを上回る性能を示していることです。

各分野での性能トレンド

分野	トップパフォーマー	特徴
テキスト生成	Gemini 2.5 Pro	GPTを上回る性能を示している
ビジョン（画像理解）	Gemini 2.5 Pro	画像解析能力で高い評価
イメージエディット	Gemini 2.5 Pro	圧倒的な性能差を示している

特にイメージエディット分野では、Gemini 2.5 Proが他のモデルを大きく引き離す「ダントツ」の性能を示しており、画像生成・編集分野での技術革新の速さを物語っています。

このような競争環境の中で、MicrosoftのMAIシリーズがどのような性能を示すかは、今後のベンチマーク結果の公開を待つ必要があります。