
2025/08/15(金)
Microsoftが独自開発したAIモデル「MAI(Microsoft AI)」シリーズを発表しました。これまでOpenAIのGPTシリーズに依存してきた同社が、ついに本格的な自社製AIに舵を切る大きな転換点となる発表です。今回公開されたのは、高速音声生成AI「MAI-Voice-1」と大規模言語モデル「MAI-1-preview」の2つのモデルです。
本記事では、MAIシリーズの技術的特徴から実際の使用感、そして今後の展開まで、動画で紹介された内容を詳しく解説していきます。
目次
MAI(Microsoft AI)は、Microsoftが独自開発した新世代のAIモデルシリーズです。同社はこれまでPhi-4などのオープンソースモデルで高い評価を得てきましたが、MAIシリーズはそれとは異なるレベルの本格的なAIモデルとして位置づけられています。
Microsoftが掲げるMAIの基本方針は以下の通りです:
今回発表された2つのモデルは、それぞれ異なる領域に特化した設計となっており、Microsoftの包括的なAI戦略の一端を示しています。
MAI-Voice-1は、高表現力で自然な音声生成を実現するAIモデルです。最大の特徴は、その圧倒的な処理速度にあります。1分間の音声をわずか1秒で生成できるという性能は、現在の音声生成AIの中でも群を抜いた高速性を誇ります。
MAI-Voice-1は既に以下のMicrosoftサービスで実装されています:
実際にCopilot Labsで体験できる音声サンプルを聞くと、同じ声でも話し方のトーンを大幅に変更できることがわかります。例えば、海賊のキャプテンのような荒々しい口調から、シェイクスピア風の格調高い話し方まで、キャラクター設定に応じて音声の表現を柔軟に変化させることができます。
以下は同じ音声モデルで、スタイルを「Meditation」と「Whisper」に変えている例です。
MAI-1-previewは、約5,000億パラメータという大規模な言語モデルです。このモデルの学習には、約15,000台のNVIDIA H100 GPUが使用されており、その規模の大きさがうかがえます。
MAI-1-previewについては、以下の展開が予定されています:
LM Arenaを確認したところ、今日(2025年9月1日)時点では、Gemini 2.5 FlashやOpenAI o1に並ぶなかなかの水準でした。
現時点では詳細な性能データは公開されていませんが、5,000億パラメータという規模から考えると、相当に高い性能を持つモデルであることが予想されます。オープンソースではない商用モデルとして位置づけられており、Microsoftの本格的なAI事業展開の中核を担うモデルになると考えられます。
動画では、LM Arenaでの最新の性能ランキングも紹介されており、現在のAI業界の競争状況が明らかになっています。特に注目すべきは、Google の Gemini 2.5 Pro が多くの分野でGPTを上回る性能を示していることです。
分野 | トップパフォーマー | 特徴 |
テキスト生成 | Gemini 2.5 Pro | GPTを上回る性能を示している |
ビジョン(画像理解) | Gemini 2.5 Pro | 画像解析能力で高い評価 |
イメージエディット | Gemini 2.5 Pro | 圧倒的な性能差を示している |
特にイメージエディット分野では、Gemini 2.5 Proが他のモデルを大きく引き離す「ダントツ」の性能を示しており、画像生成・編集分野での技術革新の速さを物語っています。
このような競争環境の中で、MicrosoftのMAIシリーズがどのような性能を示すかは、今後のベンチマーク結果の公開を待つ必要があります。
MicrosoftのMAIシリーズ発表は、AI業界における新たな競争の幕開けを告げる重要な出来事です。主要なポイントを以下にまとめます:
MAIシリーズの本格的な性能評価は、今後のベンチマーク結果や実際の利用体験を通じて明らかになっていくでしょう。特に音声生成分野では、すでに実用レベルの高い性能を示しており、今後のAIアプリケーション開発において重要な選択肢となることが期待されます。
本記事の内容は、以下の資料も参考にしています:
MAI-Voice-1は、Microsoftが開発した高速音声生成AIです。1分間の音声をわずか1秒で生成できる処理速度が特徴で、ニュースの読み上げ、ポッドキャストの生成、キャラクターになりきった音声表現など、多様な音声コンテンツを作成できます。Copilot Labsで実際に体験可能です。
MAI-1-previewは、約5,000億パラメータを持つ大規模言語モデルです。15,000台のNVIDIA H100 GPUを使用して学習されており、高い性能が期待されています。現在はテスター向けのAPIアクセスが準備中で、性能評価のための公開ベンチマークテストも予定されています。
MAI-Voice-1は、Microsoft Copilot Labsで体験できます。Copilot Labsでは、インタラクティブストーリーの生成、キャラクター音声の作成、音声スタイルの実験など、様々な機能を通じてMAI-Voice-1の性能を試すことができます。
Microsoftが独自AIモデルであるMAIシリーズの開発に注力することで、AI業界全体の競争が激化すると予想されます。特に、高速音声生成AIのMAI-Voice-1は、リアルタイム音声生成アプリケーションの可能性を広げ、開発者にとって新たな選択肢を提供します。
MAI-1-previewは、性能評価のためのLM Arenaでの公開テスト、開発者向けのAPI提供、詳細な性能データの公開が予定されています。これらの情報公開を通じて、MAI-1-previewの具体的な性能や活用方法が明らかになっていくでしょう。
Workstyle Evolution代表。18万人超YouTuber&『ChatGPT最強の仕事術』著者。
株式会社Workstyle Evolution代表取締役。YouTubeチャンネル「いけともch(チャンネル)」では、 AIエージェント時代の必須ノウハウ・スキルや、最新AIツールの活用法を独自のビジネス視点から解説し、 チャンネル登録数は18万人超(2025年7月時点)。