Microsoft独自AI「MAI」シリーズ発表!音声生成と言語モデルの性能を徹底解説 - 生成AIビジネス活用研究所

Microsoft独自AI「MAI」シリーズ発表!音声生成と言語モデルの性能を徹底解説

Microsoft独自AI「MAI」シリーズ発表!音声生成と言語モデルの性能を徹底解説

Microsoftが独自開発したAIモデル「MAI(Microsoft AI)」シリーズを発表しました。これまでOpenAIのGPTシリーズに依存してきた同社が、ついに本格的な自社製AIに舵を切る大きな転換点となる発表です。今回公開されたのは、高速音声生成AI「MAI-Voice-1」と大規模言語モデル「MAI-1-preview」の2つのモデルです。

本記事では、MAIシリーズの技術的特徴から実際の使用感、そして今後の展開まで、動画で紹介された内容を詳しく解説していきます。

MAI(Microsoft AI)シリーズとは?Microsoftの新たなAI戦略

Microsoft AIのウェブページに表示されたMAI-Voice-1とMAI-1-previewのタイトルとロゴ。
Microsoftが新たに発表したMAIMicrosoft AIシリーズのロゴとモデル名MAI Voice 1MAI 1 preview

MAI(Microsoft AI)は、Microsoftが独自開発した新世代のAIモデルシリーズです。同社はこれまでPhi-4などのオープンソースモデルで高い評価を得てきましたが、MAIシリーズはそれとは異なるレベルの本格的なAIモデルとして位置づけられています。

Microsoftが掲げるMAIの基本方針は以下の通りです:

  • 世界中の人々への支援:AIを通じて知識のゲートウェイとしての役割を果たす
  • 責任・信頼・個性・専門性:これら4つの要素を兼ね備えたAIの開発
  • 世界トップクラスのインフラ:最高水準のチームと技術基盤による開発体制

今回発表された2つのモデルは、それぞれ異なる領域に特化した設計となっており、Microsoftの包括的なAI戦略の一端を示しています。

MAI-Voice-1:驚異的な高速音声生成AI

MAI-Voice-1は、高表現力で自然な音声生成を実現するAIモデルです。最大の特徴は、その圧倒的な処理速度にあります。1分間の音声をわずか1秒で生成できるという性能は、現在の音声生成AIの中でも群を抜いた高速性を誇ります。

既に実用化されている活用事例

MAI-Voice-1は既に以下のMicrosoftサービスで実装されています:

  • Copilot Daily:ニュースや天気予報の音声読み上げ機能
  • Podcast機能:ポッドキャスト形式のディスカッション生成
  • Copilot Labs:デモ体験環境での提供
Copilot Audio Expressionsのスタイル選択ドロップダウンメニューのスクリーンショット。
Copilot Audio Expressionsの操作画面Mode Voice Styleのドロップダウンメニューで音声表現をカスタマイズできる

実際にCopilot Labsで体験できる音声サンプルを聞くと、同じ声でも話し方のトーンを大幅に変更できることがわかります。例えば、海賊のキャプテンのような荒々しい口調から、シェイクスピア風の格調高い話し方まで、キャラクター設定に応じて音声の表現を柔軟に変化させることができます。

以下は同じ音声モデルで、スタイルを「Meditation」と「Whisper」に変えている例です。

MAI-1-preview:大規模言語モデルの新たな挑戦

MAI-1-previewは、約5,000億パラメータという大規模な言語モデルです。このモデルの学習には、約15,000台のNVIDIA H100 GPUが使用されており、その規模の大きさがうかがえます。

現在の開発状況と今後の展開

MAI-1-previewについては、以下の展開が予定されています:

  • LM Arena での公開テスト:性能評価のための公開ベンチマークテストを実施中
  • テスター向けAPIアクセス:開発者向けのAPI提供を準備中
  • 詳細な性能データ:ベンチマーク結果や具体的な能力指標の公開を予定

LM Arenaを確認したところ、今日(2025年9月1日)時点では、Gemini 2.5 FlashやOpenAI o1に並ぶなかなかの水準でした。

LM ArenaでのMAI 1 Previewの結果スコア1399でなかなかの数値

現時点では詳細な性能データは公開されていませんが、5,000億パラメータという規模から考えると、相当に高い性能を持つモデルであることが予想されます。オープンソースではない商用モデルとして位置づけられており、Microsoftの本格的なAI事業展開の中核を担うモデルになると考えられます。

競合他社との性能比較:現在のAI業界の状況

動画では、LM Arenaでの最新の性能ランキングも紹介されており、現在のAI業界の競争状況が明らかになっています。特に注目すべきは、Google の Gemini 2.5 Pro が多くの分野でGPTを上回る性能を示していることです。

各分野での性能トレンド

分野トップパフォーマー特徴
テキスト生成Gemini 2.5 ProGPTを上回る性能を示している
ビジョン(画像理解)Gemini 2.5 Pro画像解析能力で高い評価
イメージエディットGemini 2.5 Pro圧倒的な性能差を示している

特にイメージエディット分野では、Gemini 2.5 Proが他のモデルを大きく引き離す「ダントツ」の性能を示しており、画像生成・編集分野での技術革新の速さを物語っています。

このような競争環境の中で、MicrosoftのMAIシリーズがどのような性能を示すかは、今後のベンチマーク結果の公開を待つ必要があります。

まとめ

MicrosoftのMAIシリーズ発表は、AI業界における新たな競争の幕開けを告げる重要な出来事です。主要なポイントを以下にまとめます:

  • MAI-Voice-1:1分間の音声を1秒で生成する高速音声生成AI。既にCopilot DailyやPodcast機能で実用化済み
  • MAI-1-preview:約5,000億パラメータの大規模言語モデル。15,000台のH100 GPUで学習し、LM Arenaでの公開テストを予定
  • 競争環境:Google Gemini 2.5 Proが多くの分野でトップ性能を示す中、Microsoftの独自路線が注目される

MAIシリーズの本格的な性能評価は、今後のベンチマーク結果や実際の利用体験を通じて明らかになっていくでしょう。特に音声生成分野では、すでに実用レベルの高い性能を示しており、今後のAIアプリケーション開発において重要な選択肢となることが期待されます。

参考リンク

本記事の内容は、以下の資料も参考にしています:

📺 この記事の元となった動画です

よくある質問(FAQ)

Q1 MAI-Voice-1はどんなことができますか?

MAI-Voice-1は、Microsoftが開発した高速音声生成AIです。1分間の音声をわずか1秒で生成できる処理速度が特徴で、ニュースの読み上げ、ポッドキャストの生成、キャラクターになりきった音声表現など、多様な音声コンテンツを作成できます。Copilot Labsで実際に体験可能です。

Q2 MAI-1-previewはどんな言語モデルですか?

MAI-1-previewは、約5,000億パラメータを持つ大規模言語モデルです。15,000台のNVIDIA H100 GPUを使用して学習されており、高い性能が期待されています。現在はテスター向けのAPIアクセスが準備中で、性能評価のための公開ベンチマークテストも予定されています。

Q3 MAI-Voice-1はどこで体験できますか?

MAI-Voice-1は、Microsoft Copilot Labsで体験できます。Copilot Labsでは、インタラクティブストーリーの生成、キャラクター音声の作成、音声スタイルの実験など、様々な機能を通じてMAI-Voice-1の性能を試すことができます。

Q4 MicrosoftのMAIシリーズは、AI業界にどのような影響を与えますか?

Microsoftが独自AIモデルであるMAIシリーズの開発に注力することで、AI業界全体の競争が激化すると予想されます。特に、高速音声生成AIのMAI-Voice-1は、リアルタイム音声生成アプリケーションの可能性を広げ、開発者にとって新たな選択肢を提供します。

Q5 MAI-1-previewの今後の展開はどうなりますか?

MAI-1-previewは、性能評価のためのLM Arenaでの公開テスト、開発者向けのAPI提供、詳細な性能データの公開が予定されています。これらの情報公開を通じて、MAI-1-previewの具体的な性能や活用方法が明らかになっていくでしょう。


この記事の著者

池田朋弘のプロフィール写真

池田朋弘(監修)

Workstyle Evolution代表。18万人超YouTuber&『ChatGPT最強の仕事術』著者。

株式会社Workstyle Evolution代表取締役。YouTubeチャンネル「いけともch(チャンネル)」では、 AIエージェント時代の必須ノウハウ・スキルや、最新AIツールの活用法を独自のビジネス視点から解説し、 チャンネル登録数は18万人超(2025年7月時点)。

著書:ChatGPT最強の仕事術』(4万部突破)、 『Perplexity 最強のAI検索術』、 『Mapify 最強のAI理解術

合わせて読みたい
関連記事

公式LINEで最新ニュースをゲット

LINE登録の無料特典
LINE登録の無料特典
icon

最新のAIニュース
毎週お届け

icon

生成AIの業務別の
ビジネス活用シーン

がわかるAIチャット

icon

過去のAIニュースから
事実を確認できる
何でもAI相談チャット

icon

ニュース動画
アーカイブ

ページトップへ