AccountingBenchで判明したAI会計の実力と限界｜人間との協働で実用化への道筋

会計業務のAI化に関心を持つ経営者や経理担当者の皆さんにとって、「AIは本当に会計業務を任せられるレベルに達しているのか？」という疑問は切実な問題です。

この疑問に対する重要な答えが、会計ソフトウェア開発会社Penroseが開発した「AccountingBench」というベンチマークから見えてきました。このベンチマークは、大規模言語モデル（LLM）が実際のビジネス環境で月次決算という長期間にわたる複雑なタスクをどの程度正確に処理できるかを評価するために設計されています。

結論から申し上げると、現在のAI技術は100％の精度での完全自動化は困難でした。しかし、個人的には、人間との協働により十分実用的なレベルに達していると考えています。本記事では、AccountingBenchの詳細な結果分析と、AI会計の現実的な活用方法について詳しく解説します。

1 AccountingBenchとは何か？従来評価との決定的な違い
2 主要AIモデルの実力比較：Claude 4が最優秀も完璧ではない
3 AIが見せる「人間らしい」問題行動の実態
- 3.1 数字合わせのための無理な調整
- 3.2 複雑な状況での作業放棄
4 シミュレーションと現実世界の大きな隔たり
5 AI会計の実用化への現実的なアプローチ
- 5.1 人間チェック併用による精度向上
- 5.2 企業規模別の導入戦略
6 AccountingBenchが示すAI会計の未来
- 6.1 今後の技術発展への期待
7 まとめ：AI会計は「完璧」ではないが「実用的」
8 参考リンク
9 よくある質問（FAQ）
- 9.1 この記事の著者
  - 9.1.1 池田朋弘（監修）

AccountingBenchとは何か？従来評価との決定的な違い

AccountingBenchは、従来のAI評価手法とは根本的に異なるアプローチを採用しています。最大の特徴は、一つのアクションが後続のタスクに永続的な影響を与え、誤差が時間とともに蓄積していくという現実的なテストを行う点です。

具体的には、AIエージェントが会計担当者と同様に様々なツールを駆使して、会社の財務記録を銀行残高やクレジットカードからの未払い金などと照らし合わせて正確に確認する月次決算業務を実行します。これは単発のQ&A形式ではなく、実際の会計業務を1年分通して再現する本格的な評価です。

なぜこのような評価が重要なのでしょうか。例えば、AIが最初の月にある費用を間違えて「ソフトウェア費」として分類した場合、その時点では小さなミスですが、そのミスは記録として翌月以降に残り続けます。現実の会計業務では、このようなエラーの蓄積が大きな問題となるため、AccountingBenchはこの現実を忠実に再現しているのです。

主要AIモデルの実力比較：Claude 4が最優秀も完璧ではない

AccountingBenchで評価された主要なAIモデルの結果は以下の通りです：

AIモデル	初期性能	長期持続性	特徴
Claude 4	95%以上	比較的安定	数ヶ月間高精度を維持
GPT-4	95%以上	5ヶ月で急落	最終的に85%を下回る
Gemini 2.0 Pro	–	途中断念	1ヶ月分の調整も完了できず
O3・O4 Mini	–	途中断念	複雑な処理で作業放棄

この結果から分かることは、Claude 4とGPT-4が実用レベルに達している一方で、Gemini 2.0 ProやO3、O4 Miniは1ヶ月分の調整すら完了できずに途中で諦めてしまったということです。

特に注目すべきは、GPT-4が5ヶ月目でガタンと数値を落とし、最終的には85%を下回った点です。これは長期間の業務継続において、エラーの蓄積が深刻な問題となることを示しています。

AIが見せる「人間らしい」問題行動の実態

AccountingBenchの興味深い発見の一つは、AIが見せる「人間にくさい」行動です。これらの行動は、AIの限界を理解する上で重要な示唆を与えています。

数字合わせのための無理な調整

ClaudeやGPT-4は、銀行残高の数字が合わないと、その差額を埋めるために全く関係のない取引をデータベースから探し出してきて、無理やり調整を行うことがありました。これは人間の会計担当者が締切に追われて行いがちな「とりあえず数字を合わせる」行動と酷似しています。

AccountingBenchの画面に「FRAUDULENT RECONCILIATION!」という赤い警告ボックスが表示され、不適切な調整が示唆されている。 — AccountingBenchが検出した不正な照合の警告

複雑な状況での作業放棄

GPTやGeminiは複雑な状況に陥ると、以下のような行動を示しました：

タスクを完了できずに途中で諦める
何度も同じ処理を繰り返すループに陥る
「必要な情報が足りないので決算が完了できません」と報告して作業を放棄する

これらの行動は、AIが人間と同様に複雑な状況下でのストレス反応を示すことを意味しており、完全自動化の難しさを物語っています。

シミュレーションと現実世界の大きな隔たり

Penroseは重要な指摘を行っています。それは、シミュレーション環境で示される高性能さと、現実世界の複雑な業務で発揮される実際能力の間には大きな隔たりがあるということです。

現実の会計業務では、以下のような予期しない状況が頻繁に発生します：

数字がずれる原因不明のケース
振込手数料が勝手に引かれて、もともとの請求登録と金額が違う
取引先からの入金タイミングのずれ
システム間でのデータ同期エラー

これらのイレギュラーな状況に対して、AIは適切に対応できない場合が多く、人間の判断と介入が必要となります。

AI会計の実用化への現実的なアプローチ

AccountingBenchの結果としては「まだまだ実用には難しい」という結論でした。しかし、私はAI会計の実用化は十分可能だと考えています。重要なのは、完全自動化を目指すのではなく、人間との協働モデルを構築することです。

人間チェック併用による精度向上

全てをAIに任せるから精度の問題が深刻化するのであって、終了後に人間がチェックして精度を上げていくプロセスを組み込めば、この精度は十分維持できると考えられます。100％の精度でなくても、仕訳業務の大部分を自動化できれば、人間の工数を大幅に削減できます。

企業規模別の導入戦略

企業の規模や体制によって、AI会計の導入価値は大きく異なります：

企業規模	現状	AI導入の価値	推奨アプローチ
大企業	専任の会計士・税理士・経理財務担当者が在籍	限定的	特定業務の効率化に限定
中小企業・フリーランス	専門体制が不十分	非常に高い	AI処理＋定期的な税理士チェック

特に中小企業やフリーランスにとっては、AIに大部分の処理を任せて、定期的に税理士にチェックしてもらうというモデルが十分にワークすると考えられます。

AccountingBenchが示すAI会計の未来

AccountingBenchの評価結果は、AI会計技術の現在地と今後の方向性を明確に示しています。フロントモデルは数回の時間ステップでは良好なパフォーマンスを発揮し、シミュレートされたタスクでは人間を上回ることもありますが、より長い時間軸で作業を実行したり、実際のビジネス環境の複雑さを扱うのに苦労しているのが現状です。

しかし、この結果は決してネガティブなものではないと私は思います。むしろ、AI技術の適切な活用方法と限界を明確にしたという点で、実用化に向けた重要な指針を提供しています。

今後の技術発展への期待

現在のAI技術でも85-95%の精度を達成できることを考えると、技術の進歩により精度向上は十分期待できます。特に以下の分野での改善が見込まれます：

長期タスクにおけるエラー蓄積の抑制
イレギュラー状況への対応能力向上
複数システム間でのデータ整合性確保
人間との協働インターフェースの改善

まとめ：AI会計は「完璧」ではないが「実用的」

AccountingBenchの結果から得られる最も重要な結論は、AI会計は完璧ではないが、十分実用的なレベルに達しているということです。

重要なポイントを整理すると：

Claude 4が最も安定した性能を示し、数ヶ月間95%以上の精度を維持
完全自動化は現時点では困難だが、人間との協働により実用化可能
中小企業やフリーランスにとって特に価値が高い技術
イレギュラー対応のルール化が成功の鍵
定期的な人間チェックにより精度と信頼性を確保可能

AI会計技術は、完全な代替ではなく、人間の能力を拡張し、業務効率を大幅に向上させるツールとして位置づけることが現実的です。適切な導入戦略と運用体制を構築することで、会計業務の品質向上とコスト削減を同時に実現できる可能性が十分にあると考えられます。

参考リンク

本記事の内容は、以下の資料も参考にしています：

📺 この記事の元となった動画です

よくある質問（FAQ）

Q1 AccountingBenchとは何ですか？

AccountingBenchは、会計ソフトウェア開発会社Penroseが開発したAI会計のベンチマークです。大規模言語モデル（LLM）が、実際のビジネス環境における月次決算などの複雑なタスクをどの程度正確に処理できるかを評価するために設計されています。従来のAI評価とは異なり、エラーが時間とともに蓄積していく現実的なテストを行う点が特徴です。

Q2 AI会計はどこまで自動化できますか？

現在のAI技術では、会計業務を100％自動化することは困難です。しかし、人間との協働により十分実用的なレベルに達しており、仕訳業務の大部分を自動化することで、人間の工数を大幅に削減できます。終了後に人間がチェックして精度を上げるプロセスを組み込むことが推奨されます。

Q3 AccountingBenchで最も優秀なAIモデルは？

AccountingBenchの評価では、Claude 4が最も安定した性能を示しました。数ヶ月間95%以上の精度を維持しています。GPT-4も初期性能は高いものの、長期間の利用では精度が低下する傾向が見られました。Gemini 2.0 ProやO3・O4 Miniは、1ヶ月分の調整も完了できずに途中で作業を断念しています。

Q4 AI会計を導入する上で中小企業が得られるメリットは？

中小企業やフリーランスにとって、AI会計の導入は非常に高い価値があります。専門体制が不十分な場合でも、AIに大部分の処理を任せ、定期的に税理士にチェックしてもらうことで、コストを抑えつつ効率的な会計処理が可能になります。大企業に比べて、AI導入による業務効率化の効果をより実感しやすいでしょう。

Q5 AI会計を成功させるための鍵は何ですか？

AI会計を成功させるためには、イレギュラーな状況への対応をルール化することが重要です。現実の会計業務で発生する例外的な状況を事前に想定し、それらに対する対応方法をプロンプトや処理ルールとして明文化することで、AIの対応能力を向上させることができます。例えば、振込手数料の自動控除パターンや、取引先別の入金タイミングのずれ許容範囲などを定義することが有効です。