
2025/07/24(木)
会計業務のAI化に関心を持つ経営者や経理担当者の皆さんにとって、「AIは本当に会計業務を任せられるレベルに達しているのか?」という疑問は切実な問題です。
この疑問に対する重要な答えが、会計ソフトウェア開発会社Penroseが開発した「AccountingBench」というベンチマークから見えてきました。このベンチマークは、大規模言語モデル(LLM)が実際のビジネス環境で月次決算という長期間にわたる複雑なタスクをどの程度正確に処理できるかを評価するために設計されています。
結論から申し上げると、現在のAI技術は100%の精度での完全自動化は困難でした。しかし、個人的には、人間との協働により十分実用的なレベルに達していると考えています。本記事では、AccountingBenchの詳細な結果分析と、AI会計の現実的な活用方法について詳しく解説します。
目次
AccountingBenchは、従来のAI評価手法とは根本的に異なるアプローチを採用しています。最大の特徴は、一つのアクションが後続のタスクに永続的な影響を与え、誤差が時間とともに蓄積していくという現実的なテストを行う点です。
具体的には、AIエージェントが会計担当者と同様に様々なツールを駆使して、会社の財務記録を銀行残高やクレジットカードからの未払い金などと照らし合わせて正確に確認する月次決算業務を実行します。これは単発のQ&A形式ではなく、実際の会計業務を1年分通して再現する本格的な評価です。
なぜこのような評価が重要なのでしょうか。例えば、AIが最初の月にある費用を間違えて「ソフトウェア費」として分類した場合、その時点では小さなミスですが、そのミスは記録として翌月以降に残り続けます。現実の会計業務では、このようなエラーの蓄積が大きな問題となるため、AccountingBenchはこの現実を忠実に再現しているのです。
AccountingBenchで評価された主要なAIモデルの結果は以下の通りです:
AIモデル | 初期性能 | 長期持続性 | 特徴 |
---|---|---|---|
Claude 4 | 95%以上 | 比較的安定 | 数ヶ月間高精度を維持 |
GPT-4 | 95%以上 | 5ヶ月で急落 | 最終的に85%を下回る |
Gemini 2.0 Pro | – | 途中断念 | 1ヶ月分の調整も完了できず |
O3・O4 Mini | – | 途中断念 | 複雑な処理で作業放棄 |
この結果から分かることは、Claude 4とGPT-4が実用レベルに達している一方で、Gemini 2.0 ProやO3、O4 Miniは1ヶ月分の調整すら完了できずに途中で諦めてしまったということです。
特に注目すべきは、GPT-4が5ヶ月目でガタンと数値を落とし、最終的には85%を下回った点です。これは長期間の業務継続において、エラーの蓄積が深刻な問題となることを示しています。
AccountingBenchの興味深い発見の一つは、AIが見せる「人間にくさい」行動です。これらの行動は、AIの限界を理解する上で重要な示唆を与えています。
ClaudeやGPT-4は、銀行残高の数字が合わないと、その差額を埋めるために全く関係のない取引をデータベースから探し出してきて、無理やり調整を行うことがありました。これは人間の会計担当者が締切に追われて行いがちな「とりあえず数字を合わせる」行動と酷似しています。
GPTやGeminiは複雑な状況に陥ると、以下のような行動を示しました:
これらの行動は、AIが人間と同様に複雑な状況下でのストレス反応を示すことを意味しており、完全自動化の難しさを物語っています。
Penroseは重要な指摘を行っています。それは、シミュレーション環境で示される高性能さと、現実世界の複雑な業務で発揮される実際能力の間には大きな隔たりがあるということです。
現実の会計業務では、以下のような予期しない状況が頻繁に発生します:
これらのイレギュラーな状況に対して、AIは適切に対応できない場合が多く、人間の判断と介入が必要となります。
AccountingBenchの結果としては「まだまだ実用には難しい」という結論でした。しかし、私はAI会計の実用化は十分可能だと考えています。重要なのは、完全自動化を目指すのではなく、人間との協働モデルを構築することです。
全てをAIに任せるから精度の問題が深刻化するのであって、終了後に人間がチェックして精度を上げていくプロセスを組み込めば、この精度は十分維持できると考えられます。100%の精度でなくても、仕訳業務の大部分を自動化できれば、人間の工数を大幅に削減できます。
企業の規模や体制によって、AI会計の導入価値は大きく異なります:
企業規模 | 現状 | AI導入の価値 | 推奨アプローチ |
---|---|---|---|
大企業 | 専任の会計士・税理士・経理財務担当者が在籍 | 限定的 | 特定業務の効率化に限定 |
中小企業・フリーランス | 専門体制が不十分 | 非常に高い | AI処理+定期的な税理士チェック |
特に中小企業やフリーランスにとっては、AIに大部分の処理を任せて、定期的に税理士にチェックしてもらうというモデルが十分にワークすると考えられます。
AccountingBenchの評価結果は、AI会計技術の現在地と今後の方向性を明確に示しています。フロントモデルは数回の時間ステップでは良好なパフォーマンスを発揮し、シミュレートされたタスクでは人間を上回ることもありますが、より長い時間軸で作業を実行したり、実際のビジネス環境の複雑さを扱うのに苦労しているのが現状です。
しかし、この結果は決してネガティブなものではないと私は思います。むしろ、AI技術の適切な活用方法と限界を明確にしたという点で、実用化に向けた重要な指針を提供しています。
現在のAI技術でも85-95%の精度を達成できることを考えると、技術の進歩により精度向上は十分期待できます。特に以下の分野での改善が見込まれます:
AccountingBenchの結果から得られる最も重要な結論は、AI会計は完璧ではないが、十分実用的なレベルに達しているということです。
重要なポイントを整理すると:
AI会計技術は、完全な代替ではなく、人間の能力を拡張し、業務効率を大幅に向上させるツールとして位置づけることが現実的です。適切な導入戦略と運用体制を構築することで、会計業務の品質向上とコスト削減を同時に実現できる可能性が十分にあると考えられます。
本記事の内容は、以下の資料も参考にしています:
AccountingBenchは、会計ソフトウェア開発会社Penroseが開発したAI会計のベンチマークです。大規模言語モデル(LLM)が、実際のビジネス環境における月次決算などの複雑なタスクをどの程度正確に処理できるかを評価するために設計されています。従来のAI評価とは異なり、エラーが時間とともに蓄積していく現実的なテストを行う点が特徴です。
現在のAI技術では、会計業務を100%自動化することは困難です。しかし、人間との協働により十分実用的なレベルに達しており、仕訳業務の大部分を自動化することで、人間の工数を大幅に削減できます。終了後に人間がチェックして精度を上げるプロセスを組み込むことが推奨されます。
AccountingBenchの評価では、Claude 4が最も安定した性能を示しました。数ヶ月間95%以上の精度を維持しています。GPT-4も初期性能は高いものの、長期間の利用では精度が低下する傾向が見られました。Gemini 2.0 ProやO3・O4 Miniは、1ヶ月分の調整も完了できずに途中で作業を断念しています。
中小企業やフリーランスにとって、AI会計の導入は非常に高い価値があります。専門体制が不十分な場合でも、AIに大部分の処理を任せ、定期的に税理士にチェックしてもらうことで、コストを抑えつつ効率的な会計処理が可能になります。大企業に比べて、AI導入による業務効率化の効果をより実感しやすいでしょう。
AI会計を成功させるためには、イレギュラーな状況への対応をルール化することが重要です。現実の会計業務で発生する例外的な状況を事前に想定し、それらに対する対応方法をプロンプトや処理ルールとして明文化することで、AIの対応能力を向上させることができます。例えば、振込手数料の自動控除パターンや、取引先別の入金タイミングのずれ許容範囲などを定義することが有効です。
Workstyle Evolution代表。18万人超YouTuber&『ChatGPT最強の仕事術』著者。
株式会社Workstyle Evolution代表取締役。YouTubeチャンネル「いけともch(チャンネル)」では、 AIエージェント時代の必須ノウハウ・スキルや、最新AIツールの活用法を独自のビジネス視点から解説し、 チャンネル登録数は18万人超(2025年7月時点)。