Performance Evaluation Report

LLM API 負荷試験 パフォーマンス評価レポート

生成 AI プロバイダー比較 ― Azure OpenAI / OpenAI / Groq(8モデル対象)
Published by
MakeSomethingNew
makesomethingnew.jp
試験ツールk6 Stress Test
最大仮想ユーザー数20 VUs
対象プロバイダーAzure OpenAI / OpenAI / Groq
Section 01

エグゼクティブサマリー

8モデル
評価対象
3プロバイダー横断比較
218ms
最優秀 平均応答時間
Groq OSS 20B
69.4%
最大エラー率
Azure GPT-5.4 mini
13,089req
最大 総リクエスト数
Groq OSS 20B
Risk — 即時対応推奨

Azure GPT-5.4 mini / nano はストレス負荷下においてエラー率がそれぞれ 69.4% / 40.9% に達しており、本番環境での高負荷シナリオへの適用は現時点で推奨しない。レート制限の緩和またはリトライロジックの実装を優先的に検討すること。

Finding — 高性能モデルの確認

Groq OSS 20B / 120B はエラー率 0%・平均応答時間 218ms / 275ms と突出した安定性を示した。スループットも最大 13.1 req/s に達しており、高頻度 API 呼び出しユースケースにおいて最適な選択肢と評価される。

Note — トレードオフの整理

Azure / OpenAI の GPT-5.4(フル)モデルはエラー率を抑制できているが、平均応答時間が 1,959〜3,431ms と長い。コスト・品質要件を加味した上で、ユースケースごとのモデル選定基準を策定することを推奨する。

Section 02

モデル別パフォーマンス概要

Section 03

応答時間分析

応答時間比較 avg / p90 / p95(単位:ms)
応答時間分布プロファイル min / med / avg / p90 / p95 / max
Section 04

スループット・リクエスト処理能力

総リクエスト数 / スループット 棒グラフ:総数、折れ線:req/s
イテレーション平均時間 1イテレーション完了までの所要時間(ms)
Section 05

信頼性・エラー分析

エラー率 HTTP 失敗リクエストの割合(%)
チェック成功率 ステータス 200 確認 + choices 存在確認(%)
Section 06

データ転送量

受信データ量 単位:MB
送信データ量 単位:KB
Section 07

詳細メトリクス一覧

モデルプロバイダー 総リクエスト数 スループット (req/s) エラー率 チェック成功率 avg (ms) med (ms) p90 (ms) p95 (ms) min (ms) max (ms) iter avg (ms)
NOTES

備考

負荷シナリオ(k6 Ramping VUs)
フェーズ 時間 VU 数 内容
ランプアップ 0 〜 30 秒 0 → 20 VU 仮想ユーザーを段階的に増加
負荷維持 30 〜 120 秒(90 秒間) 20 VU 一定 ピーク負荷を維持しパフォーマンスを計測
クールダウン 120 〜 150 秒 20 → 0 VU 負荷を徐々に解放
テストツール:k6(Grafana k6)/ 総試験時間:約 150 秒(2.5 分)/ 最大同時接続:20 VU/ リクエスト間隔:各 VU がレスポンス受信後に 0.5〜1.5 秒のランダムスリープ
リクエスト共通パラメータ
max_completion_tokens: 64  /  temperature: 0.7  /  HTTP timeout: 90 秒
使用プロンプト(3 種をランダムに選択して送信)
  1. "Write a detailed 500-word essay about the history of artificial intelligence, covering key milestones from the 1950s to the present day."
    → AI の歴史に関する 500 語程度の論述文を生成させる長文タスク
  2. "Explain the concept of quantum entanglement in detail, including its mathematical basis, experimental evidence, and potential applications in quantum computing. Write at least 400 words."
    → 量子もつれの数学的背景・実験的証拠・応用を 400 語以上で説明させる専門的タスク
  3. "Write a short story of at least 300 words about a robot who develops consciousness and must decide whether to reveal this to its creators."
    → 意識に目覚めたロボットを主人公にした 300 語以上の短編小説を生成させる創作タスク
※ いずれも比較的長い出力を要求するプロンプトで、モデルへの推論負荷を意図的に高めるよう設計。実際の出力は max_completion_tokens: 64 で打ち切り、スループット計測に焦点を当てている。