LLM API 負荷試験パフォーマンス評価レポート

8モデル

評価対象

3プロバイダー横断比較

218ms

最優秀平均応答時間

Groq OSS 20B

69.4%

最大エラー率

Azure GPT-5.4 mini

13,089req

最大総リクエスト数

Groq OSS 20B

Risk — 即時対応推奨

Azure GPT-5.4 mini / nano はストレス負荷下においてエラー率がそれぞれ 69.4% / 40.9% に達しており、本番環境での高負荷シナリオへの適用は現時点で推奨しない。レート制限の緩和またはリトライロジックの実装を優先的に検討すること。

Finding — 高性能モデルの確認

Groq OSS 20B / 120B はエラー率 0%・平均応答時間 218ms / 275ms と突出した安定性を示した。スループットも最大 13.1 req/s に達しており、高頻度 API 呼び出しユースケースにおいて最適な選択肢と評価される。

Note — トレードオフの整理

Azure / OpenAI の GPT-5.4（フル）モデルはエラー率を抑制できているが、平均応答時間が 1,959〜3,431ms と長い。コスト・品質要件を加味した上で、ユースケースごとのモデル選定基準を策定することを推奨する。

応答時間比較 avg / p90 / p95（単位：ms）

応答時間分布プロファイル min / med / avg / p90 / p95 / max

総リクエスト数 / スループット棒グラフ：総数、折れ線：req/s

イテレーション平均時間 1イテレーション完了までの所要時間（ms）

エラー率 HTTP 失敗リクエストの割合（%）

チェック成功率ステータス 200 確認 + choices 存在確認（%）

受信データ量単位：MB

送信データ量単位：KB

NOTES

備考

負荷シナリオ（k6 Ramping VUs）

テストツール：k6（Grafana k6）／ 総試験時間：約 150 秒（2.5 分）／ 最大同時接続：20 VU／ リクエスト間隔：各 VU がレスポンス受信後に 0.5〜1.5 秒のランダムスリープ

リクエスト共通パラメータ

max_completion_tokens: 64 ／ temperature: 0.7 ／ HTTP timeout: 90 秒

使用プロンプト（3 種をランダムに選択して送信）

"Write a detailed 500-word essay about the history of artificial intelligence, covering key milestones from the 1950s to the present day."
→ AI の歴史に関する 500 語程度の論述文を生成させる長文タスク
"Explain the concept of quantum entanglement in detail, including its mathematical basis, experimental evidence, and potential applications in quantum computing. Write at least 400 words."
→ 量子もつれの数学的背景・実験的証拠・応用を 400 語以上で説明させる専門的タスク
"Write a short story of at least 300 words about a robot who develops consciousness and must decide whether to reveal this to its creators."
→ 意識に目覚めたロボットを主人公にした 300 語以上の短編小説を生成させる創作タスク

※ いずれも比較的長い出力を要求するプロンプトで、モデルへの推論負荷を意図的に高めるよう設計。実際の出力は max_completion_tokens: 64 で打ち切り、スループット計測に焦点を当てている。