Azure GPT-5.4 mini / nano はストレス負荷下においてエラー率がそれぞれ 69.4% / 40.9% に達しており、本番環境での高負荷シナリオへの適用は現時点で推奨しない。レート制限の緩和またはリトライロジックの実装を優先的に検討すること。
Groq OSS 20B / 120B はエラー率 0%・平均応答時間 218ms / 275ms と突出した安定性を示した。スループットも最大 13.1 req/s に達しており、高頻度 API 呼び出しユースケースにおいて最適な選択肢と評価される。
Azure / OpenAI の GPT-5.4(フル)モデルはエラー率を抑制できているが、平均応答時間が 1,959〜3,431ms と長い。コスト・品質要件を加味した上で、ユースケースごとのモデル選定基準を策定することを推奨する。
| モデル | プロバイダー | 総リクエスト数 | スループット (req/s) | エラー率 | チェック成功率 | avg (ms) | med (ms) | p90 (ms) | p95 (ms) | min (ms) | max (ms) | iter avg (ms) |
|---|
| フェーズ | 時間 | VU 数 | 内容 |
|---|---|---|---|
| ランプアップ | 0 〜 30 秒 | 0 → 20 VU | 仮想ユーザーを段階的に増加 |
| 負荷維持 | 30 〜 120 秒(90 秒間) | 20 VU 一定 | ピーク負荷を維持しパフォーマンスを計測 |
| クールダウン | 120 〜 150 秒 | 20 → 0 VU | 負荷を徐々に解放 |
max_completion_tokens: 64 /
temperature: 0.7 /
HTTP timeout: 90 秒
max_completion_tokens: 64 で打ち切り、スループット計測に焦点を当てている。