全ての資料
監視機能は、AI Infrastructure - Metal Cloud サービスにバンドルされています。
メトリック、ログ、イベントを収集して視覚化すると、潜在的な問題を特定し、将来のワークロードを最適化するのに役立ちます。ニーズに最適な可観測性ソリューションを選択できます。
| メトリクス | クラスター(同じ VPC内 | シングルサーバー |
|---|---|---|
| ノードとダウンノードの総数 | ||
| GPU モデル、ドライバー、CUDA バージョン | ||
| 制御状態 | ||
| アップタイム | ||
| GPU とダウン GPU の総数 | ||
| GPU 使用率 | ||
| GPU メモリ | ||
| CPU 使用率 | ||
| システムメモリ | ||
| ルートストレージの使用状況 | ||
| ローカルディスクの使用状況 | ||
| 各 GPU の詳細 消費電力、温度、GPU 使用率、VRAM 使用状況 |
||
| ネットワーク帯域幅 インバウンド/アウトバウンド | ||
| 送受信されたネットワークパケット | ||
| ネットワークエラー率 受信/送信 | ||
| システムファン速度 | ||
| システム電圧 | ||
| 共通アラート |
| Cookie | 時間 | 説明する |
|---|---|---|
| cookielawinfo-checbox-analytics | ||
| cookielawinfo-checbox-functional | ||
| cookielawinfo-checbox-others | ||
| cookielawinfo-checkbox-necessary | ||
| cookielawinfo-checkbox-performance | ||
| viewed_cookie_policy |