全ての資料
監視機能は、AI Infrastructure - Metal Cloud サービスにバンドルされています。
メトリック、ログ、イベントを収集して視覚化すると、潜在的な問題を特定し、将来のワークロードを最適化するのに役立ちます。ニーズに最適な可観測性ソリューションを選択できます。
| メトリクス | クラスター(同じ VPC内 | シングルサーバー |
|---|---|---|
| ノードとダウンノードの総数 | ✔ | |
| GPU モデル、ドライバー、CUDA バージョン | ✔ | |
| 制御状態 | ✔ | |
| アップタイム | ✔ | |
| GPU とダウン GPU の総数 | ✔ | ✔ |
| GPU 使用率 | ✔ | ✔ |
| GPU メモリ | ✔ | ✔ |
| CPU 使用率 | ✔ | ✔ |
| システムメモリ | ✔ | ✔ |
| ルートストレージの使用状況 | ✔ | ✔ |
| ローカルディスクの使用状況 | ✔ | ✔ |
| 各 GPU の詳細 消費電力、温度、GPU 使用率、VRAM 使用状況 |
✔ | |
| ネットワーク帯域幅 インバウンド/アウトバウンド | ✔ | ✔ |
| 送受信されたネットワークパケット | ✔ | ✔ |
| ネットワークエラー率 受信/送信 | ✔ | |
| システムファン速度 | ✔ | |
| システム電圧 | ✔ | |
| 共通アラート | ✔ |
| Cookie | 時間 | 説明する |
|---|---|---|
| cookielawinfo-checbox-analytics | ||
| cookielawinfo-checbox-functional | ||
| cookielawinfo-checbox-others | ||
| cookielawinfo-checkbox-necessary | ||
| cookielawinfo-checkbox-performance | ||
| viewed_cookie_policy |