全ての資料
監視機能は、AI Infrastructure - Metal Cloud サービスにバンドルされています。
メトリック、ログ、イベントを収集して視覚化すると、潜在的な問題を特定し、将来のワークロードを最適化するのに役立ちます。ニーズに最適な可観測性ソリューションを選択できます。
メトリクス | クラスター(同じ VPC内 | シングルサーバー |
---|---|---|
ノードとダウンノードの総数 | ✔ | |
GPU モデル、ドライバー、CUDA バージョン | ✔ | |
制御状態 | ✔ | |
アップタイム | ✔ | |
GPU とダウン GPU の総数 | ✔ | ✔ |
GPU 使用率 | ✔ | ✔ |
GPU メモリ | ✔ | ✔ |
CPU 使用率 | ✔ | ✔ |
システムメモリ | ✔ | ✔ |
ルートストレージの使用状況 | ✔ | ✔ |
ローカルディスクの使用状況 | ✔ | ✔ |
各 GPU の詳細 消費電力、温度、GPU 使用率、VRAM 使用状況 |
✔ | |
ネットワーク帯域幅 インバウンド/アウトバウンド | ✔ | ✔ |
送受信されたネットワークパケット | ✔ | ✔ |
ネットワークエラー率 受信/送信 | ✔ | |
システムファン速度 | ✔ | |
システム電圧 | ✔ | |
共通アラート | ✔ |
Cookie | 時間 | 説明する |
---|---|---|
cookielawinfo-checbox-analytics | ||
cookielawinfo-checbox-functional | ||
cookielawinfo-checbox-others | ||
cookielawinfo-checkbox-necessary | ||
cookielawinfo-checkbox-performance | ||
viewed_cookie_policy |