監視サーバー
監視サーバー
Updated on 14 Apr 2025

監視機能は、AI Infrastructure - Metal Cloud サービスにバンドルされています。

メトリック、ログ、イベントを収集して視覚化すると、潜在的な問題を特定し、将来のワークロードを最適化するのに役立ちます。ニーズに最適な可観測性ソリューションを選択できます。

メトリクス クラスター(同じ VPC内 シングルサーバー
ノードとダウンノードの総数
GPU モデル、ドライバー、CUDA バージョン
制御状態
アップタイム
GPU とダウン GPU の総数
GPU 使用率
GPU メモリ
CPU 使用率
システムメモリ
ルートストレージの使用状況
ローカルディスクの使用状況
各 GPU の詳細
消費電力、温度、GPU 使用率、VRAM 使用状況
ネットワーク帯域幅 インバウンド/アウトバウンド
送受信されたネットワークパケット
ネットワークエラー率 受信/送信
システムファン速度
システム電圧
共通アラート