实验室有数十台GPU服务器以及近30人的使用这些机器,而且有些机器的IP会经常变化。一个简单的需求是:如何快速地获知机器的IP地址以及GPU的运行状态?
通常我们会在shell中执行nvidia-smi来查看机器的GPU使用状态,当机器数量太多时变得异常麻烦。笔者利用LeanCloud数据库简单实现了一套工具,将所有机器的信息汇聚在Web页面来显示。
利用LeanCloud做数据库,设计了一个简单的GPU运行状态信息的Hub。每台机器定时将GPU信息发送到LeanCloud数据库,然后用一个前端页面将GPU信息展示出来。
服务器信息同步
在所有服务器上定时运行该Python脚本,即可将信息同步到LeanCloud数据库。
GPU Hub
访问https://nvidia-smi.github.io/signin.html获取 GPU信息,使用你的LeanCloud的AppID和AppKey作为认证信息。如下图