很多朋友第一次在云上买GPU云服务器,就是为了跑个深度学习或者大模型,结果一上来就卡在第一步: nvidia-smi 直接报 No devices were found 或者干脆 command not found,完全不知道是机器问题还是自己操作问题。 这篇文章就围绕一个真实场景来讲:你已经在腾讯云上开好了一台GPU云服务器,准备用来跑AI项目,但 nvidia-smi 就是找不到显卡。我会一步
很多朋友在 HAI 上玩 Stable Diffusion 时,都会遇到一个很现实的问题:想同时跑多个实例,又怕显存不够直接报 CUDA out of memory。这篇文章就围绕这个问题,一步步讲清楚为什么会爆显存、怎么看显存占用,以及在 HAI 上怎么选配置、怎么改参数,尽量避免这个问题。 如果你还没买云服务器,只是先在本地或测试环境验证,可以先把 Stable Diffusion 跑起来,再