AI云服务器跑大模型，到底需要多大显存？

一句话总结：7B 级别模型至少 16GB，13B 级别建议 24GB，70B 级别基本要 80GB 起步，多卡或量化可以灵活调整。下面我按常见场景帮你拆解一下。

只跑推理，不训练，显存怎么选？

如果你只是部署开源大模型做问答、写作助手，不自己训练，可以按下面这个经验值来选：

7B 以内小模型：用 16GB 显存基本能跑起来（4bit 量化后更小），但建议直接上 24GB，这样上下文可以开长一点，也更稳。
13B 左右模型：建议 24GB 显存起步，比如 A10、L4 这一档就很合适。想同时跑多个实例或上下文很长，32GB 会更从容。
30B～70B 大模型：单卡基本要 80GB 显存（A100/H100 80GB）。如果显存不够，要么上多卡，要么用 4bit/8bit 量化把模型“压小”再跑。

简单记：推理看模型参数 × 2～4bit 量化系数，再预留 20% 余量，基本就不会 OOM。

微调比纯推理吃显存得多，因为除了模型本身，还要存梯度、优化器状态这些中间变量。一个比较实用的估算方法是：

显存 ≈ 模型参数 × 每个参数占的字节数 × 2～3 倍安全系数

按这个思路：

7B 模型全参数微调：FP16 精度下，理论就需要 14GB 左右，实际加上各种缓存，一张 24GB 卡能跑，但 batch size 很小；想舒服一点，建议上 40GB 显存。
13B～30B 模型：基本要 40GB～80GB 显存，单卡 A100 40GB 可以勉强做 LoRA/QLoRA 微调，A100 80GB 会轻松很多。
70B 这种级别：全参数微调需要几百 GB 显存，普通用户基本就是多张 A100/H100 做分布式训练，或者用 QLoRA 等参数高效微调方案在单卡 80GB 上跑。

所以，如果你只是想在自己数据上“调一调”，建议优先考虑 24GB～40GB 显存 + QLoRA，性价比最高。

有 3 个比较实用的省钱思路：

如果你已经大概知道自己要跑多大的模型，可以直接在腾讯云 GPU 云服务器里按显存筛选：

现在腾讯云经常有 GPU 云服务器优惠活动，新用户和包年包月折扣都挺大，你可以点这个链接去看看有没有合适的：直达秒杀入口，选好配置直接下单就行。