很多公司想自己跑大模型,又不太清楚从零搭一套AI问答系统,到底要买哪些云产品、怎么一步步部署。
这篇文章就用“搭一套能问答的大模型服务”当主线,把需要的云服务器、存储、网络、安全这些都串起来讲一遍,让你照着做就能把服务跑在云上。
一、先想清楚:你要做的AI问答系统大概长啥样
在买云产品之前,先把需求拆一拆,这样后面选配置才不会乱。
可以从下面几个维度简单想一下:
- 模型规模:是打算先用开源的小模型试水,还是直接上几十B甚至更大参数的大模型。
- 并发和响应时间:大概同时有多少人在用,要求接口几秒内返回。
- 数据来源:是只用模型自带知识,还是要连自己的文档、数据库做检索增强。
- 部署形态:是只在内网用,还是要给全国甚至全球用户访问。
把这些想清楚,后面选云服务器、带宽、存储的时候,就有了一个比较明确的“量级感”。
如果暂时没有特别明确的数字,可以先按“几十并发、几千万级文档、内网+少量外网访问”这种中小规模来设计,后续再根据实际使用情况调整。
二、云上整体架构大概需要哪些产品
从零搭一套能对外提供服务的AI问答系统,在云上一般会涉及下面几类产品:
(这里只说和搭建直接相关的,不展开那些和业务没啥关系的云产品。)
- 云服务器:用来跑模型推理、业务后端、前端页面等,是整个系统的“计算底座”。
- GPU云服务器:如果模型比较大或者并发高,就需要GPU来加速推理,这是大模型服务最核心的资源之一。
- 云硬盘/对象存储:用来存模型权重文件、日志、用户上传的文档等,模型文件往往几十GB甚至上百GB,需要比较大的存储空间。
- 私有网络VPC和负载均衡:把后端服务放在一个隔离的网络环境里,再通过负载均衡对外暴露一个统一入口,方便做扩展和安全控制。
- 安全组和网络ACL:控制哪些端口对外开放,哪些只能内网访问,避免把不该暴露的服务直接丢到公网上。
- 数据库:如果要做对话记录、用户管理、知识库索引等,就需要关系型数据库或者向量数据库。
把这些产品组合在一起,就形成了一个比较典型的三层结构:
用户浏览器/客户端 → 负载均衡 → 后端服务集群(GPU服务器+普通云服务器) → 数据库/对象存储
下面我们就按这个结构,一步步说怎么选、怎么搭。
三、第一步:买一台云服务器当“跳板机”和基础运维环境
很多人一上来就想直接买GPU机器跑模型,其实更稳的做法是先买一台普通云服务器,把账号、网络、密钥、基础软件这些都搭好。
这台机器可以当“跳板机”,后续不管是登录GPU服务器,还是做运维、部署脚本,都从这一台机器出发,会安全很多。
选这台跳板机的时候,可以参考下面这个配置:
| 配置项 | 建议规格 | 说明 |
|---|---|---|
| CPU | 4核 | 足够跑运维脚本、拉取代码、部署服务 |
| 内存 | 8G | 运行一些轻量后端和工具问题不大 |
| 系统盘 | 50G SSD | 足够安装系统、基础软件和日志 |
| 操作系统 | Ubuntu 20.04/22.04 LTS | 对各类AI框架和工具支持比较成熟 |
| 带宽 | 5~10Mbps | 主要用于运维访问和少量文件传输 |
如果你已经有云服务器,也可以直接用现有的机器当跳板机,只要确保它的安全配置到位就行。
在腾讯云上创建一台云服务器实例时,可以在控制台选择对应的CPU、内存、系统盘规格,然后设置登录方式(建议用SSH密钥,比密码安全)。创建完成后,用SSH登录进去,先做一下基础的环境准备:
- 更新系统软件包:
sudo apt update && sudo apt upgrade -y - 安装常用工具:
sudo apt install -y git curl wget unzip - 创建一个专门用来部署应用的普通用户,并加入sudo组,后续尽量用这个用户操作。
这样,一台“干净、安全、能登录”的跳板机就准备好了。
四、第二步:规划私有网络和子网,把服务都放在一个隔离环境里
大模型服务一般会涉及多台服务器,比如GPU服务器、后端API服务器、数据库等。
如果把这些服务都直接放在默认的网络环境里,后续做安全控制、扩展都会比较麻烦。
更推荐的做法是:先创建一个私有网络VPC,再在VPC里划分不同的子网,把不同类型的服务器放到不同的子网里。
一个比较简单的划分方式:
- 公有子网:放负载均衡、跳板机等需要对外暴露的服务。
- 私有子网:放GPU服务器、后端服务、数据库等,只允许通过内网访问。
在腾讯云上创建VPC和子网的时候,可以给每个子网分配一个网段,比如:
公有子网:10.0.1.0/24
私有子网:10.0.2.0/24
创建好VPC和子网之后,再创建安全组,设置入站和出站规则:
入站规则可以先只开放SSH(22端口)和后续负载均衡会用到的端口(比如80、443),其他端口都默认拒绝。
这样,即使后面在私有子网里启动了很多服务,只要不主动从安全组里放通端口,就不会被公网直接访问到,安全性会高很多。
五、第三步:买一台GPU云服务器,用来跑大模型推理
这一步是整个系统里最核心的部分:买一台合适的GPU云服务器,把大模型部署上去,对外提供推理服务。
选GPU服务器的时候,主要考虑三个因素:
- GPU型号和显存:决定了能跑多大的模型、支持多少并发。
- CPU、内存:虽然推理主要靠GPU,但CPU和内存也不能太小,否则数据预处理、请求排队这些环节会成为瓶颈。
- 磁盘空间:模型权重文件很大,再加上日志、缓存,建议系统盘和数据盘都给得充足一点。
如果你的模型是开源的7B、13B级别,刚开始可以先选一块中等规格的GPU,比如显存24GB左右,足够跑量化后的模型,并发也能支持几十QPS。
在腾讯云上选择GPU云服务器时,可以在GPU机型列表里,根据显存、算力、价格这几个维度筛选一下,找到适合自己业务规模的机型。
假设我们选好了一台GPU云服务器,创建实例的时候注意几点:
1. 把它放到之前规划好的私有子网里,不要直接暴露在公网。
2. 系统盘可以选50G SSD,再额外挂载一块数据盘,专门用来存模型文件,比如500G或1T,根据模型大小来定。
3. 登录方式同样建议用SSH密钥,创建完成后,从跳板机用SSH登录到这台GPU服务器。
登录进去之后,先安装GPU驱动、CUDA、cuDNN这些基础依赖,然后再安装Python、PyTorch等深度学习框架。
以Ubuntu系统为例,安装驱动和CUDA的大致流程是:
- 更新系统:
sudo apt update && sudo apt upgrade -y - 添加NVIDIA的官方源,然后安装GPU驱动。
- 根据驱动版本,安装对应的CUDA Toolkit。
- 安装cuDNN库,这一步需要到NVIDIA官网下载对应的安装包,按照官方文档操作。
驱动和CUDA装好之后,再安装Python和PyTorch:
- 安装Python3和pip:
sudo apt install -y python3 python3-pip - 创建虚拟环境:
python3 -m venv venv,然后激活:source venv/bin/activate - 安装PyTorch:可以参考PyTorch官网的命令,选择对应的CUDA版本,比如:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
这样,GPU服务器的基础环境就准备好了,接下来就可以下载模型、写推理服务了。
六、第四步:下载开源大模型,在GPU服务器上跑起来
现在开源的大模型很多,比如Qwen系列、DeepSeek系列等,你可以根据自己的需求选择一个。
以Qwen2.5-1.5B-Instruct为例,假设我们已经在GPU服务器上准备好了环境,接下来可以这样做:
- 创建一个目录用来存模型:
mkdir -p ./model/qwen2_5-1_5b-instruct - 用modelscope或者huggingface的下载工具,把模型文件拉到本地:
modelscope download --model qwen/Qwen2.5-1_5b-instruct --local_dir './model/qwen2_5-1_5b-instruct' - 安装vLLM等推理框架:
pip install vllm==0.6.0(这里以vLLM 0.6.0为例,具体版本可以根据实际情况调整) - 启动模型服务:
vllm serve "./model/qwen2_5-1_5b-instruct" --load-format "safetensors" --port 8000 --tensor-parallel-size 1
启动成功后,GPU服务器就会在8000端口监听HTTP请求,你可以用curl或者Postman测试一下:
curl http://localhost:8000/v1/completions
-H "Content-Type: application/json"
-d '{
"model": "qwen/Qwen2.5-1_5b-instruct",
"prompt": "请计算1+23的结果,并解释运算逻辑",
"max_tokens": 200,
"temperature": 0.1
}'
如果能正常返回结果,说明模型已经成功跑起来了。
当然,这只是最基础的推理服务,实际生产环境还需要考虑模型加载优化、批处理、多实例部署等问题,不过对于从零开始的企业来说,先把单实例跑通,是一个很重要的第一步。
七、第五步:再买一台普通云服务器,部署业务后端和前端
大模型推理服务跑在GPU服务器上,但用户不能直接访问GPU服务器的IP和端口,需要一个“中间层”来做请求转发、鉴权、限流等。
这个中间层一般就是业务后端,比如用Spring Boot、FastAPI、Flask等框架写的API服务。
为了和GPU服务器解耦,可以再买一台普通云服务器,专门跑业务后端。
这台后端服务器的配置可以参考:
| 配置项 | 建议规格 | 说明 |
|---|---|---|
| CPU | 8核 | 处理业务逻辑、请求转发、日志记录等 |
| 内存 | 16G | 如果有缓存、队列等需求,内存可以再大一点 |
| 系统盘 | 50G SSD | 足够安装系统和应用 |
| 数据盘 | 200G SSD | 存日志、临时文件等 |
| 操作系统 | Ubuntu 20.04/22.04 LTS | 和GPU服务器保持一致,方便运维 |
创建这台后端服务器的时候,同样把它放到私有子网里,只允许通过内网访问。
登录进去之后,安装Java、Node.js或者Python等运行环境,然后把业务后端代码部署上去。
以Spring Boot为例,部署流程大概是:
- 用Maven或者Gradle打包项目,生成一个jar包:
mvn clean package - 把jar包上传到服务器,比如
/home/deploy/ai-app/目录 - 用
nohup java -jar ai-app-0.0.1-SNAPSHOT.jar > app.log 2>&1 &命令启动服务,或者用systemd管理,让它开机自启。
后端服务启动之后,它会监听一个端口,比如8080,然后通过内网IP和GPU服务器的8000端口通信,把用户的请求转发给大模型,再把结果返回给用户。
如果你的AI应用还有前端页面,比如用Vue、React写的,可以再买一台云服务器部署前端,或者和后端部署在同一台服务器上。
前端部署的大致流程是:
- 在本地把前端项目打包,生成一个dist目录:
npm run build - 把dist目录上传到服务器,比如
/home/deploy/ai-frontend/目录 - 用Nginx做反向代理,把前端静态文件和后端API服务整合在一起。
Nginx的配置示例:
server {
listen 80;
server_name your-domain.com;
location / {
root /home/deploy/ai-frontend/dist;
index index.;
try_files $uri $uri/ /index.;
}
location /api {
proxy_pass http://127.0.0.1:8080;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
这样,用户访问http://your-domain.com就能看到前端页面,前端通过/api路径调用后端API,后端再调用GPU服务器的模型服务,整个链路就通了。
八、第六步:买数据库和对象存储,存对话记录和知识库
一个完整的AI问答系统,除了模型推理,还需要存储一些数据:
1. 对话记录:用户的提问、模型的回答、时间戳等。
2. 知识库:如果要做检索增强生成(RAG),就需要把文档、FAQ等内容存起来,建立索引。
对于对话记录,可以用关系型数据库,比如MySQL、PostgreSQL等。
在腾讯云上创建MySQL实例时,可以选择和后端服务器同一个VPC,这样它们可以通过内网连接,延迟低、安全性高。
创建好MySQL实例之后,在后端服务里配置数据库连接信息,然后创建对应的表,比如:
CREATE DATABASE ai_app CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
CREATE TABLE chat_history (
id BIGINT AUTO_INCREMENT PRIMARY KEY,
user_id VARCHAR(64) NOT NULL,
question TEXT NOT NULL,
answer TEXT NOT NULL,
created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);
对于知识库,可以用向量数据库,比如Milvus、FAISS等。
向量数据库的作用是:把文档拆分成小块,转换成向量,然后存储起来,当用户提问时,先把问题转换成向量,再在向量数据库里做相似度检索,把最相关的文档片段返回给模型,让模型结合这些文档回答问题。
向量数据库的部署方式有两种:
1. 直接用云厂商提供的托管向量数据库服务,省心省力,不用自己运维。
2. 自己在云服务器上部署开源的向量数据库,比如Milvus,适合
| 厂商 | 配置 | 带宽 / 流量 | 价格 | 购买地址 |
|---|---|---|---|---|
| 腾讯云 | 4核4G | 3M | 79元/年 | 点击查看 |
| 腾讯云 | 2核4G | 5M | 188元/年 | 点击查看 |
| 腾讯云 | 4核8G | 10M | 630元/年 | 点击查看 |
| 腾讯云 | 4核16G | 12M | 1024元/年 | 点击查看 |
| 腾讯云 | 2核4G | 6M | 528元/3年 | 点击查看 |
| 腾讯云 | 2核2G | 5M | 396元/3年(≈176元/年) | 点击查看 |
| 腾讯云GPU服务器 | 32核64G | AI模型应用部署搭建 | 691元/月 | 点击查看 |
| 腾讯云GPU服务器 | 8核32G | AI模型应用部署搭建 | 502元/月 | 点击查看 |
| 腾讯云GPU服务器 | 10核40G | AI模型应用部署搭建 | 1152元/月 | 点击查看 |
| 腾讯云GPU服务器 | 28核116G | AI模型应用部署搭建 | 1028元/月 | 点击查看 |
所有价格仅供参考,请以官方活动页实时价格为准。