Cloud GPU
Cloud GPU NVIDIA cho AI/ML & render — môi trường CUDA/cuDNN + PyTorch/TensorFlow/JAX cài sẵn, chọn VRAM theo kích thước mô hình, train phân tán đa GPU (NCCL/DDP), serving inference bằng vLLM/Triton. Thuê theo giờ hoặc theo tháng, tắt máy là ngừng tính compute. Datacenter Tier-3 tại Việt Nam.
Chỉ từ 5.000.000đ / tháng
Mua một dàn GPU để train mô hình ngốn từ vài trăm triệu tới cả tỉ đồng — rồi lo tản nhiệt, nguồn điện, khấu hao chóng mặt, và đến lúc cần thêm sức thì kẹt cứng. Thuê GPU ở cloud quốc tế thì trả bằng USD, phí egress đắt và độ trễ cao mỗi lần kéo dataset từ Việt Nam. Cloud GPU STEP cho bạn thuê đúng sức cần dùng: chọn VRAM theo kích thước mô hình (từ inference nhẹ tới fine-tune LLM cần nhiều chục GB), môi trường CUDA/cuDNN + PyTorch/TensorFlow/JAX cài sẵn, Docker + NVIDIA Container Toolkit và toàn quyền root để tái lập đúng pipeline của bạn. Train mô hình lớn thì ghép nhiều GPU train phân tán (NCCL, DDP/FSDP, DeepSpeed ZeRO); phục vụ mô hình thì dựng serving bằng vLLM, TGI hoặc Triton Inference Server. Ổ NVMe nạp dataset tốc độ cao để GPU không phải chờ dữ liệu giữa các epoch. Thuê theo giờ cho job train ngắn, theo tháng cho serving chạy liên tục — tắt máy là ngừng tính compute, chỉ trả đúng phần GPU thực dùng. Toàn bộ đặt tại datacenter Tier-3 ở Việt Nam, độ trễ thấp, dữ liệu trong nước.
Cloud GPU dành cho ai?
Kỹ sư & đội ngũ AI/ML
Train, fine-tune và serving mô hình — cần GPU đúng VRAM, môi trường CUDA chuẩn và khả năng ghép nhiều GPU khi mô hình lớn.
Startup AI
Cần bật/tắt GPU linh hoạt theo chu kỳ sản phẩm, không muốn chôn vốn vào phần cứng khấu hao nhanh.
Nhóm nghiên cứu / trường học
Thử nghiệm, chạy notebook và huấn luyện theo đợt — thuê theo giờ, trả đúng thời lượng dùng.
Studio render & đồ họa 3D
Render video, dựng hình, computer vision — cần GPU mạnh theo từng dự án, không cần đầu tư cố định.
Tính năng nổi bật
| Tính năng | Mô tả |
|---|---|
Chọn GPU theo VRAM mô hình | VRAM quyết định mô hình nào chạy được: inference/CV nhẹ ~16–24GB, fine-tune cỡ trung 40–48GB, LLM lớn cần 80GB hoặc ghép nhiều GPU. STEP tư vấn cấu hình đúng nhu cầu, không trả thừa. |
Môi trường AI sẵn sàng | CUDA/cuDNN, Python và framework (PyTorch, TensorFlow, JAX) cài sẵn; clone repo, cài requirements là train được ngay — không mất ngày dựng driver. |
Train phân tán đa GPU | Ghép nhiều GPU cho mô hình lớn: NCCL backend, DDP/FSDP, DeepSpeed ZeRO, HuggingFace Accelerate — chia data/model parallel để vượt giới hạn VRAM một card. |
Serving inference hiệu năng cao | Dựng endpoint phục vụ mô hình bằng vLLM, Text Generation Inference (TGI) hoặc Triton Inference Server — throughput cao, batching động cho production. |
NVMe nạp dataset nhanh | Ổ NVMe tốc độ cao giảm nghẽn I/O của dataloader khi đọc dataset lớn — GPU không phải chờ dữ liệu, rút ngắn thời gian mỗi epoch. |
Thuê giờ/tháng, tắt là ngừng compute | Theo giờ cho job train ngắn, theo tháng cho serving liên tục. Tắt máy là ngừng tính phí compute — chỉ trả cho phần GPU thực dùng. |
Công cụ cho Developer
Toàn quyền kiểm soát môi trường — đúng chuẩn quy trình làm việc của bạn.
| Công cụ | Mô tả |
|---|---|
SSH root + tmux | Toàn quyền root cài driver, thư viện; dùng tmux/screen giữ phiên train chạy nền qua nhiều giờ, không sợ rớt SSH làm gián đoạn. |
Docker + NVIDIA Container Toolkit | Chạy container GPU với `docker run --gpus all`; tái lập môi trường nhất quán giữa local và cloud bằng image NGC/PyTorch/CUDA có sẵn. |
Jupyter Notebook / Lab | Viết code, train và trực quan hóa kết quả ngay trên trình duyệt — tiện thử nghiệm nhanh và demo. |
CUDA / cuDNN chọn phiên bản | Toolkit tăng tốc GPU cài sẵn; chọn đúng phiên bản CUDA/cuDNN khớp framework để tránh lỗi tương thích. |
conda / pip & môi trường ảo | Quản lý môi trường Python và thư viện (PyTorch, TensorFlow, JAX, Transformers, vLLM…) tách biệt cho từng dự án. |
nvidia-smi & giám sát GPU | Theo dõi GPU utilization, VRAM và nhiệt độ qua `nvidia-smi`/DCGM để phát hiện nghẽn và tinh chỉnh batch size, mixed precision. |
Snapshot & checkpoint | Lưu trạng thái máy, checkpoint và dataset để resume training hoặc khôi phục nhanh — không phải train lại từ đầu. |
Vì sao chọn STEP Cloud GPU?
So với Tự mua GPU / GPU cloud quốc tế — minh bạch hơn, linh hoạt hơn, có cam kết bồi hoàn.
| Tự mua GPU / GPU cloud quốc tế | STEP Cloud GPU | |
|---|---|---|
| Vốn ban đầu | Mua card: vài trăm triệu–tỉ đồng, khấu hao nhanh | Thuê theo giờ/tháng, không chôn vốn phần cứng |
| Mở rộng | Mua thêm card = thêm cả máy, tản nhiệt, điện | Tăng/ghép GPU theo job, trả đúng phần dùng |
| Môi trường | Tự dựng driver/CUDA/framework | CUDA/cuDNN + PyTorch/TF/JAX cài sẵn |
| Độ trễ & dữ liệu | Cloud ngoại: egress đắt, kéo dataset từ VN chậm | Tier-3 tại VN, độ trễ thấp, dữ liệu trong nước |
| Thanh toán | Cloud ngoại: USD, khó xuất hóa đơn VAT | VND, hóa đơn VAT đầy đủ |
| Hỗ trợ | Tự lo driver/sự cố | Kỹ sư STEP hỗ trợ dựng môi trường, xử lý driver |
Thông số kỹ thuật
| Hạng mục | Chi tiết |
|---|---|
| GPU | NVIDIA chuyên dụng — chọn theo VRAM (16 / 24 / 48 / 80 GB…) |
| Đa GPU | Ghép nhiều GPU, NCCL — train phân tán DDP/FSDP/DeepSpeed |
| Môi trường | CUDA + cuDNN cài sẵn, chọn phiên bản theo framework |
| Framework | PyTorch · TensorFlow · JAX · HuggingFace (cài theo nhu cầu) |
| Serving | vLLM · TGI · Triton Inference Server |
| vCPU / RAM | Cấp theo job, đủ feed dữ liệu cho GPU |
| Lưu trữ | NVMe SSD tốc độ cao cho dataset & checkpoint |
| Container | Docker + NVIDIA Container Toolkit (`--gpus all`) |
| Notebook | Jupyter Notebook / Lab |
| Hệ điều hành | Ubuntu (Linux), toàn quyền root |
| Hình thức thuê | Theo giờ (job train) hoặc theo tháng (serving) |
| Datacenter | Tier-3 tại Việt Nam — độ trễ thấp, dữ liệu trong nước |
| Hỗ trợ | Kỹ sư STEP · Ticket · Zalo OA · Hotline |
| Báo giá | Theo cấu hình GPU/VRAM và hình thức thuê — cấu hình trên portal |
Phù hợp với
- Fine-tune & huấn luyện LLM (LoRA/QLoRA, full fine-tune)
- Serving & inference mô hình (vLLM/TGI/Triton) cho sản phẩm AI
- Computer vision: train/detect, xử lý ảnh & video
- Render video, dựng hình 3D, đồ họa nặng
- Nhóm nghiên cứu, thử nghiệm machine learning theo đợt
- Startup AI cần linh hoạt bật/tắt GPU theo chi phí
Bắt đầu trong 3 bước
Chọn GPU theo mô hình
Cho STEP biết bạn train/fine-tune/serving mô hình nào (và kích thước) để chọn đúng VRAM và số GPU — tránh OOM, tránh trả thừa.
Khởi tạo & dựng môi trường
Máy GPU sẵn CUDA/cuDNN; cài framework qua conda/pip hoặc kéo image Docker, mở Jupyter và clone repo.
Train/serving & tắt khi xong
Chạy training qua SSH/tmux hoặc dựng endpoint serving; lưu checkpoint/dataset, tắt máy để ngừng tính compute.
Cấu hình tham khảo & giá
Các cấu hình tham khảo — giá cuối xác nhận theo đúng nhu cầu của bạn. Liên hệ để được báo giá chi tiết.
Kéo ngang để xem hết →
| Thông số | T4 16GB | L4 24GB | RTX 4090 24GB | A6000 48GB | Đề xuất L40S 48GB | A100 40GB | A100 80GB | H100 80GB | 2–8× H100 |
|---|---|---|---|---|---|---|---|---|---|
| Giá | từ5.000.000đ / tháng | từ9.000.000đ / tháng | từ10.000.000đ / tháng | từ16.000.000đ / tháng | từ20.000.000đ / tháng | từ23.000.000đ / tháng | từ33.000.000đ / tháng | từ68.000.000đ / tháng | từ135.000.000đ / tháng |
| VRAM | 16 GB | 24 GB | 24 GB | 48 GB | 48 GB | 40 GB | 80 GB | 80 GB | 2–8 × 80 GB |
| vCPU kèm | 8 | 12 | 16 | 16 | 24 | 24 | 32 | 32 | 64+ |
| RAM kèm | 32 GB | 48 GB | 64 GB | 64 GB | 96 GB | 96 GB | 128 GB | 160 GB | 512 GB+ |
| NVMe kèm | 200 GB | 300 GB | 400 GB | 500 GB | 600 GB | 600 GB | 1 TB | 1 TB | 2 TB+ |
| Compute nền (theo đơn vị) | 4,6tr | 6,9tr | 9,2tr | 9,9tr | 13,8tr | 13,8tr | 19,8tr | 22,36tr | ~60tr |
| Phụ phí card GPU / tháng | 400k | 2,1tr | 800k | 6,1tr | 6,2tr | 9,2tr | 13,2tr | 45,64tr | 45,64tr × N |
| Theo giờ (tham khảo) | 9.000đ | 16.000đ | 18.000đ | 28.000đ | 35.000đ | 40.000đ | 58.000đ | 120.000đ | từ 240.000đ |
| Multi-GPU (NVLink) | — | — | — | — | — | — | ✓ (2–8×) | ||
| Phù hợp | Inference nhẹ / học tập | Serving tiết kiệm điện | Train cost-effective / render | Train model trung / VRAM lớn | Serving LLM (FP8) | Train chuẩn DC | Fine-tune LLM | Train/inference LLM flagship | Train phân tán LLM lớn |
| Chọn gói | Chọn gói | Chọn gói | Chọn gói | Chọn gói | Chọn gói | Chọn gói | Chọn gói | Chọn gói |
Giá THEO THÁNG (thuê cam kết), tính theo Bảng giá đơn vị STEP Cloud: phần vCPU/RAM/NVMe nền theo đơn giá (vCPU & RAM 80.000đ, NVMe 7.000đ /GB/tháng) + phụ phí GPU theo dòng card. Cột 'Theo giờ (tham khảo)' cho nhu cầu thuê ngắn hạn. Cần thêm tài nguyên/Object Storage/Managed Service tính theo Bảng giá đơn vị bên dưới. Đây là CẤU HÌNH & GIÁ THAM KHẢO (benchmark mặt bằng GPU cloud VN & quốc tế 2026); xác nhận theo card khả dụng, chưa gồm VAT 10%.
Bảng giá đơn vị
Tính theo tài nguyên thực dùng — minh bạch, không bó gói. Cấu hình và tính tổng tức thì trên portal.
| Hạng mục | Chi tiết |
|---|---|
| Card GPU — NVIDIA T4 16GB | 400.000đ / card / tháng |
| Card GPU — NVIDIA L4 24GB | 2.100.000đ / card / tháng |
| Card GPU — NVIDIA RTX 4090 24GB | 800.000đ / card / tháng |
| Card GPU — NVIDIA RTX A6000 48GB | 6.100.000đ / card / tháng |
| Card GPU — NVIDIA L40S 48GB | 6.200.000đ / card / tháng |
| Card GPU — NVIDIA A100 40GB | 9.200.000đ / card / tháng |
| Card GPU — NVIDIA A100 80GB | 13.200.000đ / card / tháng |
| Card GPU — NVIDIA H100 80GB | 45.640.000đ / card / tháng (multi-GPU = × số card) |
| vCPU | 80.000đ / core / tháng |
| RAM | 80.000đ / GB / tháng |
| Enterprise SSD | 5.000đ / GB / tháng |
| Enterprise NVMe | 7.000đ / GB / tháng |
| Backup snapshot | 1.000đ × dung lượng ổ(GB) × X × Y (X = lần backup/tuần · Y = số bản giữ) |
| IP Public | IP đầu miễn phí · 100.000đ / IP / tháng |
| Băng thông | 300 Mbps đầu miễn phí · block 50 Mbps thêm 100.000đ / tháng |
| IP Private / VLAN | Miễn phí, không giới hạn |
| Load Balancer (HAProxy) | 500.000đ / tháng |
| Monitoring (Grafana + Prometheus) | 150.000đ / tháng |
| Snapshot tự động | 300.000đ / cụm / tháng |
| Docker / Kubernetes cài sẵn | Miễn phí (cụm ≥ 3 node) |
| S3 Standard (Hot) | 1.500đ / GB / tháng — truy cập < 30 ngày |
| S3 Infrequent (Cool) | 800đ / GB / tháng — 30–90 ngày |
| S3 Archive | 300đ / GB / tháng — > 90 ngày (retrieval 4–12h) |
| Egress Internet (S3) | 500đ / GB — phần vượt 10TB/tháng |
| Egress nội bộ Cloud ↔ S3 | Miễn phí |
| Managed Service — Bronze | +5% phí/tháng · uptime 99,9% · P1 8×5 ≤ 8h · service credit 5% (cap 20%/năm) |
| Managed Service — Silver | +10% phí/tháng · 24/7 · P1 ≤ 2h · service credit 10% (cap 30%/năm) |
| Managed Service — Gold | +15% phí/tháng · 24/7 · P1 ≤ 30 phút · service credit 20% (cap 50%/năm) |
| VAT | 10% (xuất hóa đơn đầy đủ) |
Giá mỗi gói GPU = Compute (vCPU/RAM/NVMe theo bảng đơn vị) + Phụ phí card GPU (mục 'Card GPU' phía trên) — nhờ đó portal/ERP tái lập đúng tổng. Tài nguyên cộng thêm (ổ, IP/băng thông, Object Storage, add-on, Managed Service) tính tiếp theo bảng. Tính theo đơn vị thực dùng, không bó gói. Đơn giá 1 server/tháng = (vCPU × 80.000) + (RAM × 80.000) + (ổ × 5.000 nếu SSD / × 7.000 nếu NVMe) + backup (ổ × 1.000 × X × Y). Cộng thêm add-on (Load Balancer/Monitoring/Snapshot), S3 và Managed Service nếu dùng. Managed Service tính % trên (Compute + Add-ons). Thuê dài hạn có chiết khấu theo chu kỳ. Cấu hình và tính tổng tức thì trên portal.
Câu hỏi thường gặp
Tôi cần GPU VRAM bao nhiêu cho mô hình của mình?
VRAM là yếu tố quyết định mô hình có chạy được không. Tham khảo: inference/computer vision nhẹ ~16–24GB; fine-tune mô hình cỡ trung (≈7–13B với LoRA/QLoRA) cần ~24–48GB; train/full fine-tune mô hình lớn cần 80GB hoặc ghép nhiều GPU. Cho STEP biết mô hình và tác vụ, kỹ sư sẽ tư vấn cấu hình đúng để tránh OOM mà không trả thừa.
Train mô hình lớn vượt VRAM một card thì sao?
Ghép nhiều GPU và train phân tán: NCCL làm backend giao tiếp, dùng DistributedDataParallel (DDP), FSDP, DeepSpeed ZeRO hoặc HuggingFace Accelerate để chia data/model parallel — vượt giới hạn VRAM của một card. STEP tư vấn số GPU theo quy mô mô hình.
Thuê theo giờ hay theo tháng tối ưu hơn?
Theo giờ phù hợp job train ngắn, thử nghiệm; theo tháng phù hợp serving/inference chạy liên tục hoặc train dài ngày. Quan trọng: tắt máy là ngừng tính phí compute, nên bạn chỉ trả cho phần GPU thực dùng.
CUDA, cuDNN và PyTorch/TensorFlow có sẵn không?
Có. Máy có sẵn CUDA/cuDNN; bạn cài framework (PyTorch, TensorFlow, JAX) qua conda/pip hoặc dùng image Docker (NGC, PyTorch). Chọn đúng phiên bản CUDA khớp framework để tránh lỗi tương thích — clone repo là train được ngay.
Dựng serving/inference cho mô hình thế nào?
Dùng vLLM (throughput cao cho LLM), Text Generation Inference (TGI) hoặc Triton Inference Server để phục vụ mô hình ở production với batching động và tối ưu độ trễ. STEP hỗ trợ dựng endpoint và cấu hình.
Chạy Docker container GPU được không?
Được. Có Docker + NVIDIA Container Toolkit; chạy `docker run --gpus all` để tái lập môi trường nhất quán giữa máy local và cloud bằng image có sẵn.
Có Jupyter để thử nghiệm không?
Có. Mở Jupyter Notebook/Lab để viết code, train và trực quan hóa kết quả ngay trên trình duyệt.
Dataset lớn nạp có nhanh không?
Ổ NVMe tốc độ cao giảm nghẽn I/O của dataloader khi đọc dataset lớn — GPU không phải chờ dữ liệu, rút ngắn thời gian mỗi epoch.
Train chạy nhiều giờ, rớt SSH thì sao?
Dùng tmux/screen để giữ phiên train chạy nền độc lập với kết nối SSH; lưu checkpoint định kỳ để resume khi cần. Bạn có thể đóng máy local mà job vẫn chạy.
Tắt máy có mất dữ liệu không?
Dữ liệu trên ổ lưu trữ được giữ lại; nên lưu checkpoint/dataset vào ổ và tạo snapshot trước khi tắt để khôi phục nhanh và resume training.
Theo dõi hiệu năng GPU thế nào?
Dùng `nvidia-smi`/DCGM xem GPU utilization, VRAM, nhiệt độ; từ đó điều chỉnh batch size và mixed precision (FP16/BF16) để tận dụng tối đa GPU.
Tôi có toàn quyền root không?
Có. Toàn quyền cài driver, thư viện và dựng môi trường theo đúng pipeline của mình.
Khác gì thuê GPU ở cloud quốc tế?
STEP thanh toán VND có hóa đơn VAT, datacenter tại Việt Nam nên độ trễ thấp và không tốn egress đắt khi kéo dataset; kỹ sư STEP hỗ trợ trực tiếp dựng môi trường và xử lý driver — thay vì bạn tự lo toàn bộ.
Hỗ trợ kỹ thuật qua kênh nào?
Qua Ticket, Zalo OA và Hotline; kỹ sư STEP giúp dựng môi trường, xử lý driver và tối ưu cấu hình train/serving khi cần.
Sẵn sàng triển khai Cloud GPU?
Cấu hình gói và nhận báo giá ngay trên portal STEP — hoặc chat trực tiếp với kỹ sư qua Zalo nếu cần tư vấn.
Cloud GPU