STEPTechnology

Cloud GPU

Cloud GPU NVIDIA cho AI/ML & render — môi trường CUDA/cuDNN + PyTorch/TensorFlow/JAX cài sẵn, chọn VRAM theo kích thước mô hình, train phân tán đa GPU (NCCL/DDP), serving inference bằng vLLM/Triton. Thuê theo giờ hoặc theo tháng, tắt máy là ngừng tính compute. Datacenter Tier-3 tại Việt Nam.

Chỉ từ 5.000.000đ / tháng

NVIDIA
GPU chuyên dụng cho AI & render
CUDA sẵn
clone repo là train được ngay
Theo giờ
tắt máy là ngừng tính compute
Tier-3
datacenter tại Việt Nam

Mua một dàn GPU để train mô hình ngốn từ vài trăm triệu tới cả tỉ đồng — rồi lo tản nhiệt, nguồn điện, khấu hao chóng mặt, và đến lúc cần thêm sức thì kẹt cứng. Thuê GPU ở cloud quốc tế thì trả bằng USD, phí egress đắt và độ trễ cao mỗi lần kéo dataset từ Việt Nam. Cloud GPU STEP cho bạn thuê đúng sức cần dùng: chọn VRAM theo kích thước mô hình (từ inference nhẹ tới fine-tune LLM cần nhiều chục GB), môi trường CUDA/cuDNN + PyTorch/TensorFlow/JAX cài sẵn, Docker + NVIDIA Container Toolkit và toàn quyền root để tái lập đúng pipeline của bạn. Train mô hình lớn thì ghép nhiều GPU train phân tán (NCCL, DDP/FSDP, DeepSpeed ZeRO); phục vụ mô hình thì dựng serving bằng vLLM, TGI hoặc Triton Inference Server. Ổ NVMe nạp dataset tốc độ cao để GPU không phải chờ dữ liệu giữa các epoch. Thuê theo giờ cho job train ngắn, theo tháng cho serving chạy liên tục — tắt máy là ngừng tính compute, chỉ trả đúng phần GPU thực dùng. Toàn bộ đặt tại datacenter Tier-3 ở Việt Nam, độ trễ thấp, dữ liệu trong nước.

Cloud GPU dành cho ai?

Kỹ sư & đội ngũ AI/ML

Train, fine-tune và serving mô hình — cần GPU đúng VRAM, môi trường CUDA chuẩn và khả năng ghép nhiều GPU khi mô hình lớn.

Startup AI

Cần bật/tắt GPU linh hoạt theo chu kỳ sản phẩm, không muốn chôn vốn vào phần cứng khấu hao nhanh.

Nhóm nghiên cứu / trường học

Thử nghiệm, chạy notebook và huấn luyện theo đợt — thuê theo giờ, trả đúng thời lượng dùng.

Studio render & đồ họa 3D

Render video, dựng hình, computer vision — cần GPU mạnh theo từng dự án, không cần đầu tư cố định.

Tính năng nổi bật

Tính năngMô tả
Chọn GPU theo VRAM mô hình
VRAM quyết định mô hình nào chạy được: inference/CV nhẹ ~16–24GB, fine-tune cỡ trung 40–48GB, LLM lớn cần 80GB hoặc ghép nhiều GPU. STEP tư vấn cấu hình đúng nhu cầu, không trả thừa.
Môi trường AI sẵn sàng
CUDA/cuDNN, Python và framework (PyTorch, TensorFlow, JAX) cài sẵn; clone repo, cài requirements là train được ngay — không mất ngày dựng driver.
Train phân tán đa GPU
Ghép nhiều GPU cho mô hình lớn: NCCL backend, DDP/FSDP, DeepSpeed ZeRO, HuggingFace Accelerate — chia data/model parallel để vượt giới hạn VRAM một card.
Serving inference hiệu năng cao
Dựng endpoint phục vụ mô hình bằng vLLM, Text Generation Inference (TGI) hoặc Triton Inference Server — throughput cao, batching động cho production.
NVMe nạp dataset nhanh
Ổ NVMe tốc độ cao giảm nghẽn I/O của dataloader khi đọc dataset lớn — GPU không phải chờ dữ liệu, rút ngắn thời gian mỗi epoch.
Thuê giờ/tháng, tắt là ngừng compute
Theo giờ cho job train ngắn, theo tháng cho serving liên tục. Tắt máy là ngừng tính phí compute — chỉ trả cho phần GPU thực dùng.

Công cụ cho Developer

Toàn quyền kiểm soát môi trường — đúng chuẩn quy trình làm việc của bạn.

Công cụMô tả
SSH root + tmux
Toàn quyền root cài driver, thư viện; dùng tmux/screen giữ phiên train chạy nền qua nhiều giờ, không sợ rớt SSH làm gián đoạn.
Docker + NVIDIA Container Toolkit
Chạy container GPU với `docker run --gpus all`; tái lập môi trường nhất quán giữa local và cloud bằng image NGC/PyTorch/CUDA có sẵn.
Jupyter Notebook / Lab
Viết code, train và trực quan hóa kết quả ngay trên trình duyệt — tiện thử nghiệm nhanh và demo.
CUDA / cuDNN chọn phiên bản
Toolkit tăng tốc GPU cài sẵn; chọn đúng phiên bản CUDA/cuDNN khớp framework để tránh lỗi tương thích.
conda / pip & môi trường ảo
Quản lý môi trường Python và thư viện (PyTorch, TensorFlow, JAX, Transformers, vLLM…) tách biệt cho từng dự án.
nvidia-smi & giám sát GPU
Theo dõi GPU utilization, VRAM và nhiệt độ qua `nvidia-smi`/DCGM để phát hiện nghẽn và tinh chỉnh batch size, mixed precision.
Snapshot & checkpoint
Lưu trạng thái máy, checkpoint và dataset để resume training hoặc khôi phục nhanh — không phải train lại từ đầu.

Vì sao chọn STEP Cloud GPU?

So với Tự mua GPU / GPU cloud quốc tế — minh bạch hơn, linh hoạt hơn, có cam kết bồi hoàn.

Tự mua GPU / GPU cloud quốc tếSTEP Cloud GPU
Vốn ban đầuMua card: vài trăm triệu–tỉ đồng, khấu hao nhanhThuê theo giờ/tháng, không chôn vốn phần cứng
Mở rộngMua thêm card = thêm cả máy, tản nhiệt, điệnTăng/ghép GPU theo job, trả đúng phần dùng
Môi trườngTự dựng driver/CUDA/frameworkCUDA/cuDNN + PyTorch/TF/JAX cài sẵn
Độ trễ & dữ liệuCloud ngoại: egress đắt, kéo dataset từ VN chậmTier-3 tại VN, độ trễ thấp, dữ liệu trong nước
Thanh toánCloud ngoại: USD, khó xuất hóa đơn VATVND, hóa đơn VAT đầy đủ
Hỗ trợTự lo driver/sự cốKỹ sư STEP hỗ trợ dựng môi trường, xử lý driver

Thông số kỹ thuật

Hạng mụcChi tiết
GPUNVIDIA chuyên dụng — chọn theo VRAM (16 / 24 / 48 / 80 GB…)
Đa GPUGhép nhiều GPU, NCCL — train phân tán DDP/FSDP/DeepSpeed
Môi trườngCUDA + cuDNN cài sẵn, chọn phiên bản theo framework
FrameworkPyTorch · TensorFlow · JAX · HuggingFace (cài theo nhu cầu)
ServingvLLM · TGI · Triton Inference Server
vCPU / RAMCấp theo job, đủ feed dữ liệu cho GPU
Lưu trữNVMe SSD tốc độ cao cho dataset & checkpoint
ContainerDocker + NVIDIA Container Toolkit (`--gpus all`)
NotebookJupyter Notebook / Lab
Hệ điều hànhUbuntu (Linux), toàn quyền root
Hình thức thuêTheo giờ (job train) hoặc theo tháng (serving)
DatacenterTier-3 tại Việt Nam — độ trễ thấp, dữ liệu trong nước
Hỗ trợKỹ sư STEP · Ticket · Zalo OA · Hotline
Báo giáTheo cấu hình GPU/VRAM và hình thức thuê — cấu hình trên portal

Phù hợp với

  • Fine-tune & huấn luyện LLM (LoRA/QLoRA, full fine-tune)
  • Serving & inference mô hình (vLLM/TGI/Triton) cho sản phẩm AI
  • Computer vision: train/detect, xử lý ảnh & video
  • Render video, dựng hình 3D, đồ họa nặng
  • Nhóm nghiên cứu, thử nghiệm machine learning theo đợt
  • Startup AI cần linh hoạt bật/tắt GPU theo chi phí

Bắt đầu trong 3 bước

1

Chọn GPU theo mô hình

Cho STEP biết bạn train/fine-tune/serving mô hình nào (và kích thước) để chọn đúng VRAM và số GPU — tránh OOM, tránh trả thừa.

2

Khởi tạo & dựng môi trường

Máy GPU sẵn CUDA/cuDNN; cài framework qua conda/pip hoặc kéo image Docker, mở Jupyter và clone repo.

3

Train/serving & tắt khi xong

Chạy training qua SSH/tmux hoặc dựng endpoint serving; lưu checkpoint/dataset, tắt máy để ngừng tính compute.

Cấu hình tham khảo & giá

Các cấu hình tham khảo — giá cuối xác nhận theo đúng nhu cầu của bạn. Liên hệ để được báo giá chi tiết.

Kéo ngang để xem hết →

Thông sốT4 16GBL4 24GBRTX 4090 24GBA6000 48GB
Đề xuất
L40S 48GB
A100 40GBA100 80GBH100 80GB2–8× H100
Giátừ5.000.000đ / thángtừ9.000.000đ / thángtừ10.000.000đ / thángtừ16.000.000đ / thángtừ20.000.000đ / thángtừ23.000.000đ / thángtừ33.000.000đ / thángtừ68.000.000đ / thángtừ135.000.000đ / tháng
VRAM16 GB24 GB24 GB48 GB48 GB40 GB80 GB80 GB2–8 × 80 GB
vCPU kèm81216162424323264+
RAM kèm32 GB48 GB64 GB64 GB96 GB96 GB128 GB160 GB512 GB+
NVMe kèm200 GB300 GB400 GB500 GB600 GB600 GB1 TB1 TB2 TB+
Compute nền (theo đơn vị)4,6tr6,9tr9,2tr9,9tr13,8tr13,8tr19,8tr22,36tr~60tr
Phụ phí card GPU / tháng400k2,1tr800k6,1tr6,2tr9,2tr13,2tr45,64tr45,64tr × N
Theo giờ (tham khảo)9.000đ16.000đ18.000đ28.000đ35.000đ40.000đ58.000đ120.000đtừ 240.000đ
Multi-GPU (NVLink)✓ (2–8×)
Phù hợpInference nhẹ / học tậpServing tiết kiệm điệnTrain cost-effective / renderTrain model trung / VRAM lớnServing LLM (FP8)Train chuẩn DCFine-tune LLMTrain/inference LLM flagshipTrain phân tán LLM lớn
Chọn góiChọn góiChọn góiChọn góiChọn góiChọn góiChọn góiChọn góiChọn gói

Giá THEO THÁNG (thuê cam kết), tính theo Bảng giá đơn vị STEP Cloud: phần vCPU/RAM/NVMe nền theo đơn giá (vCPU & RAM 80.000đ, NVMe 7.000đ /GB/tháng) + phụ phí GPU theo dòng card. Cột 'Theo giờ (tham khảo)' cho nhu cầu thuê ngắn hạn. Cần thêm tài nguyên/Object Storage/Managed Service tính theo Bảng giá đơn vị bên dưới. Đây là CẤU HÌNH & GIÁ THAM KHẢO (benchmark mặt bằng GPU cloud VN & quốc tế 2026); xác nhận theo card khả dụng, chưa gồm VAT 10%.

Bảng giá đơn vị

Tính theo tài nguyên thực dùng — minh bạch, không bó gói. Cấu hình và tính tổng tức thì trên portal.

Hạng mụcChi tiết
Card GPU — NVIDIA T4 16GB400.000đ / card / tháng
Card GPU — NVIDIA L4 24GB2.100.000đ / card / tháng
Card GPU — NVIDIA RTX 4090 24GB800.000đ / card / tháng
Card GPU — NVIDIA RTX A6000 48GB6.100.000đ / card / tháng
Card GPU — NVIDIA L40S 48GB6.200.000đ / card / tháng
Card GPU — NVIDIA A100 40GB9.200.000đ / card / tháng
Card GPU — NVIDIA A100 80GB13.200.000đ / card / tháng
Card GPU — NVIDIA H100 80GB45.640.000đ / card / tháng (multi-GPU = × số card)
vCPU80.000đ / core / tháng
RAM80.000đ / GB / tháng
Enterprise SSD5.000đ / GB / tháng
Enterprise NVMe7.000đ / GB / tháng
Backup snapshot1.000đ × dung lượng ổ(GB) × X × Y (X = lần backup/tuần · Y = số bản giữ)
IP PublicIP đầu miễn phí · 100.000đ / IP / tháng
Băng thông300 Mbps đầu miễn phí · block 50 Mbps thêm 100.000đ / tháng
IP Private / VLANMiễn phí, không giới hạn
Load Balancer (HAProxy)500.000đ / tháng
Monitoring (Grafana + Prometheus)150.000đ / tháng
Snapshot tự động300.000đ / cụm / tháng
Docker / Kubernetes cài sẵnMiễn phí (cụm ≥ 3 node)
S3 Standard (Hot)1.500đ / GB / tháng — truy cập < 30 ngày
S3 Infrequent (Cool)800đ / GB / tháng — 30–90 ngày
S3 Archive300đ / GB / tháng — > 90 ngày (retrieval 4–12h)
Egress Internet (S3)500đ / GB — phần vượt 10TB/tháng
Egress nội bộ Cloud ↔ S3Miễn phí
Managed Service — Bronze+5% phí/tháng · uptime 99,9% · P1 8×5 ≤ 8h · service credit 5% (cap 20%/năm)
Managed Service — Silver+10% phí/tháng · 24/7 · P1 ≤ 2h · service credit 10% (cap 30%/năm)
Managed Service — Gold+15% phí/tháng · 24/7 · P1 ≤ 30 phút · service credit 20% (cap 50%/năm)
VAT10% (xuất hóa đơn đầy đủ)

Giá mỗi gói GPU = Compute (vCPU/RAM/NVMe theo bảng đơn vị) + Phụ phí card GPU (mục 'Card GPU' phía trên) — nhờ đó portal/ERP tái lập đúng tổng. Tài nguyên cộng thêm (ổ, IP/băng thông, Object Storage, add-on, Managed Service) tính tiếp theo bảng. Tính theo đơn vị thực dùng, không bó gói. Đơn giá 1 server/tháng = (vCPU × 80.000) + (RAM × 80.000) + (ổ × 5.000 nếu SSD / × 7.000 nếu NVMe) + backup (ổ × 1.000 × X × Y). Cộng thêm add-on (Load Balancer/Monitoring/Snapshot), S3 và Managed Service nếu dùng. Managed Service tính % trên (Compute + Add-ons). Thuê dài hạn có chiết khấu theo chu kỳ. Cấu hình và tính tổng tức thì trên portal.

Câu hỏi thường gặp

Tôi cần GPU VRAM bao nhiêu cho mô hình của mình?

VRAM là yếu tố quyết định mô hình có chạy được không. Tham khảo: inference/computer vision nhẹ ~16–24GB; fine-tune mô hình cỡ trung (≈7–13B với LoRA/QLoRA) cần ~24–48GB; train/full fine-tune mô hình lớn cần 80GB hoặc ghép nhiều GPU. Cho STEP biết mô hình và tác vụ, kỹ sư sẽ tư vấn cấu hình đúng để tránh OOM mà không trả thừa.

Train mô hình lớn vượt VRAM một card thì sao?

Ghép nhiều GPU và train phân tán: NCCL làm backend giao tiếp, dùng DistributedDataParallel (DDP), FSDP, DeepSpeed ZeRO hoặc HuggingFace Accelerate để chia data/model parallel — vượt giới hạn VRAM của một card. STEP tư vấn số GPU theo quy mô mô hình.

Thuê theo giờ hay theo tháng tối ưu hơn?

Theo giờ phù hợp job train ngắn, thử nghiệm; theo tháng phù hợp serving/inference chạy liên tục hoặc train dài ngày. Quan trọng: tắt máy là ngừng tính phí compute, nên bạn chỉ trả cho phần GPU thực dùng.

CUDA, cuDNN và PyTorch/TensorFlow có sẵn không?

Có. Máy có sẵn CUDA/cuDNN; bạn cài framework (PyTorch, TensorFlow, JAX) qua conda/pip hoặc dùng image Docker (NGC, PyTorch). Chọn đúng phiên bản CUDA khớp framework để tránh lỗi tương thích — clone repo là train được ngay.

Dựng serving/inference cho mô hình thế nào?

Dùng vLLM (throughput cao cho LLM), Text Generation Inference (TGI) hoặc Triton Inference Server để phục vụ mô hình ở production với batching động và tối ưu độ trễ. STEP hỗ trợ dựng endpoint và cấu hình.

Chạy Docker container GPU được không?

Được. Có Docker + NVIDIA Container Toolkit; chạy `docker run --gpus all` để tái lập môi trường nhất quán giữa máy local và cloud bằng image có sẵn.

Có Jupyter để thử nghiệm không?

Có. Mở Jupyter Notebook/Lab để viết code, train và trực quan hóa kết quả ngay trên trình duyệt.

Dataset lớn nạp có nhanh không?

Ổ NVMe tốc độ cao giảm nghẽn I/O của dataloader khi đọc dataset lớn — GPU không phải chờ dữ liệu, rút ngắn thời gian mỗi epoch.

Train chạy nhiều giờ, rớt SSH thì sao?

Dùng tmux/screen để giữ phiên train chạy nền độc lập với kết nối SSH; lưu checkpoint định kỳ để resume khi cần. Bạn có thể đóng máy local mà job vẫn chạy.

Tắt máy có mất dữ liệu không?

Dữ liệu trên ổ lưu trữ được giữ lại; nên lưu checkpoint/dataset vào ổ và tạo snapshot trước khi tắt để khôi phục nhanh và resume training.

Theo dõi hiệu năng GPU thế nào?

Dùng `nvidia-smi`/DCGM xem GPU utilization, VRAM, nhiệt độ; từ đó điều chỉnh batch size và mixed precision (FP16/BF16) để tận dụng tối đa GPU.

Tôi có toàn quyền root không?

Có. Toàn quyền cài driver, thư viện và dựng môi trường theo đúng pipeline của mình.

Khác gì thuê GPU ở cloud quốc tế?

STEP thanh toán VND có hóa đơn VAT, datacenter tại Việt Nam nên độ trễ thấp và không tốn egress đắt khi kéo dataset; kỹ sư STEP hỗ trợ trực tiếp dựng môi trường và xử lý driver — thay vì bạn tự lo toàn bộ.

Hỗ trợ kỹ thuật qua kênh nào?

Qua Ticket, Zalo OA và Hotline; kỹ sư STEP giúp dựng môi trường, xử lý driver và tối ưu cấu hình train/serving khi cần.

Sẵn sàng triển khai Cloud GPU?

Cấu hình gói và nhận báo giá ngay trên portal STEP — hoặc chat trực tiếp với kỹ sư qua Zalo nếu cần tư vấn.