Question 1

Tôi cần GPU VRAM bao nhiêu cho mô hình của mình?

Accepted Answer

VRAM là yếu tố quyết định mô hình có chạy được không. Tham khảo: inference/computer vision nhẹ ~16–24GB; fine-tune mô hình cỡ trung (≈7–13B với LoRA/QLoRA) cần ~24–48GB; train/full fine-tune mô hình lớn cần 80GB hoặc ghép nhiều GPU. Cho STEP biết mô hình và tác vụ, kỹ sư sẽ tư vấn cấu hình đúng để tránh OOM mà không trả thừa.

Question 2

Train mô hình lớn vượt VRAM một card thì sao?

Accepted Answer

Ghép nhiều GPU và train phân tán: NCCL làm backend giao tiếp, dùng DistributedDataParallel (DDP), FSDP, DeepSpeed ZeRO hoặc HuggingFace Accelerate để chia data/model parallel — vượt giới hạn VRAM của một card. STEP tư vấn số GPU theo quy mô mô hình.

Question 3

Thuê theo giờ hay theo tháng tối ưu hơn?

Accepted Answer

Theo giờ phù hợp job train ngắn, thử nghiệm; theo tháng phù hợp serving/inference chạy liên tục hoặc train dài ngày. Quan trọng: tắt máy là ngừng tính phí compute, nên bạn chỉ trả cho phần GPU thực dùng.

Question 4

CUDA, cuDNN và PyTorch/TensorFlow có sẵn không?

Accepted Answer

Có. Máy có sẵn CUDA/cuDNN; bạn cài framework (PyTorch, TensorFlow, JAX) qua conda/pip hoặc dùng image Docker (NGC, PyTorch). Chọn đúng phiên bản CUDA khớp framework để tránh lỗi tương thích — clone repo là train được ngay.

Question 5

Dựng serving/inference cho mô hình thế nào?

Accepted Answer

Dùng vLLM (throughput cao cho LLM), Text Generation Inference (TGI) hoặc Triton Inference Server để phục vụ mô hình ở production với batching động và tối ưu độ trễ. STEP hỗ trợ dựng endpoint và cấu hình.

Question 6

Chạy Docker container GPU được không?

Accepted Answer

Được. Có Docker + NVIDIA Container Toolkit; chạy `docker run --gpus all` để tái lập môi trường nhất quán giữa máy local và cloud bằng image có sẵn.

Question 7

Có Jupyter để thử nghiệm không?

Accepted Answer

Có. Mở Jupyter Notebook/Lab để viết code, train và trực quan hóa kết quả ngay trên trình duyệt.

Question 8

Dataset lớn nạp có nhanh không?

Accepted Answer

Ổ NVMe tốc độ cao giảm nghẽn I/O của dataloader khi đọc dataset lớn — GPU không phải chờ dữ liệu, rút ngắn thời gian mỗi epoch.

Question 9

Train chạy nhiều giờ, rớt SSH thì sao?

Accepted Answer

Dùng tmux/screen để giữ phiên train chạy nền độc lập với kết nối SSH; lưu checkpoint định kỳ để resume khi cần. Bạn có thể đóng máy local mà job vẫn chạy.

Question 10

Tắt máy có mất dữ liệu không?

Accepted Answer

Dữ liệu trên ổ lưu trữ được giữ lại; nên lưu checkpoint/dataset vào ổ và tạo snapshot trước khi tắt để khôi phục nhanh và resume training.

Question 11

Theo dõi hiệu năng GPU thế nào?

Accepted Answer

Dùng `nvidia-smi`/DCGM xem GPU utilization, VRAM, nhiệt độ; từ đó điều chỉnh batch size và mixed precision (FP16/BF16) để tận dụng tối đa GPU.

Question 12

Tôi có toàn quyền root không?

Accepted Answer

Có. Toàn quyền cài driver, thư viện và dựng môi trường theo đúng pipeline của mình.

Question 13

Khác gì thuê GPU ở cloud quốc tế?

Accepted Answer

STEP thanh toán VND có hóa đơn VAT, datacenter tại Việt Nam nên độ trễ thấp và không tốn egress đắt khi kéo dataset; kỹ sư STEP hỗ trợ trực tiếp dựng môi trường và xử lý driver — thay vì bạn tự lo toàn bộ.

Question 14

Hỗ trợ kỹ thuật qua kênh nào?

Accepted Answer

Qua Ticket, Zalo OA và Hotline; kỹ sư STEP giúp dựng môi trường, xử lý driver và tối ưu cấu hình train/serving khi cần.

Question 15

Bảng VRAM → kích thước mô hình: tôi cần bao nhiêu GB?

Accepted Answer

Quy tắc nhanh theo độ chính xác và tác vụ (định hướng, thực tế cộng overhead framework): 7B — Inference FP16 ~14-16GB · 4-bit ~6-8GB · LoRA ~16-24GB · Full FT ~80GB (ghép GPU). 13B — FP16 ~26-28GB · 4-bit ~10-12GB · LoRA ~24-32GB · Full FT ~160GB (đa GPU). 70B — FP16 ~140GB (ghép GPU) · 4-bit ~40-48GB · LoRA ~80GB+ · Full FT đa GPU cấp DC. Lý do: trọng số FP16 ≈ 2 byte/tham số; inference cộng KV-cache (theo độ dài ngữ cảnh + batch); full fine-tune cộng gradient + optimizer state (Adam ~gấp 3-4 lần trọng số). LoRA/QLoRA chỉ train phần nhỏ nên nhẹ hơn nhiều — cách hợp lý nhất để fine-tune trên 1-2 card. Cho STEP biết mô hình + tác vụ, kỹ sư chọn đúng card, tránh OOM mà không trả thừa.

Question 16

A100/H100 bản SXM khác bản PCIe ra sao — tôi nên chọn cái nào?

Accepted Answer

Cùng GPU lõi nhưng cách ghép khác. SXM gắn trên board HGX, nối qua NVLink/NVSwitch ~600-900 GB/s — train phân tán đa GPU gần như không nghẽn, scale gần tuyến tính. PCIe ghép qua khe PCIe (~64 GB/s) hoặc NVLink bridge chỉ nối 2 card; hợp 1-2 GPU hoặc inference, nhưng train 4-8 GPU sẽ nghẽn ở khâu giao tiếp. Quy tắc: 1-2 GPU hoặc serving → PCIe đủ và rẻ hơn; train phân tán nhiều card → ưu tiên SXM. STEP xác nhận biến thể theo card khả dụng khi báo giá.

Question 17

Khi nào dùng DDP, khi nào dùng FSDP / DeepSpeed ZeRO?

Accepted Answer

DDP sao chép toàn bộ mô hình lên mỗi GPU, chỉ chia dữ liệu — đơn giản, nhanh, dùng khi mô hình vừa VRAM một card. FSDP / DeepSpeed ZeRO chia nhỏ (shard) trọng số, gradient, optimizer state ra nhiều GPU — dùng khi mô hình KHÔNG vừa một card (full fine-tune 13B trở lên). ZeRO có 3 mức: stage 1 chia optimizer state, stage 2 thêm gradient, stage 3 chia cả trọng số. Mẹo: thử DDP trước; OOM dù đã giảm batch và bật mixed precision thì chuyển FSDP/ZeRO. Đây là lúc băng thông NVLink (SXM) tạo khác biệt lớn.

Question 18

Serving inference nên dùng vLLM hay Triton?

Accepted Answer

vLLM chuyên cho LLM sinh văn bản: PagedAttention + continuous batching cho throughput rất cao, dựng OpenAI-compatible API trong vài phút — chọn khi serve một/vài LLM và muốn tối đa token/giây. Triton là nền tổng quát đa framework (PyTorch/TF/ONNX/TensorRT), nhiều mô hình trên cùng endpoint, ensemble, dynamic batching — chọn khi serve nhiều loại mô hình hỗn hợp. Nhiều đội chạy vLLM cho LLM và Triton cho phần còn lại; TGI là lựa chọn thứ ba gần vLLM, hợp hệ HuggingFace. STEP hỗ trợ dựng endpoint và cấu hình batching.

Question 19

Thuê theo giờ hay theo tháng tối ưu hơn — có điểm hòa vốn không?

Accepted Answer

Có. Lấy giá tháng chia giá giờ ra 'số giờ hòa vốn' mỗi tháng: chạy ÍT hơn ngưỡng đó → thuê giờ rẻ hơn; chạy gần liên tục → thuê tháng rẻ hơn (giá tháng đã chiết khấu sâu). Job train ngắn, thử nghiệm, notebook bật-tắt → theo giờ (tắt máy ngừng tính compute). Serving production 24/7, train dài nhiều ngày → theo tháng. Nhập số giờ/tháng dự kiến, STEP tính giúp phương án rẻ hơn; có thể bắt đầu theo giờ rồi chuyển tháng khi tải ổn định.

Question 20

Multi-GPU có làm train nhanh gấp số card không?

Accepted Answer

Gần nhưng không tuyệt đối. Thêm card xử lý nhiều dữ liệu/bước hơn, nhưng các card phải đồng bộ gradient mỗi bước — phần giao tiếp này là chỗ nghẽn. Trên SXM (NVLink) scale gần tuyến tính (8 card ≈ 7-7,5 lần); trên PCIe hiệu suất tụt rõ khi vượt 2-4 card. Mixed precision (FP16/BF16), gradient accumulation và tăng batch hợp lý giúp tận dụng card tốt hơn. STEP tư vấn số card + biến thể (SXM/PCIe) theo quy mô mô hình để không mua thừa.

Tính năng	Mô tả
Chọn GPU theo VRAM mô hình	VRAM quyết định mô hình nào chạy được: inference/CV nhẹ ~16–24GB, fine-tune cỡ trung 40–48GB, LLM lớn cần 80GB hoặc ghép nhiều GPU. STEP tư vấn cấu hình đúng nhu cầu, không trả thừa.
Môi trường AI sẵn sàng	CUDA/cuDNN, Python và framework (PyTorch, TensorFlow, JAX) cài sẵn; clone repo, cài requirements là train được ngay — không mất ngày dựng driver.
Train phân tán đa GPU	Ghép nhiều GPU cho mô hình lớn: NCCL backend, DDP/FSDP, DeepSpeed ZeRO, HuggingFace Accelerate — chia data/model parallel để vượt giới hạn VRAM một card.
Serving inference hiệu năng cao	Dựng endpoint phục vụ mô hình bằng vLLM, Text Generation Inference (TGI) hoặc Triton Inference Server — throughput cao, batching động cho production.
NVMe nạp dataset nhanh	Ổ NVMe tốc độ cao giảm nghẽn I/O của dataloader khi đọc dataset lớn — GPU không phải chờ dữ liệu, rút ngắn thời gian mỗi epoch.
Thuê giờ/tháng, tắt là ngừng compute	Theo giờ cho job train ngắn, theo tháng cho serving liên tục. Tắt máy là ngừng tính phí compute — chỉ trả cho phần GPU thực dùng.

Công cụ	Mô tả
SSH root + tmux	Toàn quyền root cài driver, thư viện; dùng tmux/screen giữ phiên train chạy nền qua nhiều giờ, không sợ rớt SSH làm gián đoạn.
Docker + NVIDIA Container Toolkit	Chạy container GPU với `docker run --gpus all`; tái lập môi trường nhất quán giữa local và cloud bằng image NGC/PyTorch/CUDA có sẵn.
Jupyter Notebook / Lab	Viết code, train và trực quan hóa kết quả ngay trên trình duyệt — tiện thử nghiệm nhanh và demo.
CUDA / cuDNN chọn phiên bản	Toolkit tăng tốc GPU cài sẵn; chọn đúng phiên bản CUDA/cuDNN khớp framework để tránh lỗi tương thích.
conda / pip & môi trường ảo	Quản lý môi trường Python và thư viện (PyTorch, TensorFlow, JAX, Transformers, vLLM…) tách biệt cho từng dự án.
nvidia-smi & giám sát GPU	Theo dõi GPU utilization, VRAM và nhiệt độ qua `nvidia-smi`/DCGM để phát hiện nghẽn và tinh chỉnh batch size, mixed precision.
Snapshot & checkpoint	Lưu trạng thái máy, checkpoint và dataset để resume training hoặc khôi phục nhanh — không phải train lại từ đầu.

	Tự mua GPU / GPU cloud quốc tế	STEP Cloud GPU
Vốn ban đầu	Mua card: vài trăm triệu–tỉ đồng, khấu hao nhanh	Thuê theo giờ/tháng, không chôn vốn phần cứng
Mở rộng	Mua thêm card = thêm cả máy, tản nhiệt, điện	Tăng/ghép GPU theo job, trả đúng phần dùng
Môi trường	Tự dựng driver/CUDA/framework	CUDA/cuDNN + PyTorch/TF/JAX cài sẵn
Độ trễ & dữ liệu	Cloud ngoại: egress đắt, kéo dataset từ VN chậm	Tier-3 tại VN, độ trễ thấp, dữ liệu trong nước
Thanh toán	Cloud ngoại: USD, khó xuất hóa đơn VAT	VND, hóa đơn VAT đầy đủ
Hỗ trợ	Tự lo driver/sự cố	Kỹ sư STEP hỗ trợ dựng môi trường, xử lý driver

Hạng mục	Chi tiết
GPU	NVIDIA chuyên dụng — chọn theo VRAM (16 / 24 / 48 / 80 GB…)
Đa GPU	Ghép nhiều GPU, NCCL — train phân tán DDP/FSDP/DeepSpeed
NVLink	Chỉ trên biến thể SXM (A100/H100 SXM) — train phân tán đa GPU băng thông cao; PCIe ghép qua khe PCIe
Môi trường	CUDA + cuDNN cài sẵn, chọn phiên bản theo framework
Framework	PyTorch · TensorFlow · JAX · HuggingFace (cài theo nhu cầu)
Serving	vLLM · TGI · Triton Inference Server
vCPU / RAM	Cấp theo job, đủ feed dữ liệu cho GPU
Lưu trữ	NVMe SSD tốc độ cao cho dataset & checkpoint
Container	Docker + NVIDIA Container Toolkit (`--gpus all`)
Notebook	Jupyter Notebook / Lab
Hệ điều hành	Ubuntu (Linux), toàn quyền root
Hình thức thuê	Theo giờ (job train) hoặc theo tháng (serving)
Datacenter	Tier-3 tại Việt Nam — độ trễ thấp, dữ liệu trong nước
Uptime	Hạ tầng Tier-3; cam kết SLA uptime áp dụng cho dịch vụ chạy thường trực — với job train theo giờ, tính sẵn sàng theo thực tế phiên thuê
Hỗ trợ	Kỹ sư STEP · Ticket · Zalo OA · Hotline
Báo giá	Theo cấu hình GPU/VRAM và hình thức thuê — cấu hình trên portal

Thông số	T4 16GB	L4 24GB	RTX 4090 24GB	A6000 48GB	Đề xuất L40S 48GB	A100 40GB	A100 80GB	H100 80GB	2–8× H100
Giá	từ5.000.000đ / tháng	từ9.000.000đ / tháng	từ10.000.000đ / tháng	từ16.000.000đ / tháng	từ20.000.000đ / tháng	từ23.000.000đ / tháng	từ33.000.000đ / tháng	từ68.000.000đ / tháng	từ135.000.000đ / tháng
VRAM	16 GB	24 GB	24 GB	48 GB	48 GB	40 GB	80 GB	80 GB	2–8 × 80 GB
vCPU kèm	8	12	16	16	24	24	32	32	64+
RAM kèm	32 GB	48 GB	64 GB	64 GB	96 GB	96 GB	128 GB	160 GB	512 GB+
NVMe kèm	200 GB	300 GB	400 GB	500 GB	600 GB	600 GB	1 TB	1 TB	2 TB+
Compute nền (theo đơn vị)	4,6tr	6,9tr	9,2tr	9,9tr	13,8tr	13,8tr	19,8tr	22,36tr	~60tr
Phụ phí card GPU / tháng	400k	2,1tr	800k	6,1tr	6,2tr	9,2tr	13,2tr	45,64tr	45,64tr × N
Theo giờ (tham khảo)	9.000đ	16.000đ	18.000đ	28.000đ	35.000đ	40.000đ	58.000đ	120.000đ	từ 240.000đ
Multi-GPU (NVLink)	—	—	—	—	—	—			✓ (2–8×)
Phù hợp	Inference nhẹ / học tập	Serving tiết kiệm điện	Render / dev / train tiết kiệm — card consumer, không ECC/NVLink	Train model trung / VRAM lớn	Serving LLM (FP8)	Train chuẩn DC	Fine-tune LLM	Train/inference LLM flagship	Train phân tán LLM lớn
	Chọn gói	Chọn gói	Chọn gói	Chọn gói	Chọn gói	Chọn gói	Chọn gói	Chọn gói	Chọn gói

Cloud GPU

Cloud GPU dành cho ai?

Kỹ sư & đội ngũ AI/ML

Startup AI

Nhóm nghiên cứu / trường học

Studio render & đồ họa 3D

Tính năng nổi bật

Công cụ cho Developer

Vì sao chọn STEP Cloud GPU?

Thông số kỹ thuật

Phù hợp với

Bắt đầu trong 3 bước

Chọn GPU theo mô hình

Khởi tạo & dựng môi trường

Train/serving & tắt khi xong

Cấu hình tham khảo & giá

Bảng giá đơn vị

Câu hỏi thường gặp

Sẵn sàng triển khai Cloud GPU?

Hạng mục	Chi tiết
Card GPU — NVIDIA T4 16GB	400.000đ / card / tháng
Card GPU — NVIDIA L4 24GB	2.100.000đ / card / tháng
Card GPU — NVIDIA RTX 4090 24GB	800.000đ / card / tháng
Card GPU — NVIDIA RTX A6000 48GB	6.100.000đ / card / tháng
Card GPU — NVIDIA L40S 48GB	6.200.000đ / card / tháng
Card GPU — NVIDIA A100 40GB	9.200.000đ / card / tháng
Card GPU — NVIDIA A100 80GB	13.200.000đ / card / tháng
Card GPU — NVIDIA H100 80GB	45.640.000đ / card / tháng (multi-GPU = × số card)
vCPU	80.000đ / core / tháng
RAM	80.000đ / GB / tháng
Enterprise SSD	5.000đ / GB / tháng
Enterprise NVMe	7.000đ / GB / tháng
Backup snapshot	1.000đ × dung lượng ổ(GB) × X × Y (X = lần backup/tuần · Y = số bản giữ)
IP Public	IP đầu miễn phí · 100.000đ / IP / tháng
Băng thông	300 Mbps đầu miễn phí · block 50 Mbps thêm 100.000đ / tháng
IP Private / VLAN	Miễn phí, không giới hạn
Load Balancer (HAProxy)	500.000đ / tháng
Monitoring (Grafana + Prometheus)	150.000đ / tháng
Snapshot tự động	300.000đ / cụm / tháng
Docker / Kubernetes cài sẵn	Miễn phí (cụm ≥ 3 node)
S3 Standard (Hot)	1.500đ / GB / tháng — truy cập < 30 ngày
S3 Infrequent (Cool)	800đ / GB / tháng — 30–90 ngày
S3 Archive	300đ / GB / tháng — > 90 ngày (retrieval 4–12h)
Egress Internet (S3)	500đ / GB — phần vượt 10TB/tháng
Egress nội bộ Cloud ↔ S3	Miễn phí
Managed Service — Bronze	+5% phí/tháng · uptime 99,9% · P1 8×5 ≤ 8h · service credit 5% (cap 20%/năm)
Managed Service — Silver	+10% phí/tháng · 24/7 · P1 ≤ 2h · service credit 10% (cap 30%/năm)
Managed Service — Gold	+15% phí/tháng · 24/7 · P1 ≤ 30 phút · service credit 20% (cap 50%/năm)
VAT	10% (xuất hóa đơn đầy đủ)