Thiết kế vSphere HA Cluster để giảm downtime cho máy ảo quan trọng

18/06/2026 · Admin

Thiết kế vSphere HA Cluster để giảm downtime cho máy ảo quan trọng

vSphere HA là một trong những tính năng quan trọng nhất của hạ tầng ảo hóa doanh nghiệp. Khi một ESXi host gặp lỗi, HA có thể khởi động lại các máy ảo trên host còn khỏe trong cùng cluster. Tuy nhiên, HA không phải phép màu: nó chỉ hiệu quả khi cluster còn đủ tài nguyên, network/storage được thiết kế đúng và ứng dụng bên trong VM chịu được việc restart.

Kiến trúc vSphere HA với nhiều host, shared datastore, heartbeat và VM restart

HA bảo vệ điều gì và không bảo vệ điều gì

vSphere HA chủ yếu bảo vệ trước lỗi hạ tầng ở mức host hoặc một số tình huống VM không phản hồi. Khi host chết, VM trên host đó sẽ bị tắt đột ngột và được restart ở host khác. Điều này giúp giảm thời gian gián đoạn, nhưng không giữ phiên làm việc đang chạy như Fault Tolerance hay clustering ở tầng ứng dụng.

HA cũng không thay thế backup, replication hay DR site. Nếu datastore hỏng, ransomware mã hóa dữ liệu, ứng dụng lỗi logic hoặc toàn bộ site mất điện, doanh nghiệp vẫn cần các lớp bảo vệ khác như backup bất biến, vSphere Replication, SRM hoặc DR runbook.

Admission control là điểm sống còn

Admission control giúp đảm bảo cluster còn đủ tài nguyên để restart VM khi một hoặc nhiều host lỗi. Nếu tắt admission control để tận dụng tối đa tài nguyên, cluster có thể chạy nhiều VM hơn nhưng khi sự cố thật xảy ra, không đủ CPU/RAM để khởi động lại workload quan trọng.

Doanh nghiệp nên xác định mức chịu lỗi N+1 hoặc N+2 theo mức độ quan trọng của hệ thống. Với cluster nhỏ chỉ có hai host, bài toán càng nhạy cảm vì một host lỗi đồng nghĩa mất 50% tài nguyên. Khi đó cần tính toán kỹ sizing, reservation và ưu tiên restart.

Heartbeat, isolation và restart priority

HA dùng network heartbeat và datastore heartbeat để phân biệt host thật sự chết với host chỉ mất đường quản trị. Vì vậy management network nên có redundancy, datastore heartbeat nên thấy nhiều datastore và isolation response phải phù hợp với thiết kế mạng.

Restart priority giúp VM quan trọng được ưu tiên khởi động trước. Tuy nhiên, thứ tự khởi động VM nên đi cùng hiểu biết về phụ thuộc ứng dụng: domain controller, DNS, database, app server, web server và load balancer có thể cần thứ tự rõ ràng.

Kiểm thử định kỳ

Một cluster bật HA nhưng chưa từng test failover là một giả định, không phải cam kết. Doanh nghiệp nên có lịch kiểm thử host maintenance, mô phỏng mất management network, kiểm tra restart priority và đo thời gian ứng dụng quay lại phục vụ người dùng.

Checklist triển khai nhanh

  1. Bật HA ở cấp cluster và kiểm tra HA agent trên từng host.
  2. Thiết lập admission control theo N+1 hoặc N+2 thay vì tắt để chạy quá tải.
  3. Thiết kế management network dự phòng và kiểm tra datastore heartbeat.
  4. Đặt restart priority cho VM hạ tầng như DNS, AD, database, ứng dụng lõi.
  5. Chạy kiểm thử failover định kỳ và ghi nhận RTO thực tế.

HA trong bức tranh bảo vệ tổng thể

Cơ chếBảo vệ tốt trướcKhông thay thế
vSphere HAHost lỗi, VM cần restart trên host khácBackup và DR site
vSphere ReplicationMất VM/site và cần bản sao ở nơi khácHA tức thời trong cluster
BackupXóa nhầm, mã hóa dữ liệu, lỗi logicTự động restart khi host lỗi

Nguồn tham khảo