vSphere HA là một trong những tính năng quan trọng nhất của hạ tầng ảo hóa doanh nghiệp. Khi một ESXi host gặp lỗi, HA có thể khởi động lại các máy ảo trên host còn khỏe trong cùng cluster. Tuy nhiên, HA không phải phép màu: nó chỉ hiệu quả khi cluster còn đủ tài nguyên, network/storage được thiết kế đúng và ứng dụng bên trong VM chịu được việc restart.
HA bảo vệ điều gì và không bảo vệ điều gì
vSphere HA chủ yếu bảo vệ trước lỗi hạ tầng ở mức host hoặc một số tình huống VM không phản hồi. Khi host chết, VM trên host đó sẽ bị tắt đột ngột và được restart ở host khác. Điều này giúp giảm thời gian gián đoạn, nhưng không giữ phiên làm việc đang chạy như Fault Tolerance hay clustering ở tầng ứng dụng.
HA cũng không thay thế backup, replication hay DR site. Nếu datastore hỏng, ransomware mã hóa dữ liệu, ứng dụng lỗi logic hoặc toàn bộ site mất điện, doanh nghiệp vẫn cần các lớp bảo vệ khác như backup bất biến, vSphere Replication, SRM hoặc DR runbook.
Admission control là điểm sống còn
Admission control giúp đảm bảo cluster còn đủ tài nguyên để restart VM khi một hoặc nhiều host lỗi. Nếu tắt admission control để tận dụng tối đa tài nguyên, cluster có thể chạy nhiều VM hơn nhưng khi sự cố thật xảy ra, không đủ CPU/RAM để khởi động lại workload quan trọng.
Doanh nghiệp nên xác định mức chịu lỗi N+1 hoặc N+2 theo mức độ quan trọng của hệ thống. Với cluster nhỏ chỉ có hai host, bài toán càng nhạy cảm vì một host lỗi đồng nghĩa mất 50% tài nguyên. Khi đó cần tính toán kỹ sizing, reservation và ưu tiên restart.
Heartbeat, isolation và restart priority
HA dùng network heartbeat và datastore heartbeat để phân biệt host thật sự chết với host chỉ mất đường quản trị. Vì vậy management network nên có redundancy, datastore heartbeat nên thấy nhiều datastore và isolation response phải phù hợp với thiết kế mạng.
Restart priority giúp VM quan trọng được ưu tiên khởi động trước. Tuy nhiên, thứ tự khởi động VM nên đi cùng hiểu biết về phụ thuộc ứng dụng: domain controller, DNS, database, app server, web server và load balancer có thể cần thứ tự rõ ràng.
Kiểm thử định kỳ
Một cluster bật HA nhưng chưa từng test failover là một giả định, không phải cam kết. Doanh nghiệp nên có lịch kiểm thử host maintenance, mô phỏng mất management network, kiểm tra restart priority và đo thời gian ứng dụng quay lại phục vụ người dùng.
Checklist triển khai nhanh
- Bật HA ở cấp cluster và kiểm tra HA agent trên từng host.
- Thiết lập admission control theo N+1 hoặc N+2 thay vì tắt để chạy quá tải.
- Thiết kế management network dự phòng và kiểm tra datastore heartbeat.
- Đặt restart priority cho VM hạ tầng như DNS, AD, database, ứng dụng lõi.
- Chạy kiểm thử failover định kỳ và ghi nhận RTO thực tế.
HA trong bức tranh bảo vệ tổng thể
| Cơ chế | Bảo vệ tốt trước | Không thay thế |
|---|---|---|
| vSphere HA | Host lỗi, VM cần restart trên host khác | Backup và DR site |
| vSphere Replication | Mất VM/site và cần bản sao ở nơi khác | HA tức thời trong cluster |
| Backup | Xóa nhầm, mã hóa dữ liệu, lỗi logic | Tự động restart khi host lỗi |