vSphere HA là một trong những tính năng quan trọng nhất của hạ tầng ảo hóa doanh nghiệp. Khi một ESXi host gặp lỗi, HA có thể khởi động lại các máy ảo trên host còn khỏe trong cùng cluster. Tuy nhiên, HA không phải phép màu: nó chỉ hiệu quả khi cluster còn đủ tài nguyên, network/storage được thiết kế đúng và ứng dụng bên trong VM chịu được việc restart.

Kiến trúc vSphere HA với nhiều host, shared datastore, heartbeat và VM restart

HA bảo vệ điều gì và không bảo vệ điều gì

vSphere HA chủ yếu bảo vệ trước lỗi hạ tầng ở mức host hoặc một số tình huống VM không phản hồi. Khi host chết, VM trên host đó sẽ bị tắt đột ngột và được restart ở host khác. Điều này giúp giảm thời gian gián đoạn, nhưng không giữ phiên làm việc đang chạy như Fault Tolerance hay clustering ở tầng ứng dụng.

HA cũng không thay thế backup, replication hay DR site. Nếu datastore hỏng, ransomware mã hóa dữ liệu, ứng dụng lỗi logic hoặc toàn bộ site mất điện, doanh nghiệp vẫn cần các lớp bảo vệ khác như backup bất biến, vSphere Replication, SRM hoặc DR runbook.

Admission control là điểm sống còn

Admission control giúp đảm bảo cluster còn đủ tài nguyên để restart VM khi một hoặc nhiều host lỗi. Nếu tắt admission control để tận dụng tối đa tài nguyên, cluster có thể chạy nhiều VM hơn nhưng khi sự cố thật xảy ra, không đủ CPU/RAM để khởi động lại workload quan trọng.

Doanh nghiệp nên xác định mức chịu lỗi N+1 hoặc N+2 theo mức độ quan trọng của hệ thống. Với cluster nhỏ chỉ có hai host, bài toán càng nhạy cảm vì một host lỗi đồng nghĩa mất 50% tài nguyên. Khi đó cần tính toán kỹ sizing, reservation và ưu tiên restart.

Heartbeat, isolation và restart priority

HA dùng network heartbeat và datastore heartbeat để phân biệt host thật sự chết với host chỉ mất đường quản trị. Vì vậy management network nên có redundancy, datastore heartbeat nên thấy nhiều datastore và isolation response phải phù hợp với thiết kế mạng.

Restart priority giúp VM quan trọng được ưu tiên khởi động trước. Tuy nhiên, thứ tự khởi động VM nên đi cùng hiểu biết về phụ thuộc ứng dụng: domain controller, DNS, database, app server, web server và load balancer có thể cần thứ tự rõ ràng.

Kiểm thử định kỳ

Một cluster bật HA nhưng chưa từng test failover là một giả định, không phải cam kết. Doanh nghiệp nên có lịch kiểm thử host maintenance, mô phỏng mất management network, kiểm tra restart priority và đo thời gian ứng dụng quay lại phục vụ người dùng.

Checklist triển khai nhanh

Bật HA ở cấp cluster và kiểm tra HA agent trên từng host.
Thiết lập admission control theo N+1 hoặc N+2 thay vì tắt để chạy quá tải.
Thiết kế management network dự phòng và kiểm tra datastore heartbeat.
Đặt restart priority cho VM hạ tầng như DNS, AD, database, ứng dụng lõi.
Chạy kiểm thử failover định kỳ và ghi nhận RTO thực tế.

HA trong bức tranh bảo vệ tổng thể

Cơ chế	Bảo vệ tốt trước	Không thay thế
vSphere HA	Host lỗi, VM cần restart trên host khác	Backup và DR site
vSphere Replication	Mất VM/site và cần bản sao ở nơi khác	HA tức thời trong cluster
Backup	Xóa nhầm, mã hóa dữ liệu, lỗi logic	Tự động restart khi host lỗi

Nguồn tham khảo

Broadcom TechDocs - How vSphere HA Works Broadcom Knowledge Base - vSphere HA Best Practices

Thiết kế vSphere HA Cluster để giảm downtime cho máy ảo quan trọng

HA bảo vệ điều gì và không bảo vệ điều gì

Admission control là điểm sống còn

Heartbeat, isolation và restart priority

Kiểm thử định kỳ

Checklist triển khai nhanh

HA trong bức tranh bảo vệ tổng thể

Nguồn tham khảo

Bài viết liên quan

Cài đặt vCenter và thêm ESXi host vào Datacenter đúng chuẩn vận hành

Bảo vệ vSphere trước ransomware: vCenter, ESXi Shell, phân đoạn mạng và backup bất biến

VCF 9.0 và tư duy AMPRS: kiến trúc Private Cloud sau thời Broadcom