Distributed Virtual Switch giúp quản trị network nhất quán trên nhiều host, nhưng cũng khiến sự cố mất kết nối vCenter trở nên nhạy cảm hơn. Nếu thao tác sai, đội vận hành có thể làm mất management network của host hoặc ảnh hưởng port group production đang chạy VM.
Hiểu đúng vấn đề trước khi can thiệp
Khi ESXi mất kết nối vCenter, host vẫn có thể tiếp tục chuyển tiếp traffic cho VM trên Distributed Switch nhờ cấu hình đã được lưu cục bộ. Vấn đề là khả năng thay đổi cấu hình DVS bị hạn chế và các thao tác cleanup hoặc migrate network cần được làm cực kỳ cẩn trọng.
Điểm ưu tiên đầu tiên không phải là xóa DVS, mà là giữ đường quản trị cho host: management vmkernel, uplink vật lý, VLAN quản trị, gateway, DNS và truy cập DCUI/SSH nếu được phép. Mất management network trong lúc xử lý sẽ biến sự cố logic thành sự cố truy cập trực tiếp tại phòng máy.
Các bước xử lý an toàn
Trước khi thay đổi, ghi lại trạng thái uplink, vmnic, port group, VLAN, vmkernel adapter và VM đang gắn vào DVS. Nếu còn truy cập được ESXi Host Client hoặc DCUI, kiểm tra management network và tạo phương án standard switch tạm cho management nếu cần.
Trong nhiều trường hợp, cách an toàn là khôi phục kết nối vCenter trước: sửa DNS, certificate, network, firewall hoặc service vpxa/hostd. Chỉ khi không thể đưa host trở lại vCenter và cần giải phóng cấu hình, mới cân nhắc thao tác dọn DVS thủ công.
Khi nào dùng standard switch tạm
Standard switch tạm hữu ích khi cần đưa management vmkernel ra khỏi DVS để lấy lại quyền quản trị độc lập. Tuy nhiên, cần bảo đảm có uplink vật lý đúng VLAN và không lấy nhầm vmnic đang phục vụ traffic production quan trọng.
Sau khi management network ổn định, có thể xử lý từng nhóm VM hoặc port group. Không nên chuyển hàng loạt VM nếu chưa hiểu VLAN và security policy tương ứng giữa DVS và standard switch.
Phòng tránh từ thiết kế ban đầu
Doanh nghiệp nên có tài liệu network map, naming convention rõ, uplink dự phòng, export cấu hình Distributed Switch và quy trình break-glass cho ESXi. Với cụm quan trọng, đội vận hành cần biết cách truy cập DCUI/iDRAC/iLO để cứu host khi vCenter không còn điều khiển được.
Checklist triển khai nhanh
- Không xóa DVS ngay khi host mất kết nối vCenter.
- Ưu tiên bảo toàn management vmkernel và uplink quản trị.
- Ghi lại vmnic, VLAN, port group và VM trước mọi thay đổi.
- Khôi phục kết nối vCenter nếu có thể trước khi dọn cấu hình thủ công.
- Chuẩn bị standard switch tạm khi cần đưa management network ra khỏi DVS.
Nguyên tắc xử lý sự cố DVS
| Nguyên tắc | Ý nghĩa | Hành động |
|---|---|---|
| Giữ quản trị | Không tự cắt đường vào host | Xác nhận management vmkernel/uplink trước khi đổi. |
| Không đổi hàng loạt | Giảm blast radius | Xử lý từng host hoặc từng VM ít rủi ro. |
| Ghi lại hiện trạng | Có đường quay lui | Chụp cấu hình port group, VLAN, vmnic. |