درک صحیح از اینکه چگونه تعیین کنید یک ماشین مجازی در وضعیت Network isolatedقرار گرفته یا Network partitioned، نکات مهم و کلیدی را بدنبال داشت که خالی از لطف ندیدم در چند مقاله به بررسی عمیق تر مباحث مرتبط با شبکه و کلاستر در vSphere بپردازم.

هنگامی که یک کلاستر شامل چندین هاست ESXi را ایجاد می کنید، یکی از هاست ها بعنوان Host master تعیین می گردد که این انتخاب بر اساس تعداد بیشترین دیتااستوری است که هاست می تواند از طریق شبکه management  با آن ارتباط داشته باشد. هنگامی که این failure رخ می دهد، هاستmaster تلاش می کند تا Management IP را پینگ کند. فرض کنید شما نسخه 5.0 را اجرا و آن در حال تلاش برای شناسایی است. فرض آنکه هاست lock خود از روی دیتااستور را آزاد کرده باشد(Storage heartbeat) یا فرض کنید storage heartbeat بصورت موفق است و سپس دو حالت زیر ممکن است رخ دهد( اگر datastore heartbeat با شکست مواجه شود و فرض کند که هاست fail شده است و ماشین های مجازی را ریست نماید)

  • هاست در وضعیت Isolated قرار می گیرد( این در شرایطی است که صرفا تمام هاستها نتوانند هر هاست ESXi دیگری را ببینند)
  • هاست در وضعیت partitioned قرار می گیرد (این در شرایطی است که می توان سایر هاست های ESXi را دید ولی امکان دیدن Host Master نباشد) 

اگر یک هاست به وضعیت partitoned برود، پس از گذشت timeout عمل انتخابات election در سطح کلاستر انجام می شود. سپس یک master داخل partiton انتخاب می شود. این master تلاش خواهد کرد تا از تمام ماشیین های مجازی داخل پارتیشن جدید خودش محافظت نماید هر چند این کار همیشه امکانپذیر نیست. زیرا master اصلی ممکن است هنوز در وضعیت حفاظت از ماشین های مجازی باشد(نگهداشتن یک lock روی ماشینهای مجازی بواسطه فایل سیستم که این قفل روی فایل vmx زده می شود نه فایل vmdk !). هر ماشین مجازی جدیدی ممکن است محافظت بشود یا نشود.

در ادامه توضیحات اگر بخواهم در مورد isolated state هم صحبت کنیم باید گفت HA عمل خاموش کردن یا shutdown را در پاسخ isolation به ماشین مجازی در حال اجرا روی هاست فیزیکی اعمال می کند. HA  ماشین های مجازی که بصورت روشن ترک کرده اند را زیرنظر می گیرد. هنگامی یک هاست در این شرایط هست، قابلیت HA برای ریستارت کردن ماشین های مجازی بعد از یک failure تحت تاثیر واقع می شود. HA فقط یک ماشین مجازی را خاموش می کند چنانچه agent روی هاست تصمیم بگیرد که یک هاست master برای آن ماشین مجازی پاسخگو و معتبر وجود دارد.

در ادامه به دلایل جالبی که در سایت vmware آمده است اشاره ای خواهم داشت که خط بطلانی بر بسیاری از نظریات شخصی ما در خطایابی های پیچیده vmware است. به گفته vmware خطای network partition می تواند بدلایلی همچون VLAN tagging نادرست، خطا روی کارت های شبکه فیزیکی هاستها و حتی روی سوییچ فیزیکی ، پیکربندی یک کلاستر با بکارگیری هاست هایی که صرفا از IPv4 استفاده کرده و برخی دیگر از هاست ها با IPv6 ، انتقال management network برخی هاست ها به یک سوییچ مجازی متفاوت بدون آنکه اولین بار هاست ها به حالت maintenance mode رفته باشد.

همچنین وضعیت isolation نیز در یکی از دو شرایط زیر ممکن است رخ دهد:

  • نشانی های ایزوله ای پیکربندی شده باشد که هاست قادر به پینگ کردن آن آدرس ها نباشد
  • HA agent روی هاست قادر به دسترسی به هر یک از agent های در حال اجرا روی هاست های داخل کلاستر نباشد.
  • منبع

Comments are closed.

حامیان