بهبود عملکرد قابل توجه AMD APU Instinct MI300A در بارهای کاری HPC!

به نظر می‌رسد APUهای Instinct MI300A شرکت AMD بهبود عملکرد قابل توجهی را در بارهای کاری HPC در مقایسه با گرافیک‌های گسسته سنتی ارائه می‌دهند.

گفتنیست که APUهای AMD Instinct MI300A تحقق پلتفرم Exascale APU هستند که سال‌ها پیش ساخته شد. ایده این بود که یک گرافیک بالا رده را به همراه یک پردازنده با کارایی بالا در قالب یک پکیج بسته بندی شود که یک حافظه یکپارچه را پشتیبانی می‌کند. در HPC، این طرح‌های شتاب‌دهنده/کمک پردازنده عملکرد بالاتری در هر وات ارائه می‌کنند، با این وجود به تعداد زیادی پورت، تنظیم و نگهداری برنامه‌ها با میلیون‌ها خط کد نیاز دارند که می‌تواند کمی پیچیده باشد. با این حال، به نظر می‌رسد محققان از دو مدل برنامه نویسی محبوب OpenMP و OpenACC برای استفاده کامل از نسل بعدی APU Juggernaut بهره برده‌اند.

در یک مقاله تحقیقاتی با عنوان «انتقال برنامه‌های HPC به AMD Instinct MI300A با استفاده از حافظه یکپارچه و OpenMP»، از چارچوب OpenFOAM استفاده شده است که یک کتابخانه متن باز نوشته شده به زبان ++C است:

  • ما طرحی از مدل برنامه نویسی APU را ارائه می‌دهیم و سهولت و انعطاف پذیری کدهای پورت کردن در MI300A را با OpenMP نشان خواهیم داد.
  • ما روش خود را برای شتاب افزایشی تولید و به طور گسترده در کد صنعت – OpenFOAM – استفاده می‌کنیم.

از آنجایی که شتاب دهنده AMD Instinct MI300A از یک رابط یکپارچه HBM استفاده می‌کند، نیاز به تکرار داده‌ها را از بین می‌برد و احتیاجی به تمایز برنامه نویسی بین فضا حافظه میزبان و دستگاه ندارد. علاوه بر این، مجموعه نرم افزار ROCm AMD بهینه سازی‌های اضافی را ارائه می‌دهد که به ترکیب تمام بخش‌های APU در یک بسته منسجم و ناهمگن کمک می‌کند. در ادامه یک خلاصه کوچک در مورد APU‌های Instinct MI300A AMD آورده شده است:

  • اولین بسته یکپارچه CPU + GPU
  • بازار هدف ابر کامپیوترهای Exascale
  • AMD MI300A (CPU + GPU یکپارچه)
  • ۱۵۳ میلیارد ترانزیستور
  • تا ۲۴ هسته Zen 4
  • معماری گرافیکی CDNA 3
  • تا ۱۹۲ گیگابایت حافظه HBM3
  • حداکثر ۸ تراشه به علاوه ۸ پکیج حافظه (فرآیند ۵ نانومتری به علاوه ۶ نانومتری)
بهبود عملکرد قابل توجه AMD APU Instinct MI300A در بارهای کاری HPC!

در نتیجه، عملکرد بهره‌وری بزرگی را به همراه دارد. در ارزیابی با استفاده از بنچمارک motor bike HPC OpenFOAM، ای‌پی‌یوهای Instinct MI300A شرکت AMD با سایر پردازنده‌ها از جمله Instinct MI210، شرکت AMD، به علاوه A100 هشتاد گیگابایتی و H100 (80 گیگابایتی) کمپانی انویدیا مقایسه شده است. کارت گرافیک‌های شرکت AMD روی پکیج ROCm 6.0 و نسخه‌های کمپانی انویدیا روی CUDA 12.2.2 اجرا می‌شدند. بنچمارک به گونه‌ای پیکربندی شده بود که برای ۲۰ مرحله زمانی اجرا شود و میانگین زمان اجرا در هر مرحله زمانی (ثانیه) به عنوان شاخص ارزش (FOM) در نظر گرفته شده است. در تمام سه پیکربندی به جز Instinct MI300A، از یک پردازنده مجزا استفاده شده است که از نظر سوکتی بودن قابل تنظیم بوده و با مدیریت حافظه ناهمگون پیکربندی شده است تا امکان دسترسی به حافظه سیستم توسط گرافیک‌ها و اجرای بنچمارک فراهم شود.

نتایج تست‌ها در رابطه با عملکرد APU Instinct MI300A

در رابطه با تست‌ها می‌توان گفت، نتایج با سیستم NVIDIA H100 تطبیق داده شد که بهترین عملکرد گرافیک گسسته را در بین سه تراشه مجزا ارائه می‌کرد، در نهایت APU Instinct MI300A افزایش ۴ برابری نسبت به NVIDIA H100 و همچنین افزایش ۵ برابری نسبت به شتاب‌دهنده Instinct MI210 را نشان داد.

  • OndGPU، بیش از ۶۵ درصد از زمان، صرف انتقال صفحه می‌شود: آپدیت جدول‌های گرافیکی و کپی کردن داده‌ها بین میزبان و دستگاه.
  • در APU، حافظه فیزیکی یکپارچه مشترک بین هسته‌های پردازنده و واحدهای محاسباتی گرافیکی، هزینه‌های اضافی مربوط به انتقال صفحه را به طور کامل حذف می‌کند و در نتیجه باعث افزایش قابل توجهی عملکرد می‌شود.

همچنین مشخص شد که AMD Instinct MI300A با یک بسته پردازنده منحصر به فرد Zen 4 که دو برابر سریعتر از یک پردازنده تک سوکتی Zen 4 است که با یک گرافیک مجزا کار می‌کند. بارگذاری بیش از حد APU MI300A با چندین فرآیند، عملکرد را تا ۲ برابر بهبود بخشید (تست شده با ۳-۶ هسته پردازنده در هر APU) که ​​بسیار بهتر از عدم مقیاس پذیری در پیکربندی dGPU dCPU خواهد بود.

در نتیجه، به نظر می‌رسد که قابلیت‌های محاسباتی Instinct MI300A شرکت AMD در بخش HPC بی‌نظیر خواهد بود. شرکت انویدیا از عملکرد سنتی HPC در نسل بعدی پردازنده بلک‌ول خود فاصله گرفته، زیرا به نظر می‌رسد هوش مصنوعی به موضوع داغ این روزها تبدیل شده است. شرکت AMD قصد دارد با شتاب‌دهنده‌های MI300X و به‌روزرسانی‌های آینده‌اش به این موضوع بپردازد، به نظر می‌رسد که بخش HPC را بیشتر مورد توجه قرار خواهد داد.

مطالب مرتبط:

Adblock test (Why?)

منبع خبر


دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.