کودا چیست؟

_CUDA_{مدل برنامه‌نویسی ارائه شده توسط کمپانی}_nVIDIA

_CUDA_مخفف_{Compute Unified Device Architecture}_{هست و دارای معماری است بر پایه
پردازش موازی. این فناوری توسط شرکت انویدیا ابداع شد. در واقع کودا یک موتور
قدرتمند محاسباتی(پردازش)}_GPU_{های
کارت گرافیک های}_nvidia_{می
باشد}_._{پردازنده‌هایی
مثل}_{Intel Core two Duo}_{یا
مثلاً}_{AMD Opteron}_{در
انجام یک یا دو کار همزمان با سرعت بالا، بسیار عالی عمل می‌کنند اما کارت‌های
گرافیک دقیقاً برعکس این عمل می‌کنند؛ به عبارت دیگر،}

_{آنها در انجام چندین کار هم‌زمان به‌صورت تقریباً سریع خوب عمل می‌کنند. برای
اینکه این واقعیت را بهتر درک کنید، تصور کنید که یک مانیتور معمولی با رزولوشن
۱۹۲۰ در ۱۲۰۰ دارید؛ یک کارت گرافیک}_nVIDIA_{باید قادر باشد تا ۲۳۰۴۰۰۰}_{پیکسل مختلف را در چندین بار در دقیقه پردازش کند}_._{برای انجام این کار، کارت‌های گرافیک از چندین}_ALU_{که
مخفف همان}_{Arithmetic
Logic Unit}_{است استفاده می‌کنند.
خوشبختانه}_ALU_{های کمپانی}_nVIDIA_{کاملاً قابل برنامه‌ریزی هستند که قابلیت شخصی‌سازی کامل برای
انجام محاسبات دلخواه‌ را به ما می‌دهد}_.

_{همان‌طور که گفته شد،}_CUDA_{به دولوپر اجازه می‌دهد تا تعداد
زیادی از}_ALU_{های داخل پردازندهٔ کارت گرافیک را به
خدمت خود درآورد و این در مقایسه با چند}_ALU_{یی که به‌صورت مجازی در}_CPU_{ایجاد شده است، بسیار به صرفه‌تر است.}

_CUDA_{کاملاً برای الگوریتم‌های
موازی طراحی شده است:}

_{برای اینکه از}_GPU_{به نحوه احسن بهره ببرید،
باید از تعداد زیادی تِرِد استفاده کنید. به طور کلی، هرچه تِرِد بیشتری
داشته باشید، بهتر است. بسیاری از الگوریتم‌های سریال (پیاپی)، معادل‌های موازی
نیز دارند اما بعضی از آنها فاقد این معادل هستند. در صورتی که شما نتوانید مساله
خود را به حداقل ۱۰۰۰}_{تِرِد
بشکنید، احتمالاً}_CUDA_{گزینه
ایده‌آلی برایتان محسوب نمی‌شود}_.

_CUDA_{برای محاسبات
عددی عالی است:}

_{برای انجام محاسبات عددی بهتر است که از}_CUDA_{استفاده کنید زیرا این کار را
به خوبی انجام خواهد داد. محاسبهٔ اعدادی از نوع}_Float_یا_Integer_{های ۳۲بیتی هیچ مشکلی در محاسبات
نخواهند داشت. فقط در طراحی الگوریتم خود با}_CUDA_{بر روی کارت‌های گرافیک عادی، تا جایی
که امکان دارد و نیاز نیست، از}_{Double Float}_{استفاده
نکنید.}

_CUDA_{برای دیتاست‌ها
عالی است:}

_اکثر_CPU_{ها
فقط چند مگابایت کش لایهٔ دو دارند، در حالی که ممکن است الگوریتم‌ ما نیاز به
مقدار بیشتری داشته باشد و با دیتاستی کار کنیم که مثلاً ۵۰۰ مگابایت فضا نیاز
دارد؛ اینجا دیگر کش لایهٔ دو به کار ما نخواهد آمد}_.

_{اینترفیس حافظه با پردازنده در}_GPU_{خیلی متفاوت‌تر از}_CPU_است._GPU_{از تعداد زیادی ارتباط موازی برای
ارتباط با حافظه استفاده می‌کند؛ مثلاً کارت}_GTX280_{از یک اینترفیس ۵۱۲ بیتی برای ارتباط
با حافظه}_GDDR3_{خود
استفاده می‌کند. این نوع از اینترفیس‌‌ها مسلماً ده‌ها برابر سریع‌تر از}_CPU_{ها با حافظه ارتباط برقرار کرده و داده‌ها
را سریع‌تر انتقال می‌‌دهند که قابلیت بسیار جذابی است}_.

_{همچنین باید به این نکته نیز اشاره کنیم که اکثر کارت‌‌های
گرافیک موجود در بازار حدوداً ۱ گیگابایت حافظه دارند و}_nVIDIA_{با استفاده از}_CUDA_{می‌تواند تا ۴ گیگابایت را نیز از
حافظهٔ رم موجود در سیستم برای کارهای خود استفاده کند (البته کارت‌هایی که این
ویژگی‌ را دارند کمی گران‌تر از کارت‌های عادی هستند)}

_{نوشتن کِرنِل در}_:CUDA

_{همان‌طور که قبلاً اشاره کردیم،}_CUDA_{می‌تواند از تمامی قابلیت‌های زبان
برنامه‌نویسی}_C_{بهره
ببرد}_._{این
خبر خوبی است زیرا اکثر دولوپرها با زبان}_C_{آشنایی دارند. باز هم همان‌طور که
اشاره کردیم، کانسِپت اولیهٔ}_CUDA_{بر
روی صدها تِرِد که به‌صورت موازی پردازش می‌شوند، استوار است.}

_{نوشتن برنامه با}_:CUDA

_{یکی از مسائلی که باید به یاد داشته باشید این است که لازم نیست
تمامی قسمت‌های برنامهٔ شما با}_CUDA_{نوشته
شده باشد. برای مثال، اگر یک برنامهٔ تجاری برای پلتفرم‌‌های مختلف می‌نویسید که
ممکن است در آینده توسعه یابد، احتمالاً یک اینترفیس با زبان‌‌های مختلف
خواهید نوشت و ویژگی‌های مختلفی را نیز به برنامه خود اضافه خواهید کرد و البته
شاید بسیاری از این کد‌‌ها را با}_C++_{بنویسید
و یا هر زبانی که آن را ترجیح می‌دهید}_.

_{سپس، زمانی که نیاز به نوعی از محاسبات خاص دارید، برنامه‌ٔ
شما می‌تواند به راحتی کِرنِل}_CUDA_{را
صدا بزند تا به کمک شما بیاید. پس ایدهٔ اصلی این است که به سادگی}_CUDA_{را
برای انجام محاسبات و یا هر حوزه‌ٔ مشخصی که نیاز دارید، فراخوانی کنید}_.

_{در پایان هم یادآوری این نکته ارزشمند است که}_CUDA_{برای کار با کارت‌های گرافیک}_nVIDIA_{طراحی شده است اما با این حال می‌تواند
به‌صورت مجازی بر روی هر}_CPU_{یی نیز کار کند. البته در نظر داشته
باشید که آنقدر مجهز نخواهد بود که مثل آنچه که توضیح دادیم، بر روی}_CPU_{نیز سریع باشد.}

سید احمد فرزادیان پنج‌شنبه 28 تیر 1397 ساعت 11:32

CUDA Programming Applications

CUDA Programming Applications

درباره من