هوش مصنوعی DragGAN یک بازیگر جدید در حوزه ویرایشگرهای عکس هوش مصنوعی است که با یک درگ اند دراپ (Drag & Drop) ساده، رویکردی تازه را برای ویرایش عکس به ارمغان می‌آورد. در حالی که استفاده از DragGAN پس از راه‌اندازی صحیح آن آسان است، فرآیند راه‌اندازی اولیه به سطح خاصی از مهارت فنی نیاز دارد.

شما روی چند نقطه کلیک می‌کنید (بیایید آنها را هندل پوینت (Hande Point) بنامیم) و سپس آنها را به جایی که می‌خواهید (تارگت پوینت) می‌کشید. و تمام! تصویر طوری شکل می‌گیرد که انگار با عصای جادویی جادو شده است. آیا می‌خواهید برخی از قسمت‌های تصویر را دست نخورده نگه دارید؟ نواحی را که می‌خواهید دست نخورده بماند هایلایت کنید، DragGAN به سلیقه هنری شما احترام می‌گذارد.

هوش مصنوعی DragGAN، مانند سایر image generator های هوش مصنوعی، از یادگیری ماشینی و شبکه‌های عصبی استفاده می‌کند. با این حال، اساساً با سایر ابزارهای محبوب هوش مصنوعی مانند DALL-E 2.0 یا Stable Diffusion متفاوت است

چه چیزی درگ ‌گن را از سایر ویرایشگرهای تصویر هوش مصنوعی متمایز می‌کند؟

درگ ‌گن (DragGAN) بر پایه GAN (شبکه متخاصم مولد) ساخته شده است، در حالی که ابزارهایی مانند Midjourney، DALL-E 2.0، Midjourney، Stable Diffusion و غیره بر پایه مدل‌های diffusion ساخته شده‌اند.

مدل‌های GAN و Diffusion هر دو مدل‌های مولد (generative) هستند که برای تولید داده‌های جدید شبیه داده‌هایی که روی آن‌ها آموزش‌دیده‌اند طراحی شده‌اند. علی‌رغم این هدف مشترک، روش‌های آنها برای مدل‌سازی مولد به‌طور قابل‌توجهی متفاوت است.

GAN ها از طریق یک مکانیزم رقابتی بین دو شبکه عصبی عمل می‌کنند: مولد generator)) و تمیز دهنده discriminator)). وظیفه generator تولید داده‌های جدید است، در حالی که نقش discriminator تمایز بین داده‌های واقعی و ارگانیک و داده‌های تولید شده توسط مولد است. هدف generator فریب discriminator است تا داده‌های تولید شده‌اش را تحت عنوان «معتبر» بپذیرد، در حالی که تمیز دهنده مهارت‌های خود را برای تشخیص این تقلیدها تقویت می‌کند.

در مقابل، مدل‌های diffusion از یک روش مجزا استفاده می‌کنند. آن‌ها تصویر غیرشفاف را به طور روشمند اصلاح می‌کنند تا زمانی که تصویری واقعی را نشان دهد. این تکنیک، که نشر (diffusion) نامیده می‌شود، اساساً در تضاد با مفهوم متراکم کردن تصاویر (condensing) عمل می‌کند. برای اطمینان از اینکه خروجی تا حد ممکن نزدیک به اصل است، مدل‌های diffusion تحت آموزش قرار می‌گیرند تا اختلاف بین تصاویر تولید شده و تصاویر واقعی را کاهش دهند و از یک تابع اتلاف خاص (loss function) استفاده می‌کنند که تفاوت‌های آنها را کمی می‌کند.

بنابراین، در اصل، مدل‌های GAN و Diffusion مانند دو هنرمند با تخصص‌های متفاوت هستند. GAN ها در ایجاد تصاویری که تمایل به واقعی‌تر بودن دارند برتری دارند. با این حال، آن‌ها می‌توانند گراز منابع باشند و از قدرت پردازش کامپیوتر شما مطالبه زیادی داشته باشند. از سوی دیگر، مدل‌های Diffusion در تولید تصاویر منحصر به فرد و خلاقانه می‌درخشند. آنها ممکن است همیشه به دنبال واقع گرایی در تصاویر نباشند، اما به سیستم قدرتمندی نیاز ندارند.

DragGAN چگونه کار می‌کند؟

هوش مصنوعی DragGAN توسط گروهی از محققان موسسه مکس پلنک (Max Planck) توسعه داده شد. توسعه DragGAN ناشی از یک نیاز واضح بود: در حالی که GAN ها در تولید تصاویر واقعی عالی عمل می‌کنند، بهینه‌سازی بخش‌های خاصی از این تصاویر اغلب بسیار چالش برانگیز بوده است. بسیاری از روش‌های موجود، که اغلب بر مدل‌های سه‌بعدی یا یادگیری نظارت شده تکیه می‌کنند، مانند تلاش برای نقاشی با یک قلم موی پهن بودند آنها فاقد ظرافت و سازگاری مورد نیاز برای انواع مختلف تصاویر بودند.

اینجاست که رویکرد منحصر به فرد هوش مصنوعی DragGAN تفاوت را ایجاد می‌کند. درگ گن از آنچه دستکاری مبتنی بر نقطه تعاملی (interactive point-based manipulation) نامیده می‌شود استفاده می‌کند. به عنوان مثال، اگر ژست گربه شما در یک عکس غیرممکن به نظر می‌رسد، می‌توانید بدون زحمت آن را درست کنید. از چهره عبوس خود در عکس فارغ التحصیلی خود ناراضی هستید؟ نگران نباشید؛ با چند درگ و تنظیمات ساده، می‌توانید چهره خود را به یک فارغ التحصیل شاد و موفق تبدیل کنید.

از جنبه فنی، هوش مصنوعی DragGAN در فضای ویژگی GAN عمل می‌کند. از روشی به نام shifted feature patch loss برای تنظیم دقیق کد پنهان تصویر استفاده می‌کند و اطمینان حاصل می‌کند که آن هندل پوینت‌ها به آرامی به سمت مقصد خود حرکت می‌کنند. ابزار درگ‌گن ارزش خود را در ویرایش تصاویر مختلف، از شیرها و ماشین‌ها گرفته تا مناظر دیدنی، ثابت کرد.

در اصل، DragGAN استاندارد جدیدی را در ویرایش تصویر تعیین می‌کند. هدف آن ترکیبی از دقت، انعطاف‌پذیری و کاربرد گسترده است، و بنابراین به عنوان یک تغییر‌دهنده بازی در حوزه ویرایش تصویر مصنوعی و واقعی ظاهر می‌شود.

چگونه از DragGAN AI استفاده کنیم؟

فرقی نمی‌کند سلفی‌های جذاب خودتان باشد یا تصاویر حیوان خانگی‌تان یا تصویر منظره‌ای زیبا، DragGAN همه آنها را تحت پوشش قرار می‌دهد.

در اینجا نحوه استفاده از هوش مصنوعی DragGAN آمده است:

1.      مرورگر خود را باز کنید، آدرس وبسایت DragGAN را وارد کنید، و تمام! به رابط DragGAN خوش آمدید.

2.      از گوشه سمت چپ بالا مدل مناسبی را انتخاب کنید که با عکس شما مطابقت دارد.

3.      در مرحله بعد، روی آن تصویر کلیک کنید. چند نقطه را مشخص کنید (از گزینه «Add point» استفاده کنید). می‌توانید چند نقطه دیگر نیز برای نمایش استعداد هنری خود اضافی اضافه کنید.

4.      دکمه ” Start” را بزنید و بگذارید جادو شروع شود.

5.      همانطور که DragGAN در حال کار روی عکس است، جزئیات مربوط به مراحل تغییر شکل را می‌توانید مشاهده کنید.

6.      اگر شمارنده پس از رسیدن به 100 خاموش شد، به آرامی روی آن کلیک کنید (دستی آن را متوقف کنید).

7.      هنگامی که شاهکار شما آماده شد، یک دکمه دانلود در بالا سمت راست وجود دارد. روی آن کلیک کنید و تصویر ویرایش شده را ذخیره کنید.

8.      اگر برای امتحان یک ظاهر جدید وسوسه شدید، روی “Reset Points” کلیک کنید.

هوش مصنوعی DragGAN چقدر هزینه دارد؟

از اواسط آگوست 2023، DragGAN AI در مراحل اولیه توسعه خود است. تیم پشت آن را به صورت رایگان در گیت‌هاب (GitHub) در دسترس قرار داده است. اگر می‌خواهید قابلیت‌های آن را کشف کنید، می‌توانید آن را از صفحه رسمی GitHub پروژه دانلود کنید. این تیم هنوز هیچ اطلاعاتی در مورد قیمت‌ احتمالی آتی یا استراتژی‌های کسب درآمد فاش نکرده است.

هوش مصنوعی DragGan‌چطور عکس‌ها را ادیت می‌کند؟

درگ گن از آنچه دستکاری مبتنی بر نقطه تعاملی (interactive point-based manipulation) نامیده می‌شود استفاده می‌کند. به عنوان مثال، اگر ژست گربه شما در یک عکس غیرممکن به نظر می‌رسد، می‌توانید بدون زحمت آن را درست کنید. از چهره عبوس خود در عکس فارغ التحصیلی خود ناراضی هستید؟ نگران نباشید؛ با چند درگ و تنظیمات ساده، می‌توانید چهره خود را به یک فارغ التحصیل شاد و موفق تبدیل کنید.

 

به طور خلاصه، هوش مصنوعی DragGAN می‌تواند با تغییر نحوه تعامل و ادیت تصاویر، عکاسی، ویرایش تصویر و صنایع مرتبط را متحول کند. همچنین، فراموش نکنید که در حالی که ویژگی‌های آن چشمگیر است، DragGAN AI به قدرت محاسباتی قابل توجهی نیاز دارد. شما به یک کارت گرافیک (GPU) سطح بالا نیاز دارید تا به راحتی آن را روی رایانه خود اجرا کنید. هنگامی که درگ گن در کنار سایر ابزارهای هوش مصنوعی قرار می‌گیرد، تمرکز آن بر طبیعی‌تر کردن تصاویر مشهود می‌شود و این آن را از سایر ادیتورهای عکس محبوب هوش مصنوعی متمایز می‌کند.