هوش مصنوعی DragGAN یک بازیگر جدید در حوزه ویرایشگرهای عکس هوش مصنوعی است که با یک درگ اند دراپ (Drag & Drop) ساده، رویکردی تازه را برای ویرایش عکس به ارمغان میآورد. در حالی که استفاده از DragGAN پس از راهاندازی صحیح آن آسان است، فرآیند راهاندازی اولیه به سطح خاصی از مهارت فنی نیاز دارد.
شما روی چند نقطه کلیک میکنید (بیایید آنها را هندل پوینت (Hande Point) بنامیم) و سپس آنها را به جایی که میخواهید (تارگت پوینت) میکشید. و تمام! تصویر طوری شکل میگیرد که انگار با عصای جادویی جادو شده است. آیا میخواهید برخی از قسمتهای تصویر را دست نخورده نگه دارید؟ نواحی را که میخواهید دست نخورده بماند هایلایت کنید، DragGAN به سلیقه هنری شما احترام میگذارد.
هوش مصنوعی DragGAN، مانند سایر image generator های هوش مصنوعی، از یادگیری ماشینی و شبکههای عصبی استفاده میکند. با این حال، اساساً با سایر ابزارهای محبوب هوش مصنوعی مانند DALL-E 2.0 یا Stable Diffusion متفاوت است.
چه چیزی درگ گن را از سایر ویرایشگرهای تصویر هوش مصنوعی متمایز میکند؟
درگ گن (DragGAN) بر پایه GAN (شبکه متخاصم مولد) ساخته شده است، در حالی که ابزارهایی مانند Midjourney، DALL-E 2.0، Midjourney، Stable Diffusion و غیره بر پایه مدلهای diffusion ساخته شدهاند.
مدلهای GAN و Diffusion هر دو مدلهای مولد (generative) هستند که برای تولید دادههای جدید شبیه دادههایی که روی آنها آموزشدیدهاند طراحی شدهاند. علیرغم این هدف مشترک، روشهای آنها برای مدلسازی مولد بهطور قابلتوجهی متفاوت است.
GAN ها از طریق یک مکانیزم رقابتی بین دو شبکه عصبی عمل میکنند: مولد generator)) و تمیز دهنده discriminator)). وظیفه generator تولید دادههای جدید است، در حالی که نقش discriminator تمایز بین دادههای واقعی و ارگانیک و دادههای تولید شده توسط مولد است. هدف generator فریب discriminator است تا دادههای تولید شدهاش را تحت عنوان «معتبر» بپذیرد، در حالی که تمیز دهنده مهارتهای خود را برای تشخیص این تقلیدها تقویت میکند.
در مقابل، مدلهای diffusion از یک روش مجزا استفاده میکنند. آنها تصویر غیرشفاف را به طور روشمند اصلاح میکنند تا زمانی که تصویری واقعی را نشان دهد. این تکنیک، که نشر (diffusion) نامیده میشود، اساساً در تضاد با مفهوم متراکم کردن تصاویر (condensing) عمل میکند. برای اطمینان از اینکه خروجی تا حد ممکن نزدیک به اصل است، مدلهای diffusion تحت آموزش قرار میگیرند تا اختلاف بین تصاویر تولید شده و تصاویر واقعی را کاهش دهند و از یک تابع اتلاف خاص (loss function) استفاده میکنند که تفاوتهای آنها را کمی میکند.
بنابراین، در اصل، مدلهای GAN و Diffusion مانند دو هنرمند با تخصصهای متفاوت هستند. GAN ها در ایجاد تصاویری که تمایل به واقعیتر بودن دارند برتری دارند. با این حال، آنها میتوانند گراز منابع باشند و از قدرت پردازش کامپیوتر شما مطالبه زیادی داشته باشند. از سوی دیگر، مدلهای Diffusion در تولید تصاویر منحصر به فرد و خلاقانه میدرخشند. آنها ممکن است همیشه به دنبال واقع گرایی در تصاویر نباشند، اما به سیستم قدرتمندی نیاز ندارند.
DragGAN چگونه کار میکند؟
هوش مصنوعی DragGAN توسط گروهی از محققان موسسه مکس پلنک (Max Planck) توسعه داده شد. توسعه DragGAN ناشی از یک نیاز واضح بود: در حالی که GAN ها در تولید تصاویر واقعی عالی عمل میکنند، بهینهسازی بخشهای خاصی از این تصاویر اغلب بسیار چالش برانگیز بوده است. بسیاری از روشهای موجود، که اغلب بر مدلهای سهبعدی یا یادگیری نظارت شده تکیه میکنند، مانند تلاش برای نقاشی با یک قلم موی پهن بودند – آنها فاقد ظرافت و سازگاری مورد نیاز برای انواع مختلف تصاویر بودند.
اینجاست که رویکرد منحصر به فرد هوش مصنوعی DragGAN تفاوت را ایجاد میکند. درگ گن از آنچه دستکاری مبتنی بر نقطه تعاملی (interactive point-based manipulation) نامیده میشود استفاده میکند. به عنوان مثال، اگر ژست گربه شما در یک عکس غیرممکن به نظر میرسد، میتوانید بدون زحمت آن را درست کنید. از چهره عبوس خود در عکس فارغ التحصیلی خود ناراضی هستید؟ نگران نباشید؛ با چند درگ و تنظیمات ساده، میتوانید چهره خود را به یک فارغ التحصیل شاد و موفق تبدیل کنید.
از جنبه فنی، هوش مصنوعی DragGAN در فضای ویژگی GAN عمل میکند. از روشی به نام shifted feature patch loss برای تنظیم دقیق کد پنهان تصویر استفاده میکند و اطمینان حاصل میکند که آن هندل پوینتها به آرامی به سمت مقصد خود حرکت میکنند. ابزار درگگن ارزش خود را در ویرایش تصاویر مختلف، از شیرها و ماشینها گرفته تا مناظر دیدنی، ثابت کرد.
در اصل، DragGAN استاندارد جدیدی را در ویرایش تصویر تعیین میکند. هدف آن ترکیبی از دقت، انعطافپذیری و کاربرد گسترده است، و بنابراین به عنوان یک تغییردهنده بازی در حوزه ویرایش تصویر مصنوعی و واقعی ظاهر میشود.
چگونه از DragGAN AI استفاده کنیم؟
فرقی نمیکند سلفیهای جذاب خودتان باشد یا تصاویر حیوان خانگیتان یا تصویر منظرهای زیبا، DragGAN همه آنها را تحت پوشش قرار میدهد.
در اینجا نحوه استفاده از هوش مصنوعی DragGAN آمده است:
1. مرورگر خود را باز کنید، آدرس وبسایت DragGAN را وارد کنید، و تمام! به رابط DragGAN خوش آمدید.
2. از گوشه سمت چپ بالا مدل مناسبی را انتخاب کنید که با عکس شما مطابقت دارد.
3. در مرحله بعد، روی آن تصویر کلیک کنید. چند نقطه را مشخص کنید (از گزینه «Add point» استفاده کنید). میتوانید چند نقطه دیگر نیز برای نمایش استعداد هنری خود اضافی اضافه کنید.
4. دکمه ” Start” را بزنید و بگذارید جادو شروع شود.
5. همانطور که DragGAN در حال کار روی عکس است، جزئیات مربوط به مراحل تغییر شکل را میتوانید مشاهده کنید.
6. اگر شمارنده پس از رسیدن به 100 خاموش شد، به آرامی روی آن کلیک کنید (دستی آن را متوقف کنید).
7. هنگامی که شاهکار شما آماده شد، یک دکمه دانلود در بالا سمت راست وجود دارد. روی آن کلیک کنید و تصویر ویرایش شده را ذخیره کنید.
8. اگر برای امتحان یک ظاهر جدید وسوسه شدید، روی “Reset Points” کلیک کنید.
هوش مصنوعی DragGAN چقدر هزینه دارد؟
از اواسط آگوست 2023، DragGAN AI در مراحل اولیه توسعه خود است. تیم پشت آن را به صورت رایگان در گیتهاب (GitHub) در دسترس قرار داده است. اگر میخواهید قابلیتهای آن را کشف کنید، میتوانید آن را از صفحه رسمی GitHub پروژه دانلود کنید. این تیم هنوز هیچ اطلاعاتی در مورد قیمت احتمالی آتی یا استراتژیهای کسب درآمد فاش نکرده است.
هوش مصنوعی DragGanچطور عکسها را ادیت میکند؟
درگ گن از آنچه دستکاری مبتنی بر نقطه تعاملی (interactive point-based manipulation) نامیده میشود استفاده میکند. به عنوان مثال، اگر ژست گربه شما در یک عکس غیرممکن به نظر میرسد، میتوانید بدون زحمت آن را درست کنید. از چهره عبوس خود در عکس فارغ التحصیلی خود ناراضی هستید؟ نگران نباشید؛ با چند درگ و تنظیمات ساده، میتوانید چهره خود را به یک فارغ التحصیل شاد و موفق تبدیل کنید.
به طور خلاصه، هوش مصنوعی DragGAN میتواند با تغییر نحوه تعامل و ادیت تصاویر، عکاسی، ویرایش تصویر و صنایع مرتبط را متحول کند. همچنین، فراموش نکنید که در حالی که ویژگیهای آن چشمگیر است، DragGAN AI به قدرت محاسباتی قابل توجهی نیاز دارد. شما به یک کارت گرافیک (GPU) سطح بالا نیاز دارید تا به راحتی آن را روی رایانه خود اجرا کنید. هنگامی که درگ گن در کنار سایر ابزارهای هوش مصنوعی قرار میگیرد، تمرکز آن بر طبیعیتر کردن تصاویر مشهود میشود و این آن را از سایر ادیتورهای عکس محبوب هوش مصنوعی متمایز میکند.