skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

اپلیکیشن و نرم‌افزار

نسرین ابوئی نویسنده میهمان

نقاشی با کلمات؛ تاریخچه هوش مصنوعی در تبدیل متن به تصویر

نسرین ابوئی
نویسنده میهمان

۲۱ اردیبهشت ۱۴۰۳

زمان مطالعه : ۱۱ دقیقه

تاریخ به‌روزرسانی: ۱۹ اردیبهشت ۱۴۰۳

پس از عرضه جدید Stable Diffusion XL fine-tuning به بازار در Replicate و گذشت چند ماه از سالگرد یک سالگی Stable Diffusion، اکنون فرصتی عالی است که به عقب برگردیم و بررسی کنیم که چگونه هوش مصنوعی در تبدیل متن به تصویر نسبت به گذشته بهبود یافته است.

ما شاهد هستیم که تصاویر تولید شده توسط هوش مصنوعی از مشکلات بصری و نویزهای نامفهوم خلاص می‌شوند و به تصاویر هنری باکیفیت بالا نزدیک می‌شوند. به گونه‌ای که گاه از قلم موی یک نقاش یا رندر دارای جزئیات یک تصویرگر قابل تشخیص نیستند.

در این مطلب، درمورد تکامل هوش مصنوعی در تولید متن به تصویر صحبت می‌کنیم تا درک کنیم که در چند سال گذشته، از تجربیات اولیه GAN تا آخرین مدل‌های عرضه شده در بازار، چقدر پیشرفت کرده‌ایم.

قبل از پیشرفت

برای جشن گرفتن اولین سالگرد Stable Diffusion، ابزار text-to-image AI playground tool با جدیدترین مدل Stable Diffusion XL 1.0  به‌روزرسانی شده است.

Zoo یک اپلیکیشن وب منبع باز برای مقایسه مدل‌های تبدیل متن به تصویر است. Zoo به شما امکان می‌دهد مدل‌های مختلف تولید تصویر را با یکدیگر مقایسه کنید. بنابراین، برای مثال، می‌توانید نحوه بهبود Stable Diffusion و سایر مدل‌های هوش مصنوعی متن به تصویر را در طول زمان، به طور همزمان مقایسه کنید. Zoo شامل Stable Diffusion 1.5، Stable Diffusion 2.1، Stable Diffusion XL 1.0، Kandinski 2.2، DALL·E 2، Deepfloyd IF و Material Diffusion است.

Replicate Zoo: مکانی تخصصی برای تبدیل متن به تصویر، جایی که می‌توانید مدل‌های هوش مصنوعی متن به تصویر را در کنار یکدیگر مقایسه کنید.

CLIP + DALL·E

همانطور که می‌دانیم اجرای هوش مصنوعی مولد در تبدیل متن به تصویر در ژانویه ۲۰۲۱ و پس از عرضه مدل CLIP توسط OpenAI آغاز شد.

CLIP یک مدل منبع باز از OpenAI است که توسط تصاویر دارای زیرنویس جمع‌آوری‌شده از وب آموزش دیده است و می‌تواند تصاویر و متن را در هر فضای تعبیه ‌شده طبقه‌بندی و پخش کند. این بدان معنی است که درک معنایی از آنچه در تصویر مورد نظر اتفاق می‌افتد را دارد. به عنوان مثال، اگر به CLIP عکسی از یک موز بدهید، این عکس ارتباط نزدیکی با متن «موز زرد» در فضای تعبیه شده خواهد داشت.

این نوع درک چند وجهی از تصاویر و متن، یک عنصر اساسی مهم در هوش مصنوعی متن به تصویر است، زیرا می‌توانیم از آن کمک بگیریم تا نسل‌های هوش مصنوعی متن به تصویر، تصویر نتیجه را مانند دستور متن داده شده ارائه دهند.

Advadnoun’s DeepDaze

اولین تجربه منبع باز برای تبدیل متن به تصویر AI توسط advadnoun در ژانویه ۲۰۲۱ منتشر شد.

Deep Daze در واقع یک colab notebook است که advadnoun آن را به اشتراک گذاشته است. و برای تولید آن مدل CLIP OpenAI و مدل SIREN را به منظور ایجاد تصاویر تقریباً خوانا ترکیب کرده است. شما می‌توانید در تصاویر زیر، ابتدایی بودن و شباهت به تصاویر فوری را مشاهده کنید، اما تصاویر همه بسیار انتزاعی هستند و با رئالیسم یا موضوعات واضح تناسب ندارند.

در ادامه تعدادی از اولین تصاویر تولید شده با DeepDaze را می‌بینیم. جالب‌ترین تصویر درختان صنوبر در غروب آفتاب است که به نظر می‌رسد تقریباً می‌تواند یک نقاشی امپرسیونیستی انتزاعی باشد.

صنوبرها در غروب آفتاب – 10 ژانویه 2021 – advadnoun
شخص انیمه بی‌نام – 10 ژانویه 2021 – advadnoun
خانه پرنده‌ای که شبیه صندلی است – 20 ژانویه 2021 – JasonCobill
زنی با لباس سبز در حال رقصیدن در یک قلعه قرون وسطایی – 10 ژانویه ۲۰۲۱ – MasterScrat

Advadnoun’s The BigSleep

پس از عرضه قبلی و در حدود یک هفته بعد advadnoun یک colab notebook دیگر به نام The BigSleep را به اشتراک گذاشت. این نوت بوک جدید ترکیبی از مدل CLIP و مدل BigGAN را نشان می‌دهد.

BigSleep پیشرفت واضحی در ایجاد صحنه‌های خوانا نشان داد. اما هنوز درک تصاویر دشوار بود. چون تصاویر تولیدی پر از مصنوعات و خطاهای عجیب بود.

تصویر جالب در میان این تصاویر صحنه‌ای با رنگ‌های زنده است. ابرها واقع گرایانه هستند و رنگ‌های پر جنب و جوش شبیه شاخ و برگ‌های پاییزی به نظر می‌رسند.

اهرام بزرگ توسط یک جادوگر به منشور تبدیل شدند – 17 ژانویه ۲۰۲۱ – Wiskkey
صحنه‌ای با رنگ‌های زنده – 17 ژانویه ۲۰۲۱ – Wiskkey
تصویر از The Big Sleep notebook - 17 ژانویه 2021 - advadnoun
تصویر از The Big Sleep notebook – ژانویه ۲۰۲۱ – advadnoun
یک گربه سیاه در بالای ساعت قرمز خوابیده – 17 ژانویه ۲۰۲۱ – Wiskkey

VQGAN+CLIP

در آوریل ۲۰۲۱، RiversHaveWings مجموعه‌ای از colab notebookها را به اشتراک گذاشت که ترکیبی از VQGAN و CLIP بودند.

VQGAN+CLIP از نظر بازآفرینی ظاهر و احساس هنری یک گام بزرگ به جلو بود. متوجه خواهید شد که تصاویر زیر در حال شبیه شدن به درخواست‌ها هستند و بافت‌های هنری مانند ضربه‌های قلم مو و نشانه‌های مداد ظاهر می‌شوند.

در ادامه تعدادی از تصاویر جالب VQGAN+CLIP وجود دارد:

ربات‌ها در هنر، VQGAN+CLIP، ژوئیه ۲۰۲۱ – Sylvie
برج بابل اثر J.M.W. Turner، VQGAN+CLIP، آوریل ۲۰۲۱- K Crowson، S Biderman و همکاران.
طراحی یک آبشار با مداد رنگی، VQGAN+CLIP، آوریل ۲۰۲۱ – K Crowson، S Biderman و همکاران.
طرح اینترنت مجموعه‌ای از لوله‌هاست توسط داوینچی، VQGAN+CLIP، دسامبر ۲۰۲۱- anotherjesse
سفینه فضایی، VQGAN+CLIP، دسامبر ۲۰۲۱- anotherjesse

Pixray

Pixray یک مدل تولید تصویر مهم در تاریخ Replicate بود. این مدل که ابتدا در ژوئن 2021 منتشر شد، اولین مدل تبدیل متن به تصویر در Replicate بود که تا اوایل سال 2022 به ده‌ها هزار اجرا رسید. و تا به امروز در مجموع 1.3 میلیون بار اجرا شده است.

نقاشی آبرنگ از یک کتابخانه قدیمی زیبا، Pixray
استفاده از هنرمندان به عنوان مثال، به طوری که هر کسی بتواند هنر شگفت انگیزی خلق کند، برای بشریت جنبه‌های مثبت باورنکردنی خواهد داشت، اما برای اکثر هنرمندان جنبه منفی خواهد داشت…، Pixray
برادران سوپرماریو  Splafluted Level، Pixray
یک غرفه دنج ژاپنی رامن pixelart، Pixray

DALL·E 2

در آوریل 2022، کل زمینه تبدیل متن به تصویر شروع به انتشار مدل‌های diffusion  کرد.

در این زمان OpenAI هم DALL·E 2 را معرفی کرد و مقاله جدیدی را منتشر کرد که جزئیات بهبودهای آنها را توضیح می‎داد و نشان می‎داد که چگونه استفاده از مدل‎هایdiffusion  کیفیت و ثبات کلی تصویر را بهبود می‌بخشد. DALL·E 2 به عنوان یک محصول منبع بسته منتشر شد که در ابتدا فقط برای مجموعه کوچکی از کاربران بتا در دسترس بود.

گربه با کت و شلوار و کراوات، در خیابان 24. bart station، DALL·E 2
گربه با کلاه قرمز، DALL·E 2

DALL·E Mini

مدل محبوب بعدی تبدیل متن به تصویر هوش مصنوعی DALL·E Mini  است. این مدل در جولای 2021، به عنوان یک مدل متن به تصویر متن باز توسط Boris Dayma و همکاران منتشر شد.

بوریس یک بررسی عمیق در مورد چگونگی ترکیب مدل‌های مختلف از جمله VQGAN، CLIP و Bert برای ایجاد تصاویر خوانا از پیام‌های متنی را منتشر کرده است.

کوه سفید پوشیده از برف زیر آسمان آبی در طول روز، DALL·E Mini
هویج کارتونی با چشمان درشت DALL·E Mini
تصویری از یک بچه کوسه که در میان مرجان‌ها شنا می‌کند، DALL·E Mini
صندلی راحتی به شکل آووکادو، DALL·E Mini

Stable Diffusion 1

در 22 آگوست 2022، Stable Diffusion 1.4 اولین ارائه خود را انجام داد. وزن مدل و تمام کدها به صورت متن باز منتشر شد. بسیاری از نمونه‌ها در هکرنیوز اسکرول شده‌اند و نتایجی که مردم در نظرات به اشتراک گذاشته‌اند، تأثیر برانگیز است. مزیت مهم آن این است که وزن مدل فقط به میزان 4 گیگابایت روی دیسک است. به علاوه فقط حدود 50 ثانیه طول می‌کشد تا یک تصویر ایجاد شود.

گربه با کلاه پوکر بازی می‌کند، نقاشی آبرنگ، seed: 3315381862، Stable Diffusion 1.4

در ادامه برخی از تصاویر تولیدی Stable Diffusion 1.4 و 1.5 را می‌بینیم. با نگاهی به این موارد، می‌توانید جهش کیفیت VQGAN و DALL·E Mini را ببینید.

عکسی از یک فضانورد سوار بر اسب روی مریخ، Stable Diffusion v1.4
یک آرمانشهر سولارپانک با تکنولوژی بالا در جنگل‌های بارانی آمازون، Stable Diffusion 1.4
یک فضانورد سوار بر اسب روی مریخ، HD، نورپردازی دراماتیک، Stable Diffusion 1.5
ژست پرنده رنگارنگ با رنگ‌های رنگین کمان درخشان، Stable Diffusion 1.5
یک سگ رتریور طلایی که در وسط چمنزار آفتابی نشسته است، نقاشی رنگ روغن، Stable Diffusion 1.5
سفینه فضایی باستانی، شکل ماهی یخی، تصویرسازی، artstation، Stable Diffusion 1.5

Stable Diffusion 2

Stable Diffusion 2 هم برای اولین بار در اکتبر 2022 منتشر شد.

نسخه 2 آن چندین تغییر و بهبود داشت، مانند قابلیت حذف بخش‌های مورد نظر، OpenCLIP برای رمزگذار متن، خروجی‌های بزرگتر تصویر و موارد دیگر.

انتقال به OpenClip در مقایسه با نسخه‌های قبلی Stable Diffusion، تغییرات قابل توجهی در خروجی و ترکیب تصویر ایجاد کرد. مهمتر از همه، این که نام بسیاری از هنرمندان از رمزگذار متن حذف شد، که تا به امروز بسیاری از کاربران را به استفاده از 1.5 به جای 2.1 سوق داده است.

در ادامه چند تصویر تولیدی Stable Diffusion 2.1 را می‌بینید.

Flatirons، flatirons vista، رنگ روغن،Stable Diffusion 2.1
Flatirons، flatirons vista، رنگ روغن،Stable Diffusion 2.1
طوری رفتار کنید که گویی پیکاسو هستید و از ونسان ون گوگ و سبک نقاشی او تقلید می‌کنید و پرتره‌ای از زنی را به رنگ آبی می‌کشید…, Stable Diffusion 2.1
فضانورد علمی تخیلی یکپارچه‌سازی شده با سیستم عامل دهه 1950 در مقابل یک شهر شیشه‌ای آینده، هنر دکو، دهه 1950، پالت آبی رنگ، مدرن، انتشار پایدار 2.1
چوب تیره اسرارآمیز، سرخس، Stable Diffusion 2.1

Stable Diffusion XL (SDXL)

این ما را به جدیدترین و بهترین مدل هوش مصنوعی متن به تصویر، Stable Diffusion XL می‌رساند که در ۲۶ ژوئیه ۲۰۲۳ منتشر شد.

SDXL تصاویری با کیفیت بالاتر، با مصنوعات کمتر و نتایج سازگارتر ارائه می‌دهد. SDXL از نقاشی درون نقاشی، تبدیل تصویر به تصویر، اصلاح، Fine-tuning و غیره پشتیبانی می‌کند.

در ادامه چند نمونه از تصاویر تولیدی SDXL را می‌بینیم.

نقاشی خیره کننده گل‌های خشخاش کالیفرنیا، آبرنگ روی بوم،Stable Diffusion XL 1.0
فضانوردی سوار بر تک‌شاخ رنگین کمانی، سینمایی، دراماتیک،SDXL 1.0

این تصاویر شگفت‌انگیز هستند، اما هنوز به نظر می‌رسد که تازه شروع کرده‌ایم. با سرعت فعلی توسعه، جامعه منبع باز موظف است مدل‌ها، ابزارها و گردش کار بهتری را در ماه‌ها و سال‌های آینده ارائه دهد. الان یک زمان هیجان‌انگیز برای شروع در این فضا است. زیرا ما مجموعه‌ای اساسی از ابزارها و مبنایی محکم برای ساختن آینده داریم.

Fine-tuning

Fine-tuning فرآیند گرفتن یک مدل پایه از پیش آموزش دیده، مانند Stable Diffusion، و آموزش بیشتر آن بر روی یک مجموعه داده خاص است. در مورد یک مدل هوش مصنوعی متن به تصویر، این بدان معنی است که می توانید Stable Diffusion را برای ایجاد تصاویری از سگ خود، شخصیت انیمیشن مورد علاقه خود یا سبک هنرمند مورد علاقه خود آموزش دهید. برخی از روش‌های رایج تنظیم دقیق امروزی DreamBooth، LoRA و Textual Inversion هستند.

اینجاست که برتری مدل‌های منبع باز بر مدل‌های خصوصی مانند Midjourney یا DALL·E 2 مشخص می‌شود. چون امکان ارائه آموزش و تولید موضوعات/ اشیاء از زندگی روزمره خود را برای شما فراهم می‌کند. Replicate به تازگی Fine-tuning برای SDXL را هم منتشر کرده است.

عکس یک سگ، تولید شده با یک Dreambooth fine-tuned Stable Diffusion 2.1
عکس یک سگ تولید شده با Dreambooth fine-tuned SDXL 1.0

در ادامه تعدادی از مثال‌های جالب را ارائه می‌دهیم:

علمی تخیلی دهه 70، SDXL Fine-Tune
Vision Pro را به هر تصویر اضافه کنید.
باربی را به هر تصویر اضافه کنید.
تصاویری را به سبک کارت‌های Loteria ایجاد کنید.

نگاهی به آینده

با انتشار SDXL، و توسعه مداوم مدل‌های Fine-tuning و کنترل ترکیبی منبع باز (ControlNet)، ما به خلاقیت و نوآوری نزدیک می‌شویم، بنابراین خواهید توانست هر چیزی را که می‌توانید تصور کنید، تولید کنید. البته با وجودی که هوش مصنوعی تبدیل متن به تصویر راه درازی را طی کرده است، اما هنوز با کامل بودن فاصله زیادی دارد.

منبع: Replicate

https://pvst.ir/hvy

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو