آمازون ۴ میلیارد دلار دیگر روی انتروپیک سرمایهگذاری کرد
شرکت آمازون با تزریق ۴ میلیارد دلار دیگر به شرکت هوش مصنوعی انتروپیک، مجموع سرمایهگذاریهای…
۳ آذر ۱۴۰۳
۱۰ شهریور ۱۴۰۲
زمان مطالعه : ۱۹ دقیقه
تاریخ بهروزرسانی: ۸ شهریور ۱۴۰۲
در این مطلب میخوانید
هوش مصنوعی مولد قابلیت تولید محتوا دارد و از سال ۲۰۲۲ به میزانی باورنکردنی با افزایش محبوبیت مواجه شده است. هوش مصنوعی مولد یا Generative AI به عنوان «فناوری سال» معرفی شده و استارتآپهای فعال در این زمینه توسط بسیاری از VCها مورد توجه و پشتیبانی قرار گرفتهاند.
در این مطلب قصد داریم نگاهی دقیقتر به هوش مصنوعی مولد و چگونگی کارکرد و توسعه آن داشته باشیم. همچنین موارد استفاده رایج و دیدگاههای آینده در مورد آن را شرح خواهیم داد.
هوش مصنوعی مولد نوعی فناوری هوش مصنوعی است که میتواند انواع مختلفی از محتوا از جمله متن، تصویر، صدا، گرافیک، ویدئوهای با کیفیت بالا و دادههای مصنوعی را تولید کند.
البته این فناوری کاملاً جدید نیست. هوش مصنوعی مولد در دهه ۱۹۶۰ در چتباتها معرفی شد. اما تا سال ۲۰۱۴، و پیش از معرفی شبکههای مولد تخاصمی یا GAN که اختصار عبارت (Generative Adversarial Network) و نوعی الگوریتم یادگیری ماشین است، مورد توجه قرار نداشت. پس از آن بود که این نوع هوش مصنوعی توانست تصاویر، ویدئوها و صداهای افراد واقعی را به صورت قانعکنندهای واقعی خلق کند.
این قابلیت جدید از یک طرف فرصتهایی را ایجاد کرده است که شامل دوبله بهتر فیلم و ایجاد محتوای آموزشی غنی است. ولی از طرف دیگر نگرانیهای مربوط به دیپفیکها – تصاویر یا ویدئوهای جعلی دیجیتالی – و حملات مضر امنیت سایبری به کسب و کارها را به دنبال داشت.
هوش مصنوعی مولد با یک درخواست شروع میشود که میتواند به شکل متن، تصویر، ویدئو، طرح، نتهای موسیقی یا هر ورودی قابل پردازش توسط سیستم هوش مصنوعی باشد. پس از آن الگوریتمهای مختلف هوش مصنوعی در پاسخ به درخواست، محتوای جدید را تحویل میدهند.
با وجود این پیشرفتها، ما هنوز در روزهای اولیه استفاده از هوش مصنوعی مولد برای ایجاد متون خوانا و گرافیکهای سبک فوتورئالیستی هستیم. پیادهسازیهای اولیه مشکلاتی در زمینه دقت و سوگیری داشتهاند. همچنین مستعد خطا و پاسخهای عجیب و غریب هستند. با این حال، قابلیتهای ذاتی این نوع هوش مصنوعی میتواند کسب و کارها را به صورت اساسی تغییر دهد.
هوش مصنوعی مولد معمولاً از یادگیری ماشین بدون نظارت یا نیمه نظارت شده برای پردازش مقادیر زیادی دادهها و تولید خروجیهای اصلی استفاده میکند. به عنوان مثال، اگر میخواهید هوش مصنوعی شما بتواند مانند ون گوگ نقاشی کند، باید تا حد امکان آن را با نقاشیهای این هنرمند آشنا کنید.
شبکه عصبی که در پایه هوش مصنوعی نوع مولد قرار دارد، میتواند خصوصیات یا ویژگیهای سبک هنرمند را بیاموزد و سپس آن را اعمال کند. همین فرآیند برای مدلهایی که متون و حتی کتاب مینویسند، طراحیهای داخلی و طراحی مد انجام میدهند، مناظری که واقعا وجود ندارد را ترسیم میکنند و موسیقی و غیره مینویسند، رخ میدهد.
دو پیشرفت اخیر که در ادامه در موردشان صحبت میکنیم، نقش مهمی در جریان اصلی هوش مصنوعی مولد ایفا کردهاند:
مبدلها نوعی یادگیری ماشین هستند که به محققان امکان میدهند مدلهای بزرگتر را بدون نیاز به برچسب زدن همه دادهها از قبل، آموزش دهند. بنابراین میتوان مدلهای جدید را روی میلیاردها صفحه متن آموزش داد و به پاسخهایی با عمق بیشتر دست یافت. علاوه بر این، مبدلها میتوانند ارتباط بین کلمات را نه فقط در جملات، بلکه در صفحات، فصلها و کتابها ردیابی کنند.
پیشرفت سریع در مدلهای زبانی به اصطلاح بزرگ یا LLMها (مدلهایی با میلیاردها یا حتی تریلیونها پارامتر) عصر جدیدی را گشوده است که در آن مدلهای هوش مصنوعی مولد میتوانند متون جذاب بنویسند، تصاویر واقعی و حتی کمدیهای سرگرمکننده خلق کنند و محتوا را در انواع مختلف رسانه، از جمله متن، گرافیک و ویدئو تولید کنند. این اساس کار ابزارهایی مانند Dall-E است که به طور خودکار تصاویر را از توضیحات متنی ارائه شده ایجاد میکند یا از تصاویر داده شده برای ایجاد زیرنویس متنی کمک میگیرد.
GANها یا شبکههای تخاصمی مولد از دو بخش مولد و متمایزکننده تشکیل شدهاند. شبکه عصبی مولد قادر به ایجاد خروجی در صورت درخواست است که در معرض دادههای لازم قرار گرفته و الگوهای خاصی را آموخته است. با این حال، برای بهبود، به کمک شبکههای عصبی متمایزکننده نیاز دارد.
عنصر دوم مدل (NN متمایز کننده یا شبکههای عصبی) سعی میکند بین دادههای دنیای واقعی و دادههای “جعلی” تولید شده توسط مدل تمایز قائل شود. هر بار که مدل اول موفق میشود مدل دوم را فریب دهد، پاداش میگیرد. به همین دلیل است که این الگوریتم اغلب مدل تخاصمی یا خصمانه نامیده میشود. این مکانیسم به مدل اجازه میدهد تا بدون کمک انسان بهبود پیدا کند.
مبدلها هنگام تبدیل ورودی به خروجی به جای نقاط داده جداگانه، از دنبالهای از دادهها استفاده میکنند و این باعث میشود که در پردازش دادهها کارایی بیشتری ارائه دهند.
تکنیک دیگری که با دادههای مولد نتایج قابل توجهی ایجاد میکند، مبدلها هستند. مبدلها هنگام تبدیل ورودی به خروجی به جای نقاط داده جداگانه، از دنبالهای از دادهها استفاده میکنند و این باعث میشود که در پردازش دادهها کارایی بیشتری ارائه دهند. مبدلها اغلب برای ترجمه یا تولید متون مورد استفاده قرار میگیرند. به دلیل اینکه متون چیزی بیش از کلماتی هستند که در کنار هم قرار گرفتهاند. علاوه بر این، مبدلها برای ایجاد مدلهای پایهای مفید هستند. آنها زمانی استفاده میشوند که مهندسان روی الگوریتمهای تبدیل یک درخواست زبان طبیعی به یک دستور کار میکنند. به عنوان مثال زمانی که هوش مصنوعی باید یک تصویر یا متن را بر اساس توضیحات کاربر تولید کنند.
یکی از اولین نمونههای هوش مصنوعی مولد چت ربات Eliza بود که توسط جوزف وایزنبام در دهه ۱۹۶۰ ایجاد شد. البته این پیادهسازیهای اولیه به دلیل پیروی از رویکرد مبتنی بر قوانین، محدودیت واژگان، اتکای بیش از حد به الگوها و عدم امکان سفارشیسازی با کاستیهایی مواجه بود.
این رشته در سال ۲۰۱۰ با پیشرفت در زمینه شبکههای عصبی و یادگیری عمیق با نقطه عطف مواجه شد و توانست به صورت خودکار تجزیه جملات متن موجود، طبقهبندی عناصر تصویر و رونویسی از روی صدا را بیاموزد.
در سال ۲۰۱۴ پس از معرفی GANها توسط ایان گودفلو، این تکنیک یادگیری عمیق یک رویکرد جدید را برای سازماندهی شبکههای عصبی رقیب ارائه کرد. بنابراین توانایی خلق افراد واقعی، صداها، موسیقی و متن برای این نوع هوش مصنوعی به دست آمد. از آن زمان تا کنون هم، پیشرفت در سایر تکنیکها و معماریهای شبکه عصبی شامل VAEها، حافظه کوتاهمدت و بلندمدت، مبدلها، مدلهای انتشاری و میدانهای درخشندگی عصبی یا (NeRFها) به گسترش قابلیتهای هوش مصنوعی مولد کمک کرده است.
درست است که سیستمهای هوش مصنوعی میتوانند دادههای زیادی را تجزیه و تحلیل کنند. محاسبات را سریع انجام دهند. چهرهها را در ایستگاههای مترو شناسایی کنند و به دولت گزارش دهند. با این حال هوش مصنوعی هنوز نمیتواند در خلاقیت با انسانها رقابت کند.
علاقه و ترس از ایجاد دیپفیکهای واقعی که صداها و افراد را در ویدیوها جعل میکنند در این زمان ایجاد شد. به علاوه این وحشت توسط رسانهها به مردم القا شد که هوش مصنوعی مشاغل ما را میدزدد و جهان را به سمت سقوط اقتصادی سوق میدهد.
با این حال پس از مدتی مردم متوجه شدند که چشمانداز هیجانانگیز تحت سلطه بودن ماشینها نسبتاً غیرواقعی است. درست است که سیستمهای هوش مصنوعی میتوانند دادههای زیادی را تجزیه و تحلیل کنند. محاسبات را سریع انجام دهند. چهرهها را در ایستگاههای مترو شناسایی کنند و به دولت گزارش دهند. با این حال هوش مصنوعی هنوز نمیتواند در خلاقیت با انسانها رقابت کند.
هوش مصنوعی مولد نه تنها به خودی خود اهمیت دارد، بلکه به این دلیل مهم است که ما را یک قدم به دنیایی نزدیکتر میکند که در آن میتوانیم به جای زبان برنامهنویسی، به زبان طبیعی با رایانهها ارتباط برقرار کنیم. با کمک این نوع هوش مصنوعی، مدلها چندوجهی میشوند، به این معنی که میتوانند چندین حالت (مانند متن و تصویر) را در یک زمان پردازش کنند. چنین قابلیتی حوزههای کاربردی آنها را گسترش میدهد و موارد استفاده آنها را متنوعتر میکند. در نهایت، این هوش مصنوعی ممکن است قدم بعدی در تکامل هوش مصنوعی باشد که همه ما منتظر آن بودیم.
برای اینکه بدانیم هوش مصنوعی قرار است در آینده چگونه باشد، بهتر است چند نمونه از ابزارهای هوش مصنوعی کاربردی در متن به تصویر را با هم بررسی کنیم.
میدجرنی یک ابزار تولید تصویر است که توسط آزمایشگاه تحقیقاتی با همین نام منتشر شده است. تمام فرایند تولید تصاویر در این ابزار در حال حاضر از طریق تعامل با ربات دیسکورد (Discord) یا برنامه وب آن (صرفا برای مشترکین) انجام میشود. یک طرح رایگان در این برنامه ارائه میشود که به شما 25 اعتبار برای ایجاد تصاویر قابل مشاهده برای عموم ارائه میدهد. البته در صورت خرید اشتراک، اعتبارات و مزایای بیشتری دریافت میکنید. در حال حاضر هیچ API برای استفاده از این اپلیکیشن وجود ندارد.
راهنمای استفاده از هوش مصنوعی Midjourney؛ ربات هنرمند طراح
DALL-E2 یک تولید کننده تصویر است که توسط اپن اِی آی (Open AI) یعنی شرکت منتشر کنندهی محصولاتی از جمله GPT-3 و ChatGPT ایجاد شده است. در این برنامه یک زمین بازی رایگان به شما ارائه میشود که در آن میتوانید چند تصویر برای سرگرمی ایجاد کنید. همچنین یک API غیر رایگان برای استفاده از DALL-E وجود دارد.
دیدگاه DALL-E ارائه خدمات کاملاً هنری با نگاه به آینده است. ولی زیبایی شناختی بسیار کمتری در مقایسه با میدجرنی دارد. دلیل این تفاوت هم استفاده از مجموعه دادههای مختلف برای آموزش مدلها است.
استفاده از DALL-E آزاد شد، با مرورگر ادج مایکروسافت تصویر بسازید
ruDALL-E پروژهای است که توسط Sber ایجاد شده است و عملکرد آن شباهت زیادی به DALL-E دارد ولی این برنامه کاملاً منبع باز است. نسخه ruDALL-E بسیار کمتر هنری است. شما به وضوح متوجه میشوید که به نظر میرسد عکسهای مختلف ادغام شدهاند تا اینکه یک شاهکار جداگانه حاصل شود.
نایت کافه از پروژههای کمتر شناخته شده در زمینه هوش مصنوعی مولد است. این برنامه وب میتواند یک پیام متنی از شما به عنوان کاربر دریافت کند و با الهام از کلمات کلیدی مورد استفاده شما، تصویر رویایی مورد نظرتان را ایجاد کند.
هاتپات بیشتر برای ویرایش عکسها کاربرد دارد. به عنوان مثال به شما کمک میکند تا با استفاده از هوش مصنوعی عکسهای قدیمی را به صورت خودکار رنگآمیزی کنید ، اشیا را حذف کنید و پس زمینه عکسها را تغییر دهید.
Dall-E، ChatGPT و Bard به عنوان محبوبترین برنامههای هوش مصنوعی مولد شناخته شدهاند. دال-ای (Dall-E) که توسط مجموعه دادههای بزرگی از تصاویر و توضیحات متنی مرتبط با آنها آموزش دیده است، نمونهای از یک اپلیکیشن هوش مصنوعی چندوجهی است که اتصالات بین رسانههای مختلف از جمله بینایی، متن و صدا را شناسایی میکند و قادر است تا معنای کلمات را به عناصر بصری تبدیل کند. این برنامه در سال 2021 با استفاده از پیادهسازی GPT OpenAI ساخته شد. Dall-E 2، که نسخه دوم و با قابلیتتر این برنامه است، در سال 2022 منتشر شد و کاربران را قادر میسازد تا تصاویر را در سبکهای مختلف مورد نظرشان تولید کنند.
ChatGPT یک چت ربات مجهز به هوش مصنوعی است که در نوامبر ۲۰۲۲ با عرضه در بازار هیجانات زیادی ایجاد کرد. این برنامه در واقع بر اساس OpenAI GPT-3.5 ساخته شد. OpenAI روشی برای تعامل و تنظیم دقیق پاسخهای متنی و بازخورد تعاملی در رابط چت ارائه کرده است. GPT-4 هم در ۱۴ مارس ۲۰۲۳ منتشر شد. ChatGPT تاریخچه مکالمه خود با یک کاربر را در نتایج خود گنجانده و بنابراین میتواند یک مکالمه واقعی را شبیهسازی کند. بارد یک ربات چت عمومی است که گوگل به بازار عرضه کرده است.
هوش مصنوعی مولد را میتوان در موارد مختلف و برای تولید هر نوع محتوا به کار برد. این فناوری به لطف پیشرفتهایی مانند GPT که برای برنامههای مختلف قابل تنظیم است، برای همه انواع کاربران قابل دسترستر می شود. برخی از موارد استفاده برای این نوع هوش مصنوعی شامل موارد زیر است:
هوش مصنوعی مولد را میتوان به صورت گسترده در بسیاری از زمینههای کسب و کار مورد استفاده قرار داد. این ابزار میتواند تفسیر و درک محتوای موجود را آسانتر کند و به صورت خودکار محتوای جدید ایجاد کند. توسعهدهندگان در حال بررسی روشهایی برای بهبود فرایندهای کاری با استفاده از این نوع هوش مصنوعی هستند. برخی از مزایای بالقوه پیادهسازی آن شامل موارد زیر است:
پیادهسازیهای اولیه هوش مصنوعی مولد محدودیتهای فراوان موجود در مسیر آن را نشان میدهد. در ادامه برخی از محدودیتهایی که باید در هنگام پیادهسازی یا استفاده از یک برنامه دارای هوش مصنوعی نوع مولد در نظر بگیرید را توضیح میدهیم:
ظهور هوش مصنوعی مولد نگرانیهای مختلفی هم به دنبال داشته است. این نگرانیها به کیفیت نتایج کارها، پتانسیل سوء استفاده و پتانسیل ایجاد اختلال در مدلهای کسب و کار موجود مربوط می شود. در ادامه برخی از مسائل مشکلساز ناشی از وضعیت فعلی این نوع هوش مصنوعی را مرور میکنیم.
ابزارهای هوش مصنوعی مولد به روشهای مختلفی از جمله متن، تصویر، موسیقی، کد و صدا وجود دارند. برخی از محبوبترین تولیدکنندگان محتوای AI عبارتند از:
فناوریهای هوش مصنوعی مولد جدید به میزانی موثر هستند که از آنها با عنوان فناوریهای همه منظوره مانند قدرت بخار، الکتریسیته و محاسبات توصیف میشوند. این توصیفات به دلیل تاثیر عمیقی است که این نوع هوش مصنوعی میتواند بر بسیاری از صنایع داشته باشد. در ادامه برخی از کاربردهای این هوش مصنوعی بر صنایع مختلف را توضیح میدهیم.
هوش مصنوعی مولد محصولاتی از جمله محتوای جدید، پاسخهای چت، طرحها، دادههای مصنوعی یا دیپفیک را تولید میکند. از سوی دیگر، هوش مصنوعی سنتی بر شناسایی الگوها، تصمیمگیری، بهبود تجزیه و تحلیل، طبقه بندی دادهها و کشف تقلب تمرکز دارد.
همچنین هوش مصنوعی مولد اغلب از تکنیکهای شبکه عصبی مانند مبدلها، GANها و VAEها استفاده میکند. سایر انواع هوش مصنوعی، به صورت متمایز از تکنیکهایی مانند شبکه های عصبی کانولوشن، شبکههای عصبی بازگشتی و یادگیری تقویتی استفاده میکنند.
هوش مصنوعی نوع مولد اغلب با یک درخواست شروع میشود که به کاربر یا منبع داده اجازه میدهد برای هدایت تولید محتوا مجموعه داده اولیه را ارائه دهد. این میتواند یک فرآیند تکرارشونده برای کشف تغییرات محتوا باشد. ولی الگوریتمهای سنتی هوش مصنوعی دادههای جدید را پردازش میکنند تا به یک نتیجه ساده برسند.
بهترین تمرینها برای استفاده از هوش مصنوعی مولد به روش مورد نظر، ماهیت و گردش کار و اهداف شما بستگی دارد. با این حال لازم است عواملی مانند دقت، شفافیت و سهولت استفاده در کار با هوش مصنوعی را هم در نظر بگیرید. اقدامات زیر به دستیابی به این عوامل کمک میکند:
هوش مصنوعی مولد به دلیل توانایی ایجاد تصاویر، ویدئوها و متون، با استقبال طراحان، هنرمندان و دیگر افراد خلاق مواجه شده است. با این حال، این نوع هوش مصنوعی بسیار کاربردیتر از آن چیزی است که فکر میکنید. به عنوان مثال، یکی از شناخته شدهترین پروژهها در این هوش مصنوعی گرامرلی (Grammarly) است که به کابران کمک میکند تا متون مورد نظرش را زبان انگلیسی بهتر و با اشتباهات کمتری بنویسد.
سهولت استفاده از ابزارهایی مانند ChatGPT پذیرش گسترده هوش مصنوعی نوع مولد را با امیدهای بسیاری مواجه کرده است. با وجود برخی مشکلات موجود در اجرای ایمن و مسئولانه این فناوری، تحقیقات برای ایجاد ابزارهای بهتر به منظور تشخیص متن، تصاویر و ویدیوی تولید شده توسط هوش مصنوعی و همچنین ردیابی منشأ اطلاعات در حال انجام است تا هوش مصنوعی قابل اعتمادتری ایجاد کنند.
سرمایهگذارانی که از هوش مصنوعی مولد حمایت میکنند، در مورد چگونگی استفاده از آن در بیوتکنولوژی برای کشف داروهای جدید هیجانزده هستند. به گفته گارتنر (Gartner)، ۵۰ درصد از کل کشف داروها در سال ۲۰۲۵ با کمک هوش مصنوعی نوع مولد انجام خواهد شد. بازاریابی حوزه دیگری است که کارشناسان معتقدند با این نوع از هوش مصنوعی متحول خواهد شد. به این صورت که تا سال ۲۰۲۵، ۳۰ درصد از پیام های بازاریابی خروجی از سازمانهای بزرگ به صورت مصنوعی ایجاد میشود.
علاوه بر این، پیشرفتها در پلتفرمهای توسعه هوش مصنوعی به بهبود قابلیتهای هوش مصنوعی در آینده برای متن، تصاویر، ویدیو، محتوای سه بعدی، داروها، زنجیرههای تامین، تدارکات، فرآیندهای کسب و کار و حتی ابزارهای طراحی و ابزارهای آموزشی منجر خواهد شد و اینها تنها بخشی از مسیری است که هوش مصنوعی مولد با آن زندگی ما را تغییر میدهد.
برخی از طرفداران هوش مصنوعی بر این باورند که هوش مصنوعی مولد گامی اساسی به سوی هوش مصنوعی همه منظوره و حتی ایجاد آگاهی در آن است. در سال ۱۹۹۳، نویسنده علمی تخیلی آمریکایی و دانشمند کامپیوتر، ورنور وینج (Vernor Vinge) اظهار داشت که در ۳۰ سال آینده، ما توانایی تکنولوژیکی برای ایجاد یک «هوش مافوق بشری» را خواهیم داشت. یعنی یک هوش مصنوعی که از انسانها باهوشتر است. که پس از آن دوره بشر به پایان خواهد رسید. به علاوه یکی از پیشگامان هوش مصنوعی به نام ری کرزویل (Ray Kurzweil) وقوع چنین «تکینگی» را تا سال ۲۰۴۵پیشبینی کرد.
البته بسیاری دیگر از کارشناسان هوش مصنوعی بر این تصور هستند که چنین رخدادی میتواند بسیار دورتر به وقوع بپیوندد. رادنی بروکس (Rodney Brooks) از پیشگامان صنعت رباتیک، پیشبینی کرده که هوش مصنوعی در طول عمرش ادراک یک کودک ۶ ساله را به دست نمیآورد، اما میتواند تا سال ۲۰۴۸ مانند یک سگ باهوش و با توجه به نظر برسد.