معرفی سیزده هوش مصنوعی تولید و پردازش تصویر: خلق از حروف ساده
امروزه و با توسعه هوش مصنوعی ابزار پردازش تصویر بسیاری برای تبدیل متن به تصویر…
۳۰ آبان ۱۴۰۳
۸ بهمن ۱۴۰۲
زمان مطالعه : ۱۵ دقیقه
هوش مصنوعی قدرتمندتر از همیشه به نظر میرسد و چتباتهایی مثل بارد و ChatGPT میتوانند متونی درست شبیه انسان را تولید کنند. اما این رباتها با وجود تمام مهارتشان یک سوال را بیجواب گذاشتهاند: آیا این مدلها واقعا آنچه میگویند را درک میکنند؟ جفری هینتون، از پیشتازان هوش مصنوعی، در مصاحبه جدیدی با اندرو انجی، میگوید: «برخی به روشنی به این مساله باور دارند و برخی هم آنها را تنها طوطیهای احتمالمحور (stochastic parrots) میدانند.»
این عبارت معروف از مقالهای در سال ۲۰۲۱ گرفته شده که امیلی بندر، زبانشناس رایانشی از دانشگاه واشنگتن، یکی از نگارندگان آن است. این مقاله میگوید مدلهای بزرگ زبانی (LLMها)، که پایه و اساس چتباتهای مدرن هستند، تنها با ترکیب اطلاعاتی که مشاهده کردهاند و «بدون هیچ توجهی به معنای آن»، متن تولید میکنند و به گفته مولفان همین مساله LLM را به «یک طوطی احتمالمحور» تبدیل میکند.
همین مدلهای زبانی پشت پرده بزرگترین و بهترین چتباتهای امروزی هستند و از نگاه هینتون وقت آن رسیده تا درمورد گستره درک آنها صحبت کنیم. این سوال از نظر او فراتر از یک سوال آکادمیک است. از نظر او: «تا زمانی که این اختلاف نظرها باقی است، نمیتوانیم درمورد خطرات به اجماع برسیم.»
تحقیقات تازهای اما برای پاسخ به همین سوال برآمده است. نظریه جدیدی از سنجیو آرورا از دانشگاه پرینستون و انیرود گویال، یکی از محققان گوگل دیپمایند، میگوید بزرگترین LLMهای امروزی دیگر ماهیت طوطیوار ندارند. این دو پژوهشگر معقتدند که هرچه این مدلها بزرگتر شده و براساس دادههای بیشتری آموزش میبینند، مهارتهای فردی آنها در حوزه زبان نیز بهبود یافته و با ترکیب مهارتها، به گونهای که نشان دهنده درک است، مهارتهای تازهای را کسب میکنند و به گفته آنها چنین ترکیبی بعید است که در دادههای آموزشی وجود داشته باشد.
این رویکرد نظری که یک ادعای قابل اثبات از لحاظ ریاضی و دلیلی برای چرایی پیدایش مهارتهای بسیار در LLM ارائه میکند برخی از متخصصان از جمله هینتون را متقاعد کرده است. وقتی آرورا و تیمش برخی از پیشبینیهای خود را آزمایش کردند نیز متوجه شدند این مدلها درست همانطور که انتظار میرفت رفتار میکنند. درنتیجه از هر جنبهای با یک نظریه قدرتمند مواجه هستیم که نشان میدهد LLMها برخلاف گذشته دیگر ماهیت طوطیوار ندارند.
سباستین بوبک، ریاضیدان و محقق کامپیوتر تیم تحقیقات مایکروسافت که البته در این پژوهش نقشی نداشته است، میگوید: «نگرش پایه این است که امکان ندارد [آنها] فقط آنچه در دادههای آموزشی میبینند را تقلید کرده باشند.»
میتوان گفت که پدیدار شدن مهارتهای مختلف و متعدد در LLM تعجب برانگیز است. این مهارتها را نمیتوان نتیجه مستقیم روند ساخت و آموزش این سیستمها دانست. یک LLM در واقع یک شبکه عظیم و مصنوعی عصبی است که نورونهای مصنوعی متعددی را به یکدیگر متصل میکند. این اتصالها را به عنوان پارامترهای مدل میشناسیم و تعداد آنها نشانگر ابعاد و اندازه LLM است. فرایند آموزش نیز به این صورت است که جملهای بدون یکی از کلماتش در اختیار مدل قرار میگیرد. برای مثال: «قیمت سوخت یک دست و یک …… است.» سپس LLM یک توزیع احتمال را در تمام واژگان خود، که مثلا یک هزار کلمه است، پیشبینی میکند و هزار احتمال شکل میگیرد. سپس محتملترین کلمه برای کامل کردن جمله، و در اینجا کلمه «پا»، برای تکمیل جمله ارائه میشود.
ابتدا مدل زبانی در انتخاب کلمات ضعیف عمل میکند. الگوریتم آموزشی سپس به محاسبه یک زیان میپردازد، مقداری که در یک فضای چندبعدی ریاضیاتی، فاصله بین پاسخ LLM و کلمه اصلی جای گرفته در جمله است. این زیان سپس برای اصلاح پارامترها استفاده میشود. حالا با ارائه همان جمله سابق، LLM با دقت بهتری احتمال توزیع را محاسبه کرده و درنتیجه زیان آن کاهش مییابد. الگوریتم این کار را برای تمام جملات موجود در دادههای آموزشی (شاید میلیاردها جمله)، تکرار میکند تا زمانی که زیان LLM تا سطح قابلقبولی کاهش یابد. سپس برای آزمایش مجدد مدل زبانی، جملاتی خارج دادههای آموزشی نیز همین فرایند را طی میکنند.
مدلی که آموزش دیده و آزمایش شده باشد پس از دریافت یک پرامپت جدید متنی، محتملترین کلمه در توالی را تولید میکند، آن را به پرامپت پیوند میزند، سپس کلمه دیگری تولید کرده و پیوند میزند و این روند به همین ترتیب ادامه دارد تا زمانی که یک پاسخ کامل شکل بگیرد. اما هیچ چیز در فرایند آموزش چنین القا نمیکند که اگر LLMها بزرگتر باشند و پارامترها و دادههای آموزشی آنها بیشتر باشد، از لحاظ استدلال هم عملکرد بهتری خواهند داشت.
اما در عمل همین موضوع را مشاهده میکنیم. LLMهایی که به اندازه کافی بزرگ باشند، مهارتهایی را در زمینه حل مسائل ابتدایی ریاضی یا پاسخ به سوالاتی درمورد افکار دیگران، از خود نشان میدهند که در مدلهای کوچکتر مشاهده نمیشود، حتی اگر دادههای آموزشی شبیه به هم باشند.
آرورا میپرسد: «این [مهارت] از کجا آمده است؟ و آیا ممکن است که تنها از پیشبینی کلمه بعدی برآمده باشد؟»
آرورا برای پاسخ حساب شده به این سوالات با گویال همراه شد. آرورا میگوید: «ما سعی داشتیم یک چارچوب نظری برای پیدایش [مهارتها] ارائه کنیم.»
روند کارمان ما را به سمت یک سری شکلهای ریاضیاتی به نام گراف(نمودار)های تصادفی برد. یک گراف یا نمودار مجموعهای از نقاط (یا گرهها) است که با خطوط (یا لبهها) به هم متصل میشوند و در یک گراف تصادفی لبهی بین هر دو نقطهای به صورت تصادفی (فرض کنید با انداختن سکه) مشخص میشود. سکه با احتمال p رو میآید. اگر سکه برای دو گره رو بیاید، لبهای بین این دو گره شکل میگیرد؛ در غیر این صورت اتصالی را شاهد نخواهیم بود. با تغییر مقدار p، گرافها ممکن است مختصاتشان تغییر کند. برای مثال زمانی که p از یک سرحدی بالاتر برود، گرههای منزوی، آنهایی که به هیچ گره دیگری متصل نیستند، ناگهان ناپدید میشوند.
آرورا و گویال دریافتند که میتوان از گرافهای تصادفی، که پس از رسیدن به یک سرحد خاصی باعث رفتارهای غیرمنتظره می شوند، برای مدلسازی رفتار LLMها استفاده کرد. شبکههای عصبی برای تجزیهوتحلیل بیش از حد پیچیده هستند اما ریاضیدانها مدتها است که گرافهای تصادفی را تحت مطالعه دارند و ابزارهای مختلفی را برای تجزیهتحلیل آنها ارائه کردهاند. شاید نظریه گراف تصادفی بتواند به درک و پیشبینی محققان از رفتارهای غیرمنتظره LLMها کمک کند.
این دو محقق تصمیم گرفتند تا روی گرافهای «دوبخشی» که شامل دو نوع گره هستند، تمرکز کنند. در مدل آنها، یکی از انواع گره نماینده تکههای متن (متنی متغییر از یک پارگراف و جمله تا چند صفحه و نه یک کلمه تنها) بود. این گرهها به صورت یک خط مستقیم تنظیم شدند. زیر آنها و در خط دیگری، دسته دیگری از گرهها قرار دارند. این گرهها در واقع مهارتهایی را نمایندگی میکنند که برای فهمیدن یک تکه متن به آن نیاز داریم. این مهارتها میتوانند هرچیزی باشند و شاید یک گره نماینده توانایی LLM برای درک کلمه «Because» باشد که در خود نوعی رابطه سببی را جای میدهد؛ گره دیگری شاید نشانگر توانایی تقسیم دو عدد و دیگری هم توانایی تشخیص طعنه. آرورا میگوید: «اگر شما بتوانید طعنهآمیز بودن یک تکه متن را درک کنید، خیلی چیزها تغییر میکند و این با پیشبینی کلمات مرتبط است.»
باید بدانید که LLMها براساس این مهارتها آموزش داده نشده و آزمایش نمیشوند؛ آنها فقط برای بهبود روند پیشبینی کلمه بعدی ساخته میشوند. اما آرورا و گویال میخواستند LLM را از نقطه نظر مهارتهایی که برای درک یک متن نیاز است بررسی کنند. اتصالی بین یک گره مهارتی و یک گره متنی، یا بین چند گره مهارتی و یک گره متنی، نشان میدهد که LLM برای درک متن موجود در آن گره به آن مهارتها نیاز دارد. همچنین ممکن است که چندین تکه متن به یک یا چند مهارت مشترک مرتبط باشند؛ برای مثال، گروهی از گرههای مهارتی که نماینده درک طعنه هستند ممکن است به چندین متن حاوی طعنه متصل شوند.
حال چالش این بود که این گرافهای دوبخشی را به LLMهای واقعی متصل کرده و ببینیم که آیا این گرافها به پیدایش مهارتهای قدرتمند اشارهای میکنند یا خیر. اما محققان نمیتوانستند به دادههای آموزشی یا آزمایشی LLMهای واقعی اتکا کنند زیرا اوپنایآی یا دیپمایند دادههای آموزشی یا آزمایشی خود را به در دسترس عمومی نمیگذارند. افزون بر این، آرورا و گویال میخواستند رفتار LLMها را حتی در ابعاد بزرگتر نیز بررسی کنند و هیچ اطلاعاتی درمورد چتباتهای آینده در دست نیست. با این حال امکان دسترسی به یک سری از اطلاعات مهم وجود داشت.
آنها متوجه شدند هرچه مدلها، چه از لحاظ دادههای آموزشی و چه از لحاظ ابعاد، بزرگتر میشوند، زیان دادهای آزمایشی (فاصله بین پاسخ پیشبینی شده و پاسخ صحیح متون جدید پس از آموزش) به شکل خاصی کاهش مییابد.
محققانی که از سال ۲۰۲۱ عملکرد LLMها و دیگر شبکههای عصبی را مطالعه میکنند یک روند سراسری را مشاهده کردند. آنها متوجه شدند هرچه مدلها، چه از لحاظ دادههای آموزشی و چه از لحاظ ابعاد، بزرگتر میشوند، زیان دادهای آزمایشی (فاصله بین پاسخ پیشبینی شده و پاسخ صحیح متون جدید پس از آموزش) به شکل خاصی کاهش مییابد. این مشاهدات در معادلههایی به نام قانون توسعه عصبی کدنگاری شدهاند. درنتیجه آرورا و گویال نظریه خود را به گونهای طراحی کردند تا به دادههای هیچ LLM، چتبات یا دادههای آموزشی و آزمایشی خاصی، وابسته نباشد و از یک قانون فراگیر،که این سیستمها از آن پیروی میکنند، استفاده کند؛ زیانی که با توجه به قوانین توسعه پیشبینی میشود.
آنها میگویند شاید بهبود عملکردی که براساس قوانین توسعه عصبی پیشبینی میشود، با بهبود مهارتها در ارتباط باشد و مهارتهای بهبود یافته را بتوان با اتصال گرههای مهارتی به گرههای متنی در گرافهای دوبخشی تعریف کرد. ایجاد چنین ارتباطی بین قوانین توسعه عصبی و گرافهای دوبخشی، کلید پیشروی آنها بود.
محققان کارشان را با این فرض شروع کردند که یک گراف دوبخشی فرضی، به رفتار LLMها بر دادههای آزمایشی، مرتبط است. برای استفاده از این موضوع در بحث زیان LLMها در دادههای آزمایشی، آنها راهکاری را تعریف کردند تا با استفاده از گراف نحوه کسب مهارت LLMها را توصیف کنند.
برای مثال مهارت «درک طعنه» را در نظر بگیرد. این ایده با یک گره مهارتی نمایندگی میشود تا محققان ببینند این گره مهارتی به کدام گرههای متنی متصل میشود. اگر تمامی این گرههای متنی متصل موفق باشند (یعنی پیشبینیهای LLM درمورد متن این گرهها دقت بالایی داشته باشد)، درنتیجه LLM از این مهارت خاص برخوردار است. اگر بیشتر از کسر مشخصی از اتصالهای گره مهارتی به گرههای متنی با شکست مواجه شوند، LLM در آن مهارت شکست میخورد.
این اتصال بین گرافهای دوبخشی و LLMها به آرورا و گویال اجازه داد تا ابزارهای نظریه گراف تصادفی را به شکل واسته برای تجزیه تحلیل رفتار LLM استفاده کنند. مطالعه این گرافها از روابط خاصی بین گرهها پرده برداشت. سپس از این روابط برای توصیفی منطقی و قابل آزمایشی از چگونگی کسب مهارتهای جدید در LLM و تواناییهای غیرمنتظره آن استفاده شد.
آرورا و گویال ابتدا به توضیح یک رفتار مهم پرداختند: چرا LLMهای بزرگتر روی مهارتهای خاص بهتر از همتایان کوچکتر خود عمل میکنند. آنها کار خود را با کمینه زیانهای پیشبینی شده در قوانین توسعه عصبی آغاز کردند. کمینه زیان در یک گراف را میتوان در سقوط کسر گرههای شکست خورده آزمایشی مشاهده کرد. درنتیجه در آن قسمت گرههای آزمایشی کمتری با شکست مواجه شدهاند که یعنی روابط کمتری بین گرههای شکست خورده و گرههای مهارتی وجود دارد. درنتیجه، تعداد گرههای مهارتی متصل به گرههای موفق آزمایشی بیشتر است که یعنی مدل زبانی خبرگی بیشتری در مهارتها دارد گویال میگوید: «کاهش خیلی کمی در زیان، باعث میشود تا خبرگی ماشینی در مهارتها بیشتر شود.»
این دو محقق سپس راهکاری برای توضیح مهارتهای غیرمنتظره مدلهای بزرگتر یافتند. هرچه ابعداد LLM افزایش یافته و زیان آن کمتر میشود، ترکیب تصادفی گرههای مهارتی اتصالهایی را با گرهها خاص متنی رقم میزند. این یعنی LLM در استفاده از بیشتر از یک مهارت در لحظه تقویت شده و متن را با استفاده از ترکیب چند مهارت، حتی اگر ترکیب مشابهی در متون دادههای آموزشی وجود نداشته باشد، تولید میکند (برای مثال مهارت استفاده از طعنه را با درک کلمه «because» ترکیب میکند.)
برای مثال، مدل زبانی بزرگی را تصور کنید که میتواند از یک مهارت خاص برای تولید متن استفاده کند. اگر تعداد پارامتها یا دادههای آموزشی را با به شکل قابل توجهی افزایش دهیم، این مدل در تولید متنی که به دو مهارت نیاز داشته باشد هم به همان اندازه خبره میشود. بار دیگر پارامتها و داده ها را افزایش دهید و LLM حالا میتواند کارهایی که به چهار مهارت نیاز داشته باشند را نیز با همان سطح شایستگی به انجام رساند. مدلهای بزرگتر، راهکارهای بیشتری برای کسب مهارت جدید دارند و درنتیجه انفجاری از ترکیب مهارتها را مشاهده میکنیم.
و با گسترش ابعاد یک LLM، احتمال اینکه ترکیب مهارتها را در دادههای آموزشی مشاهده کنیم کاهش مییابد. قوانین نظریه گراف تصادفی میگوید، تمام ترکیبها از نمونهبرداری تصادفی مهارتهای ممکن زاده میشوند. پس اگر حدود یک هزار گره مهارتی در گراف وجود داشته باشد و بخواهید چهار مهارت را ترکیب کنید، تقریبا هزار به توان چهار راه ممکن (یعنی یک هزار میلیارد روش) برای ترکیب آنها وجود دارد.
آرورا و گویال معتقدند همین مساله نشان میدهد که مدلهای بزرگ زبانی تنها به مهارتهایی که در دادههای آموزشی مشاهده میکنند وابسته نیستند. بوبک با این نتیجهگیری موافق است. او میگوید: «اگر یک LLM بتواند این کارها را با ترکیب چهار مورد از آن هزار مهارت انجام دهد، درنتیجه به کلیت بخشی مشغول است» که یعنی دیگر یک طوطی احتمالمحور نیست.
آرورا و گویال میخواستند از نظریه فراتر رفته و ادعایشان مبنی بر اینکه LLMها با افزایش ابعاد و دادههای آموزشی، در ترکیب مهارتها و درنتیجه کلیت بخشی تقویت میشوند را آزمایش کنند. درنتیجه با همراهی همکاران دیگری، روشی به نام «ترکیب-مهارت» را برای ارزیابی توانمندی LLM در استفاده از مهارتهای مختلف برای تولید متن، ابداع کردند.
این تیم برای آزمایش یک LLM از آن خواستند تا سه جمله در رابطه با یک موضوع تصادفی تولید کند که برخی از مهارتهای تصادفی آنها را نشان دهد. برای مثال آنها از GPT-4 (مدل زبانی بزرگ قدرتمندترین نسخه chatGPT) خواستند درمورد دوئل یا مبارزه با شمشیر، بنویسد. همچنین از این مدل زبانی خواستند تا مهارتهایی در چهار حوزه را به نمایش بگذارد: سوگیری خودمحور، استعاره، قیاس آماری و دانستههای عرف فیزیکی. GPT اینگونه پاسخ داد: «پیروزی من در این رقص با فولاد [استعاره] حتمی است، مثل سقوط یک شی بر زمین [فیزیکی]. من به عنوان یک دوئل کننده پرآوازه ذاتا و همانند بیشتر [آمار قیاسی] همآوازههایم چابک هستم. شکست؟ نه به دلیل ناشایستگی من، بلکه تنها با یک میدان نبرد نابرابر ممکن است [سوگیری خودمحور].» سپس وقتی از GPT-4 خواسته شد تا خروجی خود را بررسی کند، آن را به سه جمله کاهش داد.
GPT-4 حتی در ۱۰ تا ۱۵ درصد از مواقع امتحانهای ترکیب مهارتی که نیازمند شش مهارت هستند را نیز قبول میشود و متونی ارائه میکند که وجود آنها از لحاظ آماری در دادههای آموزشی غیرممکن است.
آرورا میگوید: «شکسپیر یا همینگوی نیست،» اما از نظر تیم موضوع مد نظر آنها را تایید میکند: این مدل قادر است متنی که حتی در دادههای آموزشی ندیده را تولید کند و مهارتهایی را به نمایش بگذارد که از نگاه برخی به مثابه درک است. GPT-4 حتی در ۱۰ تا ۱۵ درصد از مواقع امتحانهای ترکیب مهارتی که نیازمند شش مهارت هستند را نیز قبول میشود و متونی ارائه میکند که وجود آنها از لحاظ آماری در دادههای آموزشی غیرممکن است.
این تیم همچنین با درخواست از GPT-4 برای ارزیابی خروجی خود و خروجی دیگر LLMها، این فرایند را خودکارسازی کردند. به گفته آرورا، از آنجایی که مدل حافظه ندارد و به یاد نمیآورد که تولید همین متن را از او خواسته بودیم، پس میشود ارزیابی را برعهده خودش بگذاریم. یاسمن بحری، یکی از محققان گوگل دیپماین که روی بنیانهای هوش مصنوعی فعالیت دارد، میگوید این رویکرد خودکار «بسیار ساده و هوشمندانه است.»
به گفته بوبک با اینکه یک سری فرضیات برای این نظریه در نظر گرفته شده «اما این فرضیات به هیچ عنوان احمقانه نیستند.» آزمایشهای انجام شده نیز او را تحت تاثیر گذاشته است. او میگوید: «آنچه [این تیم] از لحاظ نظری اثبات و به صورت تجربی تایید میکند کلیت بخشی ترکیبی است، یعنی اینکه [LLMها] میتوانند آجرای ساختمانی که هیچوقت ندیدهاند را روی هم بچینند. همین از نظر من درون مایه خلاقیت است.»
با این حال آرورا میگوید این بررسی هیچ اشارهای به دقت نوشتههای LLM ندارد. او میگوید: «در واقع یک استدلالی است برای تازگی. این چیزها هیچوقت در کالبد آموزشی جهان دیده نشدهاند. هیچکس این را ننوشته است. توهم [مدل زبانی در اینجا] اجباری است.»
با این حال از نظر هینتون این بررسیها پاسخی است به تصور طوطیوار از مدلهای زبانی. او میگوید: «این بهترین روشی است که نشان میدهد GPT-4 چیزی بیشتر از یک طوطی احتمالمحور ساده است. آنها به خوبی نشان میدهند که GPT-4 میتواند متنی با ترکیب مهارتها و موضوعات را به گونهای تولید کند که اصلا در دادههای آموزشی دیده نمیشود.»
عملکرد GPT-4 از لحاظ ریاضیات به حدی از نسخههای کوچکتر پیشین مثل GPT-3.5 فراتر رفته که آرورا را شگفت زده میکند. او میگوید: «احتمالا من تنها نیستم. خیلیها از بهبود GPT-4 به نسبت GPT-3.5 حراسان شدهاند و این تنها زاده یک سال بود. آیا در یک سال دیگر میتوان دوباره انتظار این حجم از تغییرات را داشت؟ من نمیدانم. تنها اوپنایآی خبر دارد.»
منبع: Quantamagazine