فناوری

مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » براساس یک فرضیه جدید چت‌بات‌ها متن را درک می‌کنند؛ آشنایی با سازوکار مدل‌های بزرگ زبانی

براساس یک فرضیه جدید چت‌بات‌ها متن را درک می‌کنند؛ آشنایی با سازوکار مدل‌های بزرگ زبانی

مهدی جعفری مترجم

۸ بهمن ۱۴۰۲

زمان مطالعه : ۱۵ دقیقه

هوش مصنوعی قدرتمندتر از همیشه به نظر می‌رسد و چت‌بات‌هایی مثل بارد و ChatGPT می‌توانند متونی درست شبیه انسان را تولید کنند. اما این ربات‌ها با وجود تمام مهارت‌شان یک سوال را بی‌جواب گذاشته‌اند: آیا این مدل‌ها واقعا آنچه می‌گویند را درک می‌کنند؟ جفری هینتون، از پیشتازان هوش مصنوعی، در مصاحبه‌ جدیدی با اندرو ان‌جی، می‌گوید: «برخی به روشنی به این مساله باور دارند و برخی هم آنها را تنها طوطی‌های احتمال‌محور (stochastic parrots) می‌دانند.»

این عبارت معروف از مقاله‌ای در سال ۲۰۲۱ گرفته شده که امیلی بندر، زبان‌شناس رایانشی از دانشگاه واشنگتن، یکی از نگارندگان آن است. این مقاله می‌گوید مدل‌های بزرگ زبانی (LLMها)،‌ که پایه و اساس چت‌بات‌های مدرن هستند، تنها با ترکیب اطلاعاتی که مشاهده کرده‌اند و «بدون هیچ توجهی به معنای آن»، متن تولید می‌کنند و به گفته مولفان همین مساله LLM را به «یک طوطی احتمال‌محور» تبدیل می‌کند.

همین مدل‌های زبانی پشت پرده بزرگ‌ترین و بهترین چت‌بات‌های امروزی هستند و از نگاه هینتون وقت آن رسیده تا درمورد گستره درک آنها صحبت کنیم. این سوال از نظر او فراتر از یک سوال آکادمیک است. از نظر او: «تا زمانی که این اختلاف نظرها باقی است، نمی‌توانیم درمورد خطرات به اجماع برسیم.»

تحقیقات تازه‌ای اما برای پاسخ به همین سوال برآمده است. نظریه جدیدی از سنجیو آرورا از دانشگاه پرینستون و انیرود گویال،‌ یکی از محققان گوگل‌ دیپ‌مایند، می‌گوید بزرگترین LLMهای امروزی دیگر ماهیت طوطی‌وار ندارند. این دو پژوهشگر معقتدند که هرچه این مدل‌ها بزرگتر شده و براساس داده‌های بیشتری آموزش می‌بینند، مهارت‌های فردی آنها در حوزه زبان نیز بهبود یافته و با ترکیب مهارت‌ها، به گونه‌ای که نشان دهنده درک است، مهارت‌های تازه‌ای را کسب می‌کنند و به گفته آنها چنین ترکیبی بعید است که در داده‌های آموزشی وجود داشته باشد.

این رویکرد نظری که یک ادعای قابل اثبات از لحاظ ریاضی و دلیلی برای چرایی پیدایش مهارت‌های بسیار در LLM ارائه می‌کند برخی از متخصصان از جمله هینتون را متقاعد کرده است. وقتی آرورا و تیمش برخی از پیش‌بینی‌های خود را آزمایش کردند نیز متوجه شدند این مدل‌ها درست همانطور که انتظار می‌رفت رفتار می‌کنند. درنتیجه از هر جنبه‌ای با یک نظریه قدرتمند مواجه هستیم که نشان می‌دهد LLMها برخلاف گذشته دیگر ماهیت طوطی‌وار ندارند.

سباستین بوبک، ریاضیدان و محقق کامپیوتر تیم تحقیقات مایکروسافت که البته در این پژوهش نقشی نداشته است، می‌گوید: «نگرش پایه این است که امکان ندارد [آنها] فقط آنچه در داده‌های آموزشی می‌بینند را تقلید کرده باشند.»

داده بیشتر، قدرت بیشتر

می‌توان گفت که پدیدار شدن مهارت‌های مختلف و متعدد در LLM تعجب برانگیز است. این مهارت‌ها را نمی‌توان نتیجه مستقیم روند ساخت و آموزش این سیستم‌ها دانست. یک LLM در واقع یک شبکه عظیم و مصنوعی عصبی است که نورون‌های مصنوعی متعددی را به یکدیگر متصل می‌کند. این اتصال‌ها را به عنوان پارامتر‌های مدل می‌شناسیم و تعداد آنها نشانگر ابعاد و اندازه LLM است. فرایند آموزش نیز به این صورت است که جمله‌ای بدون یکی از کلماتش در اختیار مدل قرار می‌گیرد. برای مثال: «قیمت سوخت یک دست و یک …… است.» سپس LLM یک توزیع احتمال را در تمام واژگان خود، که مثلا یک هزار کلمه‌ است، پیش‌بینی می‌کند و هزار احتمال شکل می‌گیرد. سپس محتمل‌ترین کلمه برای کامل کردن جمله، و در اینجا کلمه «پا»، برای تکمیل جمله ارائه می‌شود.

ابتدا مدل زبانی در انتخاب کلمات ضعیف عمل می‌کند. الگوریتم آموزشی سپس به محاسبه یک زیان می‌پردازد، مقداری که در یک فضای چندبعدی ریاضیاتی، فاصله‌ بین پاسخ LLM و کلمه اصلی جای گرفته در جمله است. این زیان سپس برای اصلاح پارامتر‌ها استفاده می‌شود. حالا با ارائه همان جمله سابق، LLM با دقت بهتری احتمال توزیع را محاسبه کرده و درنتیجه زیان آن کاهش می‌یابد. الگوریتم این کار را برای تمام جملات موجود در داده‌های آموزشی (شاید میلیارد‌ها جمله)، تکرار می‌کند تا زمانی که زیان LLM تا سطح قابل‌قبولی کاهش یابد. سپس برای آزمایش مجدد مدل زبانی، جملاتی خارج داده‌های آموزشی نیز همین فرایند را طی می‌کنند.

مدلی که آموزش دیده و آزمایش شده باشد پس از دریافت یک پرامپت جدید متنی، محتمل‌ترین کلمه در توالی را تولید می‌کند، آن را به پرامپت پیوند می‌زند، سپس کلمه دیگری تولید کرده و پیوند می‌زند و این روند به همین ترتیب ادامه دارد تا زمانی که یک پاسخ کامل شکل بگیرد. اما هیچ چیز در فرایند آموزش چنین القا نمی‌کند که اگر LLMها بزرگتر باشند و پارامتر‌ها و داده‌های آموزشی آنها بیشتر باشد، از لحاظ استدلال هم عملکرد بهتری خواهند داشت.

اما در عمل همین موضوع را مشاهده می‌کنیم. LLMهایی که به اندازه کافی بزرگ باشند، مهارت‌هایی را در زمینه حل مسائل ابتدایی ریاضی یا پاسخ به سوالاتی درمورد افکار دیگران، از خود نشان می‌دهند که در مدل‌های کوچکتر مشاهده نمی‌شود، حتی اگر داده‌های آموزشی شبیه به هم باشند.

آرورا می‌پرسد: «این [مهارت] از کجا آمده است؟ و آیا ممکن است که تنها از پیش‌بینی کلمه بعدی برآمده باشد؟»

اتصال مهارت‌ و متن

آرورا برای پاسخ حساب شده به این سوالات با گویال همراه شد. آرورا می‌گوید: «ما سعی داشتیم یک چارچوب نظری برای پیدایش [مهارت‌ها] ارائه کنیم.»

روند کارمان ما را به سمت یک سری شکل‌های ریاضیاتی به نام گراف‌(نمودار)های تصادفی برد. یک گراف یا نمودار مجموعه‌ای از نقاط (یا گره‌ها) است که با خطوط (یا لبه‌ها) به هم متصل می‌شوند و در یک گراف تصادفی لبه‌ی بین هر دو نقطه‌ای به صورت تصادفی (فرض کنید با انداختن سکه) مشخص می‌شود. سکه با احتمال p رو می‌آید. اگر سکه برای دو گره رو بیاید، لبه‌ای بین این دو گره شکل می‌گیرد؛ در غیر این صورت اتصالی را شاهد نخواهیم بود. با تغییر مقدار p، گراف‌ها ممکن است مختصات‌شان تغییر کند. برای مثال زمانی که p از یک سرحدی بالاتر برود، گره‌های منزوی، آنهایی که به هیچ گره دیگری متصل نیستند، ناگهان ناپدید می‌شوند.

آرورا و گویال دریافتند که می‌توان از گراف‌های تصادفی،‌ که پس از رسیدن به یک سرحد خاصی باعث رفتار‌های غیرمنتظره می شوند، برای مدل‌سازی رفتار LLMها استفاده کرد. شبکه‌های عصبی برای تجزیه‌وتحلیل بیش از حد پیچیده هستند اما ریاضی‌دان‌ها مدت‌ها است که گراف‌های تصادفی را تحت مطالعه دارند و ابزارهای مختلفی را برای تجزیه‌تحلیل آنها ارائه کرده‌اند. شاید نظریه گراف تصادفی بتواند به درک و پیش‌بینی محققان از رفتار‌های غیرمنتظره LLMها کمک کند.

این دو محقق تصمیم گرفتند تا روی گراف‌های «دوبخشی» که شامل دو نوع گره هستند، تمرکز کنند. در مدل آنها، یکی از انواع گره نماینده تکه‌های متن (متنی متغییر از یک پارگراف و جمله تا چند صفحه و نه یک کلمه تنها) بود. این گره‌ها به صورت یک خط مستقیم تنظیم شدند. زیر آنها و در خط دیگری، دسته دیگری از گره‌ها قرار دارند. این گره‌ها در واقع مهارت‌هایی را نمایندگی می‌کنند که برای فهمیدن یک تکه متن به آن نیاز داریم. این مهارت‌ها می‌توانند هرچیزی باشند و شاید یک گره نماینده توانایی LLM برای درک کلمه «Because» باشد که در خود نوعی رابطه سببی را جای می‌دهد؛ گره دیگری شاید نشانگر توانایی تقسیم دو عدد و دیگری هم توانایی تشخیص طعنه. آرورا می‌گوید: «اگر شما بتوانید طعنه‌آمیز بودن یک تکه متن را درک کنید، خیلی چیز‌ها تغییر می‌کند و این با پیش‌بینی کلمات مرتبط است.»

باید بدانید که LLMها براساس این مهارت‌ها آموزش داده نشده و آزمایش نمی‌شوند؛ آنها فقط برای بهبود روند پیش‌بینی کلمه بعدی ساخته می‌شوند. اما آرورا و گویال می‌خواستند LLM را از نقطه نظر مهارت‌هایی که برای درک یک متن نیاز است بررسی کنند. اتصالی بین یک گره مهارتی و یک گره متنی، یا بین چند گره مهارتی و یک گره متنی، نشان می‌دهد که LLM برای درک متن موجود در آن گره به آن مهارت‌ها نیاز دارد. همچنین ممکن است که چندین تکه متن به یک یا چند مهارت مشترک مرتبط باشند؛ برای مثال، گروهی از گره‌های مهارتی که نماینده درک طعنه هستند ممکن است به چندین متن حاوی طعنه متصل شوند.

حال چالش این بود که این گراف‌های دوبخشی را به LLMهای واقعی متصل کرده و ببینیم که آیا این گراف‌ها به پیدایش مهارت‌های قدرتمند اشاره‌ای می‌کنند یا خیر. اما محققان نمی‌توانستند به داده‌های آموزشی یا آزمایشی LLMهای واقعی اتکا کنند زیرا اوپن‌ای‌آی یا دیپ‌مایند داده‌های آموزشی یا آزمایشی خود را به در دسترس عمومی نمی‌گذارند. افزون بر این، آرورا و گویال می‌خواستند رفتار LLMها را حتی در ابعاد بزرگتر نیز بررسی کنند و هیچ اطلاعاتی درمورد چت‌بات‌های آینده در دست نیست. با این حال امکان دسترسی به یک سری از اطلاعات مهم وجود داشت.

آنها متوجه شدند هرچه مدل‌ها، چه از لحاظ داده‌های آموزشی و چه از لحاظ ابعاد، بزرگتر می‌شوند، زیان دادهای آزمایشی (فاصله بین پاسخ پیش‌بینی شده و پاسخ صحیح متون جدید پس از آموزش) به شکل خاصی کاهش می‌یابد.

محققانی که از سال ۲۰۲۱ عملکرد LLMها و دیگر شبکه‌های عصبی را مطالعه می‌کنند یک روند سراسری را مشاهده کردند. آنها متوجه شدند هرچه مدل‌ها، چه از لحاظ داده‌های آموزشی و چه از لحاظ ابعاد، بزرگتر می‌شوند، زیان دادهای آزمایشی (فاصله بین پاسخ پیش‌بینی شده و پاسخ صحیح متون جدید پس از آموزش) به شکل خاصی کاهش می‌یابد. این مشاهدات در معادله‌هایی به نام قانون توسعه عصبی کدنگاری شده‌اند. درنتیجه آرورا و گویال نظریه خود را به گونه‌ای طراحی کردند تا به داده‌های هیچ LLM، چت‌بات یا داده‌های آموزشی و آزمایشی خاصی، وابسته نباشد و از یک قانون فراگیر،که این سیستم‌ها از آن پیروی می‌کنند، استفاده کند؛ زیانی که با توجه به قوانین توسعه پیش‌بینی می‌شود.

آنها می‌گویند شاید بهبود عملکردی که براساس قوانین توسعه عصبی پیش‌بینی می‌شود، با بهبود مهارت‌ها در ارتباط باشد و مهارت‌های بهبود یافته را بتوان با اتصال گره‌های مهارتی به گره‌های متنی در گراف‌های دوبخشی تعریف کرد. ایجاد چنین ارتباطی بین قوانین توسعه عصبی و گراف‌های دوبخشی، کلید پیشروی آنها بود.

افزایش مهارت‌ها

محققان کارشان را با این فرض شروع کردند که یک گراف دوبخشی فرضی، به رفتار LLMها بر داده‌های آزمایشی، مرتبط است. برای استفاده از این موضوع در بحث زیان LLMها در داده‌های آزمایشی، آنها راهکاری را تعریف کردند تا با استفاده از گراف نحوه کسب مهارت LLMها را توصیف کنند.

برای مثال مهارت «درک طعنه» را در نظر بگیرد. این ایده با یک گره مهارتی نمایندگی می‌شود تا محققان ببینند این گره مهارتی به کدام گره‌های متنی متصل می‌شود. اگر تمامی این گره‌های متنی متصل موفق باشند (یعنی پیش‌بینی‌های LLM درمورد متن این گره‌ها دقت بالایی داشته باشد)، درنتیجه LLM از این مهارت خاص برخوردار است. اگر بیشتر از کسر مشخصی از اتصال‌های گره مهارتی به گره‌های متنی با شکست مواجه شوند، LLM در آن مهارت شکست می‌خورد.

این اتصال بین گراف‌های دوبخشی و LLMها به آرورا و گویال اجازه داد تا ابزارهای نظریه گراف تصادفی را به شکل واسته برای تجزیه تحلیل رفتار LLM استفاده کنند. مطالعه این گراف‌ها از روابط خاصی بین گره‌ها پرده برداشت. سپس از این روابط برای توصیفی منطقی و قابل آزمایشی از چگونگی کسب مهارت‌های جدید در LLM و توانایی‌های غیرمنتظره آن استفاده شد.

آرورا و گویال ابتدا به توضیح یک رفتار مهم پرداختند: چرا LLMهای بزرگتر روی مهارت‌های خاص بهتر از همتایان کوچکتر خود عمل می‌کنند. آنها کار خود را با کمینه زیان‌های پیش‌بینی شده در قوانین توسعه عصبی آغاز کردند. کمینه زیان در یک گراف را می‌توان در سقوط کسر گره‌های شکست خورده آزمایشی مشاهده کرد. درنتیجه در آن قسمت گره‌های آزمایشی کمتری با شکست مواجه شده‌اند که یعنی روابط کمتری بین گره‌های شکست خورده و گره‌های مهارتی وجود دارد. درنتیجه، تعداد گره‌های مهارتی متصل به گره‌های موفق آزمایشی بیشتر است که یعنی مدل زبانی خبرگی بیشتری در مهارت‌ها دارد گویال می‌گوید: «کاهش خیلی کمی در زیان، باعث می‌شود تا خبرگی ماشینی در مهارت‌ها بیشتر شود.»

این دو محقق سپس راهکاری برای توضیح مهارت‌های غیرمنتظره مدل‌های بزرگتر یافتند. هرچه ابعداد LLM افزایش یافته و زیان آن کمتر می‌شود، ترکیب تصادفی گره‌های مهارتی اتصال‌هایی را با گره‌ها خاص متنی رقم می‌زند. این یعنی LLM در استفاده از بیشتر از یک مهارت در لحظه تقویت شده و متن را با استفاده از ترکیب چند مهارت، حتی اگر ترکیب مشابهی در متون داده‌های آموزشی وجود نداشته باشد، تولید می‌کند (برای مثال مهارت استفاده از طعنه را با درک کلمه «because» ترکیب می‌کند.)

برای مثال، مدل زبانی بزرگی را تصور کنید که می‌تواند از یک مهارت خاص برای تولید متن استفاده کند. اگر تعداد پارامت‌ها یا داده‌های آموزشی را با به شکل قابل توجهی افزایش دهیم، این مدل در تولید متنی که به دو مهارت نیاز داشته باشد هم به همان اندازه خبره می‌شود. بار دیگر پارامت‌ها و داده ها را افزایش دهید و LLM حالا می‌تواند کارهایی که به چهار مهارت نیاز داشته باشند را نیز با همان سطح شایستگی به انجام رساند. مدل‌های بزرگتر، راهکارهای بیشتری برای کسب مهارت جدید دارند و درنتیجه انفجاری از ترکیب مهارت‌ها را مشاهده می‌کنیم.

و با گسترش ابعاد یک LLM، احتمال اینکه ترکیب مهارت‌ها را در داده‌های آموزشی مشاهده کنیم کاهش می‌یابد. قوانین نظریه گراف تصادفی می‌گوید، تمام ترکیب‌ها از نمونه‌برداری تصادفی مهارت‌های ممکن زاده می‌شوند. پس اگر حدود یک هزار گره مهارتی در گراف وجود داشته باشد و بخواهید چهار مهارت را ترکیب کنید، تقریبا هزار به توان چهار راه ممکن (یعنی یک هزار میلیارد روش) برای ترکیب آنها وجود دارد.

آرورا و گویال معتقدند همین مساله نشان می‌دهد که مدل‌های بزرگ زبانی تنها به مهارت‌هایی که در داده‌های آموزشی مشاهده می‌کنند وابسته نیستند. بوبک با این نتیجه‌گیری موافق است. او می‌گوید: «اگر یک LLM بتواند این کارها را با ترکیب چهار مورد از آن هزار مهارت انجام دهد، درنتیجه به کلیت بخشی مشغول است» که یعنی دیگر یک طوطی احتمال‌محور نیست.

آیا آنچه می‌بینیم خلاقیت واقعی است؟

آرورا و گویال می‌خواستند از نظریه فراتر رفته و ادعای‌شان مبنی بر اینکه LLMها با افزایش ابعاد و داده‌های آموزشی، در ترکیب مهارت‌ها و درنتیجه کلیت بخشی تقویت می‌شوند را آزمایش کنند. درنتیجه با همراهی همکاران دیگری، روشی به نام «ترکیب-مهارت» را برای ارزیابی توانمندی LLM در استفاده از مهارت‌های مختلف برای تولید متن، ابداع کردند.

این تیم برای آزمایش یک LLM از آن خواستند تا سه جمله در رابطه با یک موضوع تصادفی تولید کند که برخی از مهارت‌های تصادفی آنها را نشان دهد. برای مثال آنها از GPT-4 (مدل زبانی بزرگ قدرتمندترین نسخه chatGPT) خواستند درمورد دوئل یا مبارزه با شمشیر، بنویسد. همچنین از این مدل زبانی خواستند تا مهارت‌هایی در چهار حوزه را به نمایش بگذارد: سوگیری خودمحور، استعاره، قیاس آماری و دانسته‌های عرف فیزیکی. GPT اینگونه پاسخ داد: «پیروزی من در این رقص با فولاد [استعاره] حتمی است، مثل سقوط یک شی بر زمین [فیزیکی]. من به عنوان یک دوئل کننده پرآوازه ذاتا و همانند بیشتر [آمار قیاسی] هم‌آوازه‌هایم چابک هستم. شکست؟ نه به دلیل ناشایستگی من، بلکه تنها با یک میدان نبرد نابرابر ممکن است [سوگیری خودمحور].» سپس وقتی از GPT-4 خواسته شد تا خروجی خود را بررسی کند، آن را به سه جمله کاهش داد.

GPT-4 حتی در ۱۰ تا ۱۵ درصد از مواقع امتحان‌های ترکیب مهارتی که نیازمند شش مهارت هستند را نیز قبول می‌شود و متونی ارائه می‌کند که وجود آنها از لحاظ آماری در داده‌های آموزشی غیرممکن است.

آرورا می‌گوید: «شکسپیر یا همینگوی نیست،» اما از نظر تیم موضوع مد نظر آنها را تایید می‌کند: این مدل قادر است متنی که حتی در داده‌های آموزشی ندیده را تولید کند و مهارت‌هایی را به نمایش بگذارد که از نگاه برخی به مثابه درک است. GPT-4 حتی در ۱۰ تا ۱۵ درصد از مواقع امتحان‌های ترکیب مهارتی که نیازمند شش مهارت هستند را نیز قبول می‌شود و متونی ارائه می‌کند که وجود آنها از لحاظ آماری در داده‌های آموزشی غیرممکن است.

این تیم همچنین با درخواست از GPT-4 برای ارزیابی خروجی خود و خروجی دیگر LLMها، این فرایند را خودکارسازی کردند. به گفته آرورا، از آنجایی که مدل حافظه ندارد و به یاد نمی‌آورد که تولید همین متن را از او خواسته بودیم، پس می‌شود ارزیابی را برعهده خودش بگذاریم. یاسمن بحری، یکی از محققان گوگل دیپ‌ماین که روی بنیان‌های هوش مصنوعی فعالیت دارد، می‌گوید این رویکرد خودکار «بسیار ساده و هوشمندانه است.»

به گفته بوبک با اینکه یک سری فرضیات برای این نظریه در نظر گرفته شده «اما این فرضیات به هیچ عنوان احمقانه نیستند.» آزمایش‌های انجام شده نیز او را تحت تاثیر گذاشته است. او می‌گوید: «آنچه [این تیم] از لحاظ نظری اثبات و به صورت تجربی تایید می‌کند کلیت بخشی ترکیبی است، یعنی اینکه [LLMها] می‌توانند آجرای ساختمانی که هیچوقت ندیده‌اند را روی هم بچینند. همین از نظر من درون مایه خلاقیت است.»

با این حال آرورا می‌گوید این بررسی هیچ اشاره‌ای به دقت نوشته‌های LLM ندارد. او می‌گوید: «در واقع یک استدلالی است برای تازگی. این چیزها هیچوقت در کالبد آموزشی جهان دیده نشده‌اند. هیچکس این را ننوشته است. توهم [مدل زبانی در اینجا] اجباری است.»

با این حال از نظر هینتون این بررسی‌ها پاسخی است به تصور طوطی‌وار از مدل‌های زبانی. او می‌گوید: «این بهترین روشی است که نشان می‌دهد GPT-4 چیزی بیشتر از یک طوطی احتمال‌محور ساده است. آنها به خوبی نشان می‌دهند که GPT-4 می‌تواند متنی با ترکیب مهارت‌ها و موضوعات را به گونه‌ای تولید کند که اصلا در داده‌های آموزشی دیده نمی‌شود.»

عملکرد GPT-4 از لحاظ ریاضیات به حدی از نسخه‌های کوچکتر پیشین مثل GPT-3.5 فراتر رفته که آرورا را شگفت زده می‌کند. او می‌گوید: «احتمالا من تنها نیستم. خیلی‌ها از بهبود GPT-4 به نسبت GPT-3.5 حراسان شده‌اند و این تنها زاده یک سال بود. آیا در یک سال دیگر می‌توان دوباره انتظار این حجم از تغییرات را داشت؟ من نمی‌دانم. تنها اوپن‌ای‌آی خبر دارد.»

منبع: Quantamagazine

این مطالب را هم بخوانید: