skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

مدل کوچک پژوهشگر سامسونگ از مدل‌های ۱۰ هزار برابر بزرگ‌تر هوشمندانه‌تر عمل می‌کند

۱۷ مهر ۱۴۰۴

زمان مطالعه : ۹ دقیقه

رقابت بر سر ساخت مدل‌های هوش مصنوعی و بهبود عملکرد آنها با محوریت بزرگتر مساوی بهتر در حال پیشروی است اما یک پژوهشگر شرکت سامسونگ با ارائه مدلی کوچک اما قدرتمند، مسیر تازه‌ای را برای پیشرفت هوش مصنوعی مطرح کرده است. مدل ساخته این پژوهشگر تنها با ۷ میلیون پارامتر توانست عملکردی برابر یا حتی بهتر از مدل‌های ۱۰ هزار برابر بزرگتر خود در دشوارترین آزمون‌های استدلالی به ثبت برساند.

به گزارش پیوست،‌ شرکت‌هایی همچون اوپن‌ای‌آی و گوگل میلیاردها دلار صرف توسعه مدل‌های عظیم با هزاران میلیارد پارامتر می‌کنند، اما الکسا جولی‌کُر-مارتینو، پژوهشگر ارشد در موسسه پیشرفته فناوری سامسونگ (SAIT) در مونترآل کانادا، با مدلی کوچک اما توانمند به جنگ ابزارهای غول‌های فناوری رفت هاست. این مدل برای عملکرد بهتر از فراخوان و استدلال برپایه بازگشت اطلاعات استفاده می‌کند و با حداقل منابع، عملکردی خیره‌کننده دارد.

گزارشی‌ از ونچربیت پیرامون مدل ساخته پژوهشگر سامسونگ که Tiny Recursion Model (TRM) یا مدل بازگشتی کوچک نام دارد نشان می‌دهد که این مدل بر پایه‌ی نوعی طراحی فراخوان یا بازگشتی، توانسته با حداقل منابع سخت‌افزاری، وظایف پیچیده‌ مبتنی بر استدلال را به خوبی به اجرا بگذارد و در مواردی حتی از مدل‌های غول‌آسا بهتر عمل کند.

جنگ با منطق بزرگتر به معنای بهتر در صنعت هوش مصنوعی

به‌گفته جولی‌کر-مارتینو، هدف از توسعه‌ی TRM، اثبات این ایده است که پیشرفت هوش مصنوعی الزاما نباید وابسته به مقیاس و هزینه‌های هنگفت باشد. او طی پستی در شبکه اجتماعی ایکس (توییتر سابق) نوشت: «ایده‌ای که برای حل مسائل دشوار باید به مدل‌های عظیم و میلیون‌دلاری تکیه کرد، یک دام است. تمرکز بیش از حد روی بهره‌برداری از مدل‌های زبانی بزرگ (LLMs) ما را از خلق مسیرهای جدید بازمی‌دارد.»

او در ادامه افزود: «با استدلال بازگشتی، در می‌یابیم که کمتر، واقعا به معنای بیشتر است و  یک مدل کوچک که از ابتدا آموزش دیده و خود را در هر مرحله تصحیح می‌کند، می‌تواند به نتایجی خارق‌العاده برسد و نیازی هم به بودجه‌ نجومی نیست.

ساده‌سازی به جای تکیه بر سلسله مراتب

معماری TRM در واقع نمادی از یک ساده‌سازی حداکثری است. این معماری برسااس ترفندی به نام Hierarchical Reasoning Model (HRM) ساخته شده است که اوایل سال جاری میلادی معرفی شد و نشان داد شبکه‌های کوچک چجور می‌توانند پازل‌ها سودوکو و غیره را حل کنند.

مدل HRM از دو شبکه‌ همکار با سرعت‌های پردازشی متفاوت استفاده می‌کند که یکی با فرکانس بالا و دیگر با فرکانس پایین فعالیت دارند و برگرفته از استدلال‌های بیولوژیکی و توجیه ریاضیاتی مبتنی بر نظریه نقطه ثابت باناخ هستند.

اما از نگاه جولی‌کُر-مارتینو، این ساختار بیش از اندازه پیچیده بود و در TRM همه این عناصر را کنار می‌گذارد. به جای دو شبکه، این معماری از یک مدل دو لایه استفاده می‌کند که به صورت بازگشتی یا از طریق فراخوان، پیش‌بینی‌های خود را اصلاح می‌کند.

این مدل کار خود را با یک ورودی (x)، پاسخ اولیه (y)، و یک نماد پنهان درونی (z) آغاز می‌کند. سپس مدل در زنجیره‌ای از گام‌های استدلالی،‌نماد پنهان درونی خود یا همان z را به‌روزرسانی کرده و پاسخ خود یعنی y را تا جایی اصلاح می‌کند که این دو برسر یک خروجی پایدار به هم‌پوشانی برسند. هر بازگشت یا فراخوان، خطاهای احتمالی مرحله قبلی را اصلاح می‌کند و در نتیجه بدون نیاز به سلسله مراتب یا نظارت ریاضایاتی، فرایند استدلال خود را به تردیج بهبود بخشیده و اصلاح می‌کند.

چگونه بازگشت یا فراخوان می‌تواند جایگزین مقیاس شود

ایده اساسی TRM این است که فراخوان یا بازگشت می‌تواند جایگزینی برای عمق و اندازه باشد.

این شبکه با استدلال پی‌در‌پی برروی خروجی خودش در واقع یک معماری عمیق را بدون حافظه یا هزینه رایانشی بالا شبیه‌سازی می‌کند. این چرخه بازگشتی تا حداکثر ۱۶ گام نظارتی را پشت سر می‌گذارد تا مدل پیش‌بینی‌های خود را به تدریج بهتر و بهتر کند (تقریبا به همان صورتی که مدل‌های بزرگ زبانی از استدلال «زنجیره افکار» استفاده می‌کنند،‌اما به صورتی فشرده‌تر و روبه‌جلو.)

همین سادگی، هم باعث بهینه‌سازی مدل می‌شود و هم ماهیت عمومی به آن می‌دهد. این مدل از لایه‌های کمتری برخوردار است، خبری از نزدیک شدن به یک نقطه ثابت و سلسله مراتب جفت شبکه‌ای نیست. یک مکانیزم سبک موسوم به halting mechanism نیز در این میان تصمیم می‌گیرد که چه زمانی به اصلاح و بهینه‌سازی پایان دهد و در نتیجه در عین حفظ دقت، از اتلاف توان رایانشی جلوگیری می‌شود.

عملکردی فراتر از انتظار

نتایج این معماری در آزمایش‌ها شگفت‌انگیز بوده است. مدل مبتنی بر معماری TRM توانسته در آزمون‌های استدلالی بسیار پیچیده عملکردی هم‌سطح یا حتی بهتر از رقبای غول‌آسای خود داشته باشد:

  • Sudoku-Extreme: دقت ۸۷٫۴ درصد (در مقایسه با ۵۵ درصد در مدل HRM)
  • Maze-Hard: دقت ۸۵ درصد
  • ARC-AGI-1: دقت ۴۵ درصد
  • ARC-AGI-2: دقت ۸ درصد

این نتایج از مدل‌هایی همچون DeepSeek R1، Gemini 2.5 Pro و o3-mini از اوپن‌ای‌آی که میلیون‌ها برابر پارامتر دارند، در این آزمون‌ها بهتر است. نکته قابل توجه این است که TRM تنها از با ۰٫۰۱ درصد پارامتر در مقایسه با  آن مدل‌ها، چنین عملکردی را به ثبت رسانده است.

پژوهشگران می‌گویند این نتایج گواه آن است که احتمالا این استدلال بازگشتی می‌تواند کلید حل مسائل فشرده و ترکیبی استدلالی باشد و نه مقیاس. پازل‌ها، بازی‌ها و مسائلی که نیاز به منطق ترکیبی دارند در این دسته جای می‌گیرند و حتی بزرگ‌ترین مدل‌های زبانی نیز در این بخش به بن‌بست می‌خورند.

طراحی مبتنی بر سادگی

جولی‌کر-مارتینو معقتد است که موفقیت TRM در سادگی آن نهفته است. او مینیمالیسم را کلید موفقیت این معماری معرفی کرده و می‌گوید کاهش پیچیدگی باعث عمومیت‌دهی بهتر می‌شود.

وقتی محقق تعداد لایه یا اندازه مدل را افزایش می‌دهد، عملکرد به دلیل بیش برازش (حفظ ویژگی‌های داده‌های آموزشی به جای یادگیری که باعث می‌شود خطا در داده جدید افزایش یابد) دیتاست‌های کوچک، تضعیف می‌شود.

اما ساختار دو‌لایه وقتی با عمق بازگشتی و نظارت مرحله‌ای عمیق ترکیب شود،‌ بهترین تعادل میان سادگی و دقت برقرار کرد گشته و نتایج بهینه حاصل می‌گردند. در برخی وظایف مانند حل سودوکو، جایگزینی مکانیزم توجه به خود با الگوریتم آموزشی پرسپترون چندلایه ساده‌تر (MLP) برای وظایف کوچک، دقت مدل را افزایش می‌دهد.

اما در رابطه با شبکه‌های بزرگ‌تری مانند پازل‌های ARC، استفاده از self-attention یا توجه به خود همچنان ارزشمند است. این یافته‌ها نشان می‌دهد که معماری مدل باید با ساختار داده و نوع وظیفه هماهنگ باشد و صرفا همیشه بزرگتر به معنای بهتر نیست.

رویکرد متن‌باز و ایجاد دسترسی برای همه

یکی از نقاط قوت پروژه، انتشار متن‌باز این معماری با موجوز قابل استفاده است. سامسونگ کد کامل TRM را با مجوز MIT License در GitHub منتشر کرده است. این مجوز نه‌تنها استفاده پژوهشی، بلکه بهره‌برداری تجاری را نیز آزاد می‌گذارد.

در این کد، تمام اسکریپت‌های آموزش و ارزیابی، ابزار ساخت داده برای سودوکو، ماز و ARC-AGI و پیکربندی‌های مرجع برای بازتولید نتایج منتشر شده است. سامسونگ همچنین پیش‌نیاز‌های رایانشی را نیز مشخص کرده است که براساس آن، برای آموزش مدل سودوکو تنها به یک کارت گرافیک NVIDIA L40S نیاز است، در حالی که برای نسخه‌های پیشرفته‌تر (مانند ARC-AGI) توان رایانشی تا چند پردازنده گرافیکی پیشرفته H100 شرکت انویدیا افزایش می‌یابد.

این سطح از شفافیت و سادگی، به گفته کارشناسان، دسترسی امکان پژوهش‌های پیشرفته را برای موسسات کوچک و دانشگاه‌ها که منابع عظیم در اختیار ندارند، فراهم می‌کند.

تحسین و تردید‌های جامعه علمی

انتشار TRM موجی از واکنش‌ها را در میان پژوهشگران هوش مصنوعی در شبکه اجتماعی  ایکس به دنبال داشت. بسیاری این دستاورد را نشانه‌ای از پایان سلطه‌ مدل‌های غول‌پیکر عنوان کرده‌اند و یکی از کاربران در توصیف آن می‌گوید «مدلی که ۱۰ هزار برابر کوچک‌تر اما به همان اندازه باهوش‌تر است!» نشان دهنده توان مدل‌های کوچک در رقابت با غول‌‌ا است.

اما منتقدان نیز معتقدند که دامنه استفاده TRM بسیار محدود است و بر پازل‌های محدود و شبکه‌ای تمرکز دارد. به گفته آن‌ها کاهش توان رایانشی نیز تنها در بخش اندازه مدل انجام گرفته و بر زمان اجرای مدل تاثیری نداشته است. همچنین این مدل برای وظایفی مانند مکالمه طبیعی، ترجمه زبان یا تولید متن مناسب نیست.

یونمین چا، پژوهشگر یادگیری ماشین، خاطرنشان می‌کند که هرچند این مدل کوچک است، اما فرآیند آموزش آن به دلیل تکرارهای متعدد بازگشتی و افزایش داده‌های آموزشی، همچنان نیازمند رایانش سنگینی است و در واقع اگر «محاسبات بیشتر» نیاز داشته باشید،‌ این مدل با نمونه‌های بزرگ از لحاظ رایانشی تفاوتی ندارد.

در همین حال، چی لاودی، زیست‌شناس داده و متخصص ژنتیک سرطان، می‌گوید TRM یک حلال مساله است و نه یک مولد زبان. در منطق ساختاری بی‌نظیر است اما نمی‌تواند گفت‌وگو کند یا داستان بنویسد.

پژوهشگر شناخته‌شده‌ی حوزه یادگیری ماشین، سباستین راشکا، نیز TRM را «ساده‌سازی درخشان HRM» توصیف کرده و فرایند آن را اینگونه توصیف می‌کند: «یک حلقه دو مرحله‌ای که وضعیت استدلال داخلی خود را بروزرسانی کرده و سپس پاسخ را اصلاح می‌کند.»

چندین محقق از جمله آگوستین نابله نیز معتقدند که نقطه قوت این مدل در ساختار روشن استدلالی آن است اما برای اینکه بتوان از آن در مسائل بیشتری استفاده کرد، به پژوهش و فعالیت در آینده نیاز است.

به طور کلی پژوهشگران در فضای آنلاین اتفاق نظر دارند که با وجود دامنه عملکردی محدود TRM، یک پیام بزرگ در این معماری نهفته است: بازگشت و بازخوانی با دقت می‌تواند موج بعدی تحقیقات استدلالی را رهبری کند، نه گسترش و افزایش مقیاس.

چشم‌انداز آینده: بازگشت به تفکر انسانی؟

به باور جولی‌کر-مارتینو، TRM صرفا یک مدل نیست، بلکه اثبات مفهومی برای آینده‌ی متفاوتی از هوش مصنوعی است که در آن مدل‌ها به‌جای افزایش حجم، با دقت و عمق بیشتری می‌اندیشند.

او اعلام کرده که در گام بعدی قصد دارد نسخه‌های بازگشتی مولد (Generative Recursive Models) را بررسی کند که بتوانند به‌جای یک پاسخ قطعی، چندین راه‌حل ممکن تولید کنند.

همچنین یکی از مسیرهای پژوهشی آینده، بررسی قوانین مقیاس‌پذیری راهکار بازگشت یا فراخوانی است. تعیین اینکه تا چه حد می‌توان از اصل «کمتر، بیشتر است» بهره برد در زمانی بهره برد که داده‌ها یا پیچیدگی مسئله بیشتر می‌شود.

محقق سامسونگ مقاله خود را اینگونه به پایان می‌رساند: پیشرفت واقعی در هوش مصنوعی الزاما در گرو ساخت مدل‌های غول‌آسا و بزرگتر نیست. گاهی آموزش دادن یک شبکه‌ی کوچک برای تفکر دقیق و بازگشتی، می‌تواند از وادار کردن یک مدل عظیم به تفکر سطحی مفیدتر باشد.

 

https://pvst.ir/ml9

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو