گوگل مدل جدید Gemini 2.5 Computer Use را برای تعامل با اپلیکیشن و وب معرفی کرد
گوگل در ادامهی توسعه مدلهای چندوجهی خود، از مدل جدید Gemini 2.5 Computer Use رونمایی…
۱۶ مهر ۱۴۰۴
۱۷ مهر ۱۴۰۴
زمان مطالعه : ۹ دقیقه
رقابت بر سر ساخت مدلهای هوش مصنوعی و بهبود عملکرد آنها با محوریت بزرگتر مساوی بهتر در حال پیشروی است اما یک پژوهشگر شرکت سامسونگ با ارائه مدلی کوچک اما قدرتمند، مسیر تازهای را برای پیشرفت هوش مصنوعی مطرح کرده است. مدل ساخته این پژوهشگر تنها با ۷ میلیون پارامتر توانست عملکردی برابر یا حتی بهتر از مدلهای ۱۰ هزار برابر بزرگتر خود در دشوارترین آزمونهای استدلالی به ثبت برساند.
به گزارش پیوست، شرکتهایی همچون اوپنایآی و گوگل میلیاردها دلار صرف توسعه مدلهای عظیم با هزاران میلیارد پارامتر میکنند، اما الکسا جولیکُر-مارتینو، پژوهشگر ارشد در موسسه پیشرفته فناوری سامسونگ (SAIT) در مونترآل کانادا، با مدلی کوچک اما توانمند به جنگ ابزارهای غولهای فناوری رفت هاست. این مدل برای عملکرد بهتر از فراخوان و استدلال برپایه بازگشت اطلاعات استفاده میکند و با حداقل منابع، عملکردی خیرهکننده دارد.
گزارشی از ونچربیت پیرامون مدل ساخته پژوهشگر سامسونگ که Tiny Recursion Model (TRM) یا مدل بازگشتی کوچک نام دارد نشان میدهد که این مدل بر پایهی نوعی طراحی فراخوان یا بازگشتی، توانسته با حداقل منابع سختافزاری، وظایف پیچیده مبتنی بر استدلال را به خوبی به اجرا بگذارد و در مواردی حتی از مدلهای غولآسا بهتر عمل کند.
بهگفته جولیکر-مارتینو، هدف از توسعهی TRM، اثبات این ایده است که پیشرفت هوش مصنوعی الزاما نباید وابسته به مقیاس و هزینههای هنگفت باشد. او طی پستی در شبکه اجتماعی ایکس (توییتر سابق) نوشت: «ایدهای که برای حل مسائل دشوار باید به مدلهای عظیم و میلیوندلاری تکیه کرد، یک دام است. تمرکز بیش از حد روی بهرهبرداری از مدلهای زبانی بزرگ (LLMs) ما را از خلق مسیرهای جدید بازمیدارد.»
او در ادامه افزود: «با استدلال بازگشتی، در مییابیم که کمتر، واقعا به معنای بیشتر است و یک مدل کوچک که از ابتدا آموزش دیده و خود را در هر مرحله تصحیح میکند، میتواند به نتایجی خارقالعاده برسد و نیازی هم به بودجه نجومی نیست.
معماری TRM در واقع نمادی از یک سادهسازی حداکثری است. این معماری برسااس ترفندی به نام Hierarchical Reasoning Model (HRM) ساخته شده است که اوایل سال جاری میلادی معرفی شد و نشان داد شبکههای کوچک چجور میتوانند پازلها سودوکو و غیره را حل کنند.
مدل HRM از دو شبکه همکار با سرعتهای پردازشی متفاوت استفاده میکند که یکی با فرکانس بالا و دیگر با فرکانس پایین فعالیت دارند و برگرفته از استدلالهای بیولوژیکی و توجیه ریاضیاتی مبتنی بر نظریه نقطه ثابت باناخ هستند.
اما از نگاه جولیکُر-مارتینو، این ساختار بیش از اندازه پیچیده بود و در TRM همه این عناصر را کنار میگذارد. به جای دو شبکه، این معماری از یک مدل دو لایه استفاده میکند که به صورت بازگشتی یا از طریق فراخوان، پیشبینیهای خود را اصلاح میکند.
این مدل کار خود را با یک ورودی (x)، پاسخ اولیه (y)، و یک نماد پنهان درونی (z) آغاز میکند. سپس مدل در زنجیرهای از گامهای استدلالی،نماد پنهان درونی خود یا همان z را بهروزرسانی کرده و پاسخ خود یعنی y را تا جایی اصلاح میکند که این دو برسر یک خروجی پایدار به همپوشانی برسند. هر بازگشت یا فراخوان، خطاهای احتمالی مرحله قبلی را اصلاح میکند و در نتیجه بدون نیاز به سلسله مراتب یا نظارت ریاضایاتی، فرایند استدلال خود را به تردیج بهبود بخشیده و اصلاح میکند.
ایده اساسی TRM این است که فراخوان یا بازگشت میتواند جایگزینی برای عمق و اندازه باشد.
این شبکه با استدلال پیدرپی برروی خروجی خودش در واقع یک معماری عمیق را بدون حافظه یا هزینه رایانشی بالا شبیهسازی میکند. این چرخه بازگشتی تا حداکثر ۱۶ گام نظارتی را پشت سر میگذارد تا مدل پیشبینیهای خود را به تدریج بهتر و بهتر کند (تقریبا به همان صورتی که مدلهای بزرگ زبانی از استدلال «زنجیره افکار» استفاده میکنند،اما به صورتی فشردهتر و روبهجلو.)
همین سادگی، هم باعث بهینهسازی مدل میشود و هم ماهیت عمومی به آن میدهد. این مدل از لایههای کمتری برخوردار است، خبری از نزدیک شدن به یک نقطه ثابت و سلسله مراتب جفت شبکهای نیست. یک مکانیزم سبک موسوم به halting mechanism نیز در این میان تصمیم میگیرد که چه زمانی به اصلاح و بهینهسازی پایان دهد و در نتیجه در عین حفظ دقت، از اتلاف توان رایانشی جلوگیری میشود.
نتایج این معماری در آزمایشها شگفتانگیز بوده است. مدل مبتنی بر معماری TRM توانسته در آزمونهای استدلالی بسیار پیچیده عملکردی همسطح یا حتی بهتر از رقبای غولآسای خود داشته باشد:
این نتایج از مدلهایی همچون DeepSeek R1، Gemini 2.5 Pro و o3-mini از اوپنایآی که میلیونها برابر پارامتر دارند، در این آزمونها بهتر است. نکته قابل توجه این است که TRM تنها از با ۰٫۰۱ درصد پارامتر در مقایسه با آن مدلها، چنین عملکردی را به ثبت رسانده است.
پژوهشگران میگویند این نتایج گواه آن است که احتمالا این استدلال بازگشتی میتواند کلید حل مسائل فشرده و ترکیبی استدلالی باشد و نه مقیاس. پازلها، بازیها و مسائلی که نیاز به منطق ترکیبی دارند در این دسته جای میگیرند و حتی بزرگترین مدلهای زبانی نیز در این بخش به بنبست میخورند.
جولیکر-مارتینو معقتد است که موفقیت TRM در سادگی آن نهفته است. او مینیمالیسم را کلید موفقیت این معماری معرفی کرده و میگوید کاهش پیچیدگی باعث عمومیتدهی بهتر میشود.
وقتی محقق تعداد لایه یا اندازه مدل را افزایش میدهد، عملکرد به دلیل بیش برازش (حفظ ویژگیهای دادههای آموزشی به جای یادگیری که باعث میشود خطا در داده جدید افزایش یابد) دیتاستهای کوچک، تضعیف میشود.
اما ساختار دولایه وقتی با عمق بازگشتی و نظارت مرحلهای عمیق ترکیب شود، بهترین تعادل میان سادگی و دقت برقرار کرد گشته و نتایج بهینه حاصل میگردند. در برخی وظایف مانند حل سودوکو، جایگزینی مکانیزم توجه به خود با الگوریتم آموزشی پرسپترون چندلایه سادهتر (MLP) برای وظایف کوچک، دقت مدل را افزایش میدهد.
اما در رابطه با شبکههای بزرگتری مانند پازلهای ARC، استفاده از self-attention یا توجه به خود همچنان ارزشمند است. این یافتهها نشان میدهد که معماری مدل باید با ساختار داده و نوع وظیفه هماهنگ باشد و صرفا همیشه بزرگتر به معنای بهتر نیست.
یکی از نقاط قوت پروژه، انتشار متنباز این معماری با موجوز قابل استفاده است. سامسونگ کد کامل TRM را با مجوز MIT License در GitHub منتشر کرده است. این مجوز نهتنها استفاده پژوهشی، بلکه بهرهبرداری تجاری را نیز آزاد میگذارد.
در این کد، تمام اسکریپتهای آموزش و ارزیابی، ابزار ساخت داده برای سودوکو، ماز و ARC-AGI و پیکربندیهای مرجع برای بازتولید نتایج منتشر شده است. سامسونگ همچنین پیشنیازهای رایانشی را نیز مشخص کرده است که براساس آن، برای آموزش مدل سودوکو تنها به یک کارت گرافیک NVIDIA L40S نیاز است، در حالی که برای نسخههای پیشرفتهتر (مانند ARC-AGI) توان رایانشی تا چند پردازنده گرافیکی پیشرفته H100 شرکت انویدیا افزایش مییابد.
این سطح از شفافیت و سادگی، به گفته کارشناسان، دسترسی امکان پژوهشهای پیشرفته را برای موسسات کوچک و دانشگاهها که منابع عظیم در اختیار ندارند، فراهم میکند.
انتشار TRM موجی از واکنشها را در میان پژوهشگران هوش مصنوعی در شبکه اجتماعی ایکس به دنبال داشت. بسیاری این دستاورد را نشانهای از پایان سلطه مدلهای غولپیکر عنوان کردهاند و یکی از کاربران در توصیف آن میگوید «مدلی که ۱۰ هزار برابر کوچکتر اما به همان اندازه باهوشتر است!» نشان دهنده توان مدلهای کوچک در رقابت با غولا است.
اما منتقدان نیز معتقدند که دامنه استفاده TRM بسیار محدود است و بر پازلهای محدود و شبکهای تمرکز دارد. به گفته آنها کاهش توان رایانشی نیز تنها در بخش اندازه مدل انجام گرفته و بر زمان اجرای مدل تاثیری نداشته است. همچنین این مدل برای وظایفی مانند مکالمه طبیعی، ترجمه زبان یا تولید متن مناسب نیست.
یونمین چا، پژوهشگر یادگیری ماشین، خاطرنشان میکند که هرچند این مدل کوچک است، اما فرآیند آموزش آن به دلیل تکرارهای متعدد بازگشتی و افزایش دادههای آموزشی، همچنان نیازمند رایانش سنگینی است و در واقع اگر «محاسبات بیشتر» نیاز داشته باشید، این مدل با نمونههای بزرگ از لحاظ رایانشی تفاوتی ندارد.
در همین حال، چی لاودی، زیستشناس داده و متخصص ژنتیک سرطان، میگوید TRM یک حلال مساله است و نه یک مولد زبان. در منطق ساختاری بینظیر است اما نمیتواند گفتوگو کند یا داستان بنویسد.
پژوهشگر شناختهشدهی حوزه یادگیری ماشین، سباستین راشکا، نیز TRM را «سادهسازی درخشان HRM» توصیف کرده و فرایند آن را اینگونه توصیف میکند: «یک حلقه دو مرحلهای که وضعیت استدلال داخلی خود را بروزرسانی کرده و سپس پاسخ را اصلاح میکند.»
چندین محقق از جمله آگوستین نابله نیز معتقدند که نقطه قوت این مدل در ساختار روشن استدلالی آن است اما برای اینکه بتوان از آن در مسائل بیشتری استفاده کرد، به پژوهش و فعالیت در آینده نیاز است.
به طور کلی پژوهشگران در فضای آنلاین اتفاق نظر دارند که با وجود دامنه عملکردی محدود TRM، یک پیام بزرگ در این معماری نهفته است: بازگشت و بازخوانی با دقت میتواند موج بعدی تحقیقات استدلالی را رهبری کند، نه گسترش و افزایش مقیاس.
به باور جولیکر-مارتینو، TRM صرفا یک مدل نیست، بلکه اثبات مفهومی برای آیندهی متفاوتی از هوش مصنوعی است که در آن مدلها بهجای افزایش حجم، با دقت و عمق بیشتری میاندیشند.
او اعلام کرده که در گام بعدی قصد دارد نسخههای بازگشتی مولد (Generative Recursive Models) را بررسی کند که بتوانند بهجای یک پاسخ قطعی، چندین راهحل ممکن تولید کنند.
همچنین یکی از مسیرهای پژوهشی آینده، بررسی قوانین مقیاسپذیری راهکار بازگشت یا فراخوانی است. تعیین اینکه تا چه حد میتوان از اصل «کمتر، بیشتر است» بهره برد در زمانی بهره برد که دادهها یا پیچیدگی مسئله بیشتر میشود.
محقق سامسونگ مقاله خود را اینگونه به پایان میرساند: پیشرفت واقعی در هوش مصنوعی الزاما در گرو ساخت مدلهای غولآسا و بزرگتر نیست. گاهی آموزش دادن یک شبکهی کوچک برای تفکر دقیق و بازگشتی، میتواند از وادار کردن یک مدل عظیم به تفکر سطحی مفیدتر باشد.