مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » دیپ‌سیک از رویکرد جدیدی برای بهبود توانایی مدل‌های استدلال‌گر رونمایی کرد

دیپ‌سیک از رویکرد جدیدی برای بهبود توانایی مدل‌های استدلال‌گر رونمایی کرد

مهدی جعفری مترجم

۱۷ فروردین ۱۴۰۴

زمان مطالعه : ۲ دقیقه

دیپ‌سیک پیش از عرضه مدل جدید هوش مصنوعی خود، رویکرد نوآورانه‌ای را برای بهبود توانایی استدلال مدل‌های زبانی بزرگ (LLM) معرفی کرده است. این شرکت در همکاری با پژوهشگران دانشگاه تسینگ‌هوا، تکنیکی ترکیبی از دو روش با نام‌های «مدل‌سازی پاداش مولد» (Generative Reward Modelling یا GRM) و «تنظیم انتقادی مبتنی بر اصول درونی» (Self-Principled Critique Tuning) را برای بهبود توان استدلال توسعه داده است.

به گزارش پیوست، بر اساس مقاله‌ای که روز جمعه در پایگاه علمی آنلاین arXiv منتشر شده است، این رویکرد دوگانه به مدل‌های زبانی کمک می‌کند تا پاسخ‌های دقیق‌تر و سریع‌تری به پرسش‌های عمومی ارائه دهند. محققان در این مقاله نوشتند که مدل‌های DeepSeek-GRM عملکردی رقابتی نسبت به سایر روش‌های موجود نشان داده و توانسته‌اند به سطح عملکردی مشابه با مدل‌های قدرتمند فعلی با پاداش عمومی دست پیدا کنند. مدل‌سازی پاداش به فرآیندی اطلاق می‌شود که یک مدل زبانی را در جهت ترجیحات انسانی هدایت می‌کند.

پژوهشگران می‌گویند قصد دارند مدل‌های GRM را به‌صورت متن‌باز منتشر کنند، اما زمانی برای این اقدام مشخص نکرده‌اند.

انتشار این مقاله در حالی صورت گرفته است که پس از موفقیت جهانی مدل‌های پایه V3 و مدل استدلالی R1 این شرکت، گمانه‌زنی‌ها درباره گام بعدی دیپ‌سیک افزایش یافته است. ماه گذشته، خبرگزاری رویترز گزارش داد که مدل نسل جدید مدل‌های این شرکت یا همان مدل R2 که قرار است جانشین R1 شود، ممکن است همین ماه در اختیار کاربران قرار گیرد که می‌تواند جایگاه این استارت‌آپ را در بازار جهانی بیش از پیش تقویت کند. مدل R1 در زمان عرضه خود با عملکرد مقرون‌به‌صرفه‌اش توجه زیادی را به خود جلب کرده بود و رقیبی جدی برای مدل‌های پیشتاز جهان محسوب می‌شد.

با این حال، دیپ‌سیک تاکنون به‌صورت رسمی درباره زمان عرضه مدل R2 اظهار نظری نکرده و تاریخ مشخصی برای نسل جدید مدل‌های این شرکت مشخص نشده است. علاوه بر این، برخی رسانه‌های چینی گزارش داده‌اند که یکی از حساب‌های خدمات مشتری این شرکت در یک گفت‌وگوی گروهی با مشتریان تجاری، خبر منتشرشده درباره زمان‌بندی عرضه R2 را تکذیب کرده است.

این مطالب را هم بخوانید: