یافتههای یک مطالعه جدید: ابزارهای هوش مصنوعی محتوای دارای حق نشر را حفظ کردهاند
مطالعه جدیدی درمورد هوش مصنوعی اوپنایآی شواهدی را ارائه کرده است که ادعای شاکیان نقض…
۱۷ فروردین ۱۴۰۴
۱۷ فروردین ۱۴۰۴
زمان مطالعه : ۲ دقیقه
دیپسیک پیش از عرضه مدل جدید هوش مصنوعی خود، رویکرد نوآورانهای را برای بهبود توانایی استدلال مدلهای زبانی بزرگ (LLM) معرفی کرده است. این شرکت در همکاری با پژوهشگران دانشگاه تسینگهوا، تکنیکی ترکیبی از دو روش با نامهای «مدلسازی پاداش مولد» (Generative Reward Modelling یا GRM) و «تنظیم انتقادی مبتنی بر اصول درونی» (Self-Principled Critique Tuning) را برای بهبود توان استدلال توسعه داده است.
به گزارش پیوست، بر اساس مقالهای که روز جمعه در پایگاه علمی آنلاین arXiv منتشر شده است، این رویکرد دوگانه به مدلهای زبانی کمک میکند تا پاسخهای دقیقتر و سریعتری به پرسشهای عمومی ارائه دهند. محققان در این مقاله نوشتند که مدلهای DeepSeek-GRM عملکردی رقابتی نسبت به سایر روشهای موجود نشان داده و توانستهاند به سطح عملکردی مشابه با مدلهای قدرتمند فعلی با پاداش عمومی دست پیدا کنند. مدلسازی پاداش به فرآیندی اطلاق میشود که یک مدل زبانی را در جهت ترجیحات انسانی هدایت میکند.
پژوهشگران میگویند قصد دارند مدلهای GRM را بهصورت متنباز منتشر کنند، اما زمانی برای این اقدام مشخص نکردهاند.
انتشار این مقاله در حالی صورت گرفته است که پس از موفقیت جهانی مدلهای پایه V3 و مدل استدلالی R1 این شرکت، گمانهزنیها درباره گام بعدی دیپسیک افزایش یافته است. ماه گذشته، خبرگزاری رویترز گزارش داد که مدل نسل جدید مدلهای این شرکت یا همان مدل R2 که قرار است جانشین R1 شود، ممکن است همین ماه در اختیار کاربران قرار گیرد که میتواند جایگاه این استارتآپ را در بازار جهانی بیش از پیش تقویت کند. مدل R1 در زمان عرضه خود با عملکرد مقرونبهصرفهاش توجه زیادی را به خود جلب کرده بود و رقیبی جدی برای مدلهای پیشتاز جهان محسوب میشد.
با این حال، دیپسیک تاکنون بهصورت رسمی درباره زمان عرضه مدل R2 اظهار نظری نکرده و تاریخ مشخصی برای نسل جدید مدلهای این شرکت مشخص نشده است. علاوه بر این، برخی رسانههای چینی گزارش دادهاند که یکی از حسابهای خدمات مشتری این شرکت در یک گفتوگوی گروهی با مشتریان تجاری، خبر منتشرشده درباره زمانبندی عرضه R2 را تکذیب کرده است.