skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

اندرو بارتو و ریچارد ساتون به پاس تاثیرشان بر توسعه هوش مصنوعی مدرن، برنده جایزه تورینگ ۲۰۲۵ شدند

۱۵ اسفند ۱۴۰۳

زمان مطالعه : ۳ دقیقه

نیویورک تایمز می‌گوید جایزه معتبر تورینگ، که به‌عنوان نوبل دنیای محاسبات شناخته می‌شود، امسال به دو محقق برجسته، اندرو بارتو و ریچارد ساتون، به تقدیر از تحقیقات پیشگامانه آن‌ها در یادگیری تقویتی (Reinforcement Learning) تعلق گرفت. این جایزه که توسط انجمن ماشین‌های محاسباتی (ACM) اهدا می‌شود، به پاس تاثیرات گسترده یادگیری تقویتی در توسعه هوش مصنوعی مدرن، به این دو محقق تعلق گرفت.

به گزارش پیوست، بارتو و ساتون که در اواخر دهه ۱۹۷۰ در دانشگاه ماساچوست امهرست مشغول تحقیق بودند، نظریه‌ای را مطرح کردند که بعدها به سنگ بنای یادگیری تقویتی تبدیل شد. آن‌ها معتقد بودند که نورون‌های مغزی همانند لذت‌گرایان عمل می‌کنند، به این معنا که در تلاش برای کسب پاداش (Pleasure) و اجتناب از تنبیه (Pain) هستند. این نظریه که ابتدا در علوم اعصاب و روان‌شناسی مورد بررسی قرار گرفته بود، با تلاش این دو محقق به حوزه هوش مصنوعی راه یافت و منجر به تحولی در یادگیری ماشین شد.

در سال ۱۹۹۸، این دو دانشمند کتاب «Reinforcement Learning: An Introduction» را منتشر کردند، کتابی که هنوز هم به‌عنوان یکی از منابع اصلی این حوزه شناخته می‌شود.

در دهه‌های اخیر، یادگیری تقویتی به‌ یکی از مهمترین روش‌های توسعه فناوری‌های پیشرفته هوش مصنوعی تبدیل شده است. یکی از بزرگ‌ترین دستاوردهای این روش، توسعه AlphaGo، ابزار هوش مصنوعی شرکت دیپ‌مایند (زیرمجموعه گوگل)، بود که در سال ۲۰۱۶ توانست لی سدول، قهرمان جهانی بازی Go را شکست دهد.

بازی Go یکی از پیچیده‌ترین بازی‌های استراتژیک جهان است و کارشناسان تصور می‌کردند که حداقل ده سال دیگر طول می‌کشد تا یک سیستم هوش مصنوعی بتواند بهترین بازیکنان انسانی را شکست دهد. اما AlphaGo با استفاده از یادگیری تقویتی و بازی‌های بی‌شمار در مقابل خودش، توانست به سطحی ماورای انسان دست پیدا کند.

دیوید سیلور، پژوهشگر ارشد دیپ‌مایند و یکی از مهمترین توسعه‌دهندگان AlphaGo، یکی از شاگردان ساتون در دانشگاه آلبرتا بود. موفقیت این پروژه نشان داد که یادگیری تقویتی می‌تواند بدون نیاز به داده‌های انسانی، در محیط‌های پیچیده نیز راه‌حل‌های کارآمدی ارائه دهد.

اما یادگیری تقویتی تنها محدود به بازی‌ها نیست. امروزه، این روش در توسعه چت‌بات‌های پیشرفته نیز نقش اساسی ایفا می‌کند. مدل‌های هوش مصنوعی مانند ChatGPT از ترفندی به نام «یادگیری تقویتی براساس بازخورد انسانی (RLHF)» استفاده می‌کنند. در این روش، انسان‌ها با ارائه بازخورد به مدل، آن را در جهت تولید پاسخ‌های بهتر و طبیعی‌تر راهنمایی می‌کنند. این همان تکنیکی است که باعث تولید پاسخ‌های بسیار طبیعی در چت‌بات‌های امروزی، از جمله در محصولات اوپن‌ای‌آی، و شباهت بالای آنها به مکالمات انسانی شده است.

آینده یادگیری تقویتی و نقش آن در توسعه روبات‌ها

با پیشرفت سریع هوش مصنوعی، محققان در تلاشند تا یادگیری تقویتی را به دنیای فیزیکی بیاورند. یکی از مهم‌ترین اهداف، استفاده از این روش برای آموزش روبات‌ها است.

ریچارد ساتون، که اکنون محقق ارشد شرکت Keen Technologies و عضو موسسه هوش مصنوعی آلبرتا است، معتقد است یادگیری از طریق تجربه و تعامل با محیط، کلید توسعه روبات‌های پیشرفته است. او می‌گوید: «ما در حال نزدیک‌تر شدن به ماشینی هستیم که مانند انسان، از طریق تجربه، مهارت‌های جدید را یاد می‌گیرد.»

شرکت‌هایی مانند اوپن‌ای‌آی و دیپ‌سیک در حال توسعه مدل‌هایی هستند که بدون نیاز به بازخورد انسانی می‌توانند از طریق آزمون و خطا به یادگیری بپردازند. این رویکرد، که مشابه روش آموزش AlphaGo است، در آینده می‌تواند شرایطی را فراهم کند، تا ربات‌های هوشمند به‌صورت مستقل مهارت‌های جدید را یاد بگیرند و با محیط خود سازگار شوند.

 

https://pvst.ir/khj

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو