مروری بر مهمترین اخبار کنگره جهانی موبایل ۲۰۲۵ (MWC 2025)
بارسلونا بار دیگر یکی از مهمترین گردهماییهای فناوری در جهان، کنگره جهانی موبایل (Mobile World…
۱۵ اسفند ۱۴۰۳
۱۵ اسفند ۱۴۰۳
زمان مطالعه : ۳ دقیقه
نیویورک تایمز میگوید جایزه معتبر تورینگ، که بهعنوان نوبل دنیای محاسبات شناخته میشود، امسال به دو محقق برجسته، اندرو بارتو و ریچارد ساتون، به تقدیر از تحقیقات پیشگامانه آنها در یادگیری تقویتی (Reinforcement Learning) تعلق گرفت. این جایزه که توسط انجمن ماشینهای محاسباتی (ACM) اهدا میشود، به پاس تاثیرات گسترده یادگیری تقویتی در توسعه هوش مصنوعی مدرن، به این دو محقق تعلق گرفت.
به گزارش پیوست، بارتو و ساتون که در اواخر دهه ۱۹۷۰ در دانشگاه ماساچوست امهرست مشغول تحقیق بودند، نظریهای را مطرح کردند که بعدها به سنگ بنای یادگیری تقویتی تبدیل شد. آنها معتقد بودند که نورونهای مغزی همانند لذتگرایان عمل میکنند، به این معنا که در تلاش برای کسب پاداش (Pleasure) و اجتناب از تنبیه (Pain) هستند. این نظریه که ابتدا در علوم اعصاب و روانشناسی مورد بررسی قرار گرفته بود، با تلاش این دو محقق به حوزه هوش مصنوعی راه یافت و منجر به تحولی در یادگیری ماشین شد.
در سال ۱۹۹۸، این دو دانشمند کتاب «Reinforcement Learning: An Introduction» را منتشر کردند، کتابی که هنوز هم بهعنوان یکی از منابع اصلی این حوزه شناخته میشود.
در دهههای اخیر، یادگیری تقویتی به یکی از مهمترین روشهای توسعه فناوریهای پیشرفته هوش مصنوعی تبدیل شده است. یکی از بزرگترین دستاوردهای این روش، توسعه AlphaGo، ابزار هوش مصنوعی شرکت دیپمایند (زیرمجموعه گوگل)، بود که در سال ۲۰۱۶ توانست لی سدول، قهرمان جهانی بازی Go را شکست دهد.
بازی Go یکی از پیچیدهترین بازیهای استراتژیک جهان است و کارشناسان تصور میکردند که حداقل ده سال دیگر طول میکشد تا یک سیستم هوش مصنوعی بتواند بهترین بازیکنان انسانی را شکست دهد. اما AlphaGo با استفاده از یادگیری تقویتی و بازیهای بیشمار در مقابل خودش، توانست به سطحی ماورای انسان دست پیدا کند.
دیوید سیلور، پژوهشگر ارشد دیپمایند و یکی از مهمترین توسعهدهندگان AlphaGo، یکی از شاگردان ساتون در دانشگاه آلبرتا بود. موفقیت این پروژه نشان داد که یادگیری تقویتی میتواند بدون نیاز به دادههای انسانی، در محیطهای پیچیده نیز راهحلهای کارآمدی ارائه دهد.
اما یادگیری تقویتی تنها محدود به بازیها نیست. امروزه، این روش در توسعه چتباتهای پیشرفته نیز نقش اساسی ایفا میکند. مدلهای هوش مصنوعی مانند ChatGPT از ترفندی به نام «یادگیری تقویتی براساس بازخورد انسانی (RLHF)» استفاده میکنند. در این روش، انسانها با ارائه بازخورد به مدل، آن را در جهت تولید پاسخهای بهتر و طبیعیتر راهنمایی میکنند. این همان تکنیکی است که باعث تولید پاسخهای بسیار طبیعی در چتباتهای امروزی، از جمله در محصولات اوپنایآی، و شباهت بالای آنها به مکالمات انسانی شده است.
با پیشرفت سریع هوش مصنوعی، محققان در تلاشند تا یادگیری تقویتی را به دنیای فیزیکی بیاورند. یکی از مهمترین اهداف، استفاده از این روش برای آموزش روباتها است.
ریچارد ساتون، که اکنون محقق ارشد شرکت Keen Technologies و عضو موسسه هوش مصنوعی آلبرتا است، معتقد است یادگیری از طریق تجربه و تعامل با محیط، کلید توسعه روباتهای پیشرفته است. او میگوید: «ما در حال نزدیکتر شدن به ماشینی هستیم که مانند انسان، از طریق تجربه، مهارتهای جدید را یاد میگیرد.»
شرکتهایی مانند اوپنایآی و دیپسیک در حال توسعه مدلهایی هستند که بدون نیاز به بازخورد انسانی میتوانند از طریق آزمون و خطا به یادگیری بپردازند. این رویکرد، که مشابه روش آموزش AlphaGo است، در آینده میتواند شرایطی را فراهم کند، تا رباتهای هوشمند بهصورت مستقل مهارتهای جدید را یاد بگیرند و با محیط خود سازگار شوند.