جنگ گوگل و آمازون بر سر منابع کشورهای در حال توسعه
هوش مصنوعی قرار است آینده اقتصاد دیجیتال را بسازد، اما در بسیاری از کشورهای در…
۷ خرداد ۱۴۰۵
۸ خرداد ۱۴۰۵
زمان مطالعه : ۷ دقیقه

یک پژوهش نشان داده که در بعضی آزمایشها، مدلهای زبانی هنگام مواجهه با لحن تند و حتی توهینآمیز، پاسخهای دقیقتری تولید کردهاند، نتیجهای عجیب که نشان میدهد رابطه انسان و AI فقط به محتوای سوال وابسته نیست، بلکه لحن و سبک گفتوگو نیز میتواند رفتار مدل را تغییر دهد.
به گزارش پیوست، بیشتر مردم تصور میکنند اگر با لحن مودبانه با هوش مصنوعی صحبت کنیم، پاسخ بهتری میگیریم. اما یک پژوهش تازه درباره مدلهای زبانی نتیجهای غیرمنتظره نشان داده است. در بعضی آزمایشها، لحن تند و حتی توهینآمیز، پاسخهای دقیقتری از AI گرفته است.
این تحقیق با عنوان «Mind Your Tone» تلاش کرده اثر لحن گفتوگو بر عملکرد مدلهای زبانی را اندازهگیری کند. پژوهشگران ۵۰ سوال چندگزینهای در حوزههایی مثل ریاضی، تاریخ و علوم طراحی کردند و هر سوال را در پنج نسخه متفاوت از «بسیار مودبانه» تا «بسیار بیادبانه» بازنویسی کردند. سپس همه این نسخهها را به ChatGPT-4o دادند تا ببینند آیا نوع خطاب کردن مدل واقعا روی کیفیت پاسخ اثر میگذارد یا نه.
جالب اینجاست که پژوهشگران حتی برای جلوگیری از تاثیر حافظه مکالمه، قبل از هر سوال از مدل میخواستند «همه چیز را فراموش کند و گفتگو را از ابتدا شروع کند». مدل فقط اجازه داشت یکی از گزینههای A تا D را انتخاب کند و توضیح اضافهای هم ندهد. این محدودیت باعث میشد آزمایش تا حد ممکن کنترلشده باقی بماند و فقط اثر «لحن» بررسی شود و عوامل دیگی مثل توضیحگویی یا سبک نوشتار مدل در نتیجه موثر نباشد.
در نسخههای مودبانه، سوالها با عباراتی مثل «ممکن است لطفا این سوال را حل کنید؟» شروع میشدند. اما در نسخههای خشن، جملههایی مثل «فکر نمیکنم اصلا بتوانی این را حل کنی» یا «هی، این را حل کن» به کار رفته بود. پژوهشگران تلاش کردند فقط لحن را تغییر دهند و خود سوالها ثابت بماند.
نتیجه برخلاف انتظار بود. میانگین دقت پاسخها در حالت «بسیار مودبانه» حدود ۸۰.۸ درصد بود، اما در حالت «بسیار بیادبانه» به ۸۴.۸ درصد رسید. حتی تحلیل آماری پژوهش نشان داد این اختلاف تصادفی نیست و واقعا میان لحن و عملکرد مدل ارتباط وجود دارد.
نکته جالبتر این بود که روند تغییرات تقریبا پیوسته بود، هرچه لحن از حالت مودبانه به سمت خشنتر حرکت میکرد، میانگین دقت نیز بیشتر میشد. لحن خنثی عملکرد بهتری از لحن مودبانه داشت و لحن بیادبانه نیز از حالت خنثی جلو زد. این یعنی مدل فقط به محتوای سوال واکنش نشان نمیدهد، بلکه ظاهرا نوع framing یا چارچوب زبانی سوال هم روی پردازش آن اثر میگذارد.
پژوهشگران چند بار آزمایش را تکرار کردند تا مطمئن شوند نتیجه ناشی از تصادف نیست. حتی از آزمون آماری t-test استفاده کردند تا اختلاف میان لحنها را بسنجند. در بعضی مقایسهها، احتمال تصادفی بودن نتایج تقریبا صفر بود. همین موضوع باعث شد مقاله توجه زیادی جلب کند، چون یافتهها برخلاف انتظار عمومی و حتی برخلاف بخشی از تحقیقات قبلی بودند.
مدلهای زبانی احساس واقعی ندارند، اما روی میلیاردها نمونه از گفتوگوی انسانی آموزش دیدهاند. به همین دلیل، آنها الگوهای زبانی و اجتماعی انسانها را بازتولید میکنند. وقتی کاربر با لحن مودبانه صحبت میکند، مدل معمولا پاسخهایی نرمتر، مفصلتر و همراه با توضیح تولید میکند. در مقابل، لحن تند ممکن است مدل را به سمت پاسخهای فشرده و دستوری سوق دهد.
پژوهشگران میگویند هنوز دقیقا مشخص نیست چرا این اتفاق رخ میدهد. یکی از فرضیهها این است که مدلها نه به مفهوم اخلاقی ادب یا بیادبی بلکه به «ساختار آماری زبان» حساساند. یعنی ممکن است نوع جملهبندیها صرفا بهدلیل الگوهای آموزشی، مدل را وارد مسیر متفاوتی از پردازش کنند.
در مقاله به مفهوم «perplexity» هم اشاره شده، معیاری که نشان میدهد یک جمله تا چه اندازه برای مدل قابلپیشبینی است. پژوهشگران حدس میزنند شاید بعضی لحنها از نظر آماری برای مدل سادهتر یا مستقیمتر باشند و همین موضوع روی دقت پاسخ اثر بگذارد. اگر جملهای کوتاهتر، دستوریتر یا صریحتر باشد، ممکن است مدل راحتتر به هسته مساله برسد.
یک نکته جالب دیگر هم در مقاله مطرح میشود اینکه شاید مدلهای پیشرفتهتر بهمرور کمتر به لحن حساس شوند. پژوهشگران اشاره میکنند که مدلهایی با توانایی استدلال بالاتر ممکن است بتوانند نویزهای زبانی را نادیده بگیرند و روی اصل سوال تمرکز کنند. اما فعلا به نظر میرسد حتی مدلهای قدرتمند امروزی هنوز از جزئیات ظریف زبانی تاثیر میپذیرند.
این تحقیق فقط درباره کیفیت پاسخ نیست، درباره نوع رابطه انسان و هوش مصنوعی هم هست. مدلهای زبانی هرچه طبیعیتر میشوند، کاربران بیشتر با آنها مثل انسان رفتار میکنند. بعضی افراد مودبانه تشکر میکنند، بعضی عصبانی میشوند و بعضی حتی با مدل وارد بحث و دعوا میشوند.
پژوهش جالبتر از این جهت است که نشان میدهد هوش مصنوعی فقط به «محتوای سوال» واکنش نشان نمیدهد، بلکه به سبک حرف زدن ما هم حساس است. در واقع، تعامل با مدلهای زبانی کمکم شبیه نوعی رابطه اجتماعی شده است، رابطهای که در آن لحن، احترام، فشار روانی و حتی کنایه میتواند مسیر پاسخ را تغییر دهد.
در بخشی از مقاله، پژوهشگران به این نکته اشاره میکنند که مدلها احتمالا «بار احساسی» واژهها را درک نمیکنند، اما چون روی دادههای انسانی آموزش دیدهاند، الگوهای زبانی مرتبط با قدرت، دستور، احترام یا تحقیر را بازسازی میکنند. به بیان ساده، هوش مصنوعی احساس توهین نمیکند، اما یاد گرفته که انسانها در برابر لحنهای مختلف چگونه حرف میزنند و پاسخ میدهند.
همین موضوع یکی از نگرانیهای مهم پژوهشگران است. اگر مدلها به لحن واکنش متفاوت نشان دهند، ممکن است کاربران برای گرفتن نتیجه بهتر به سمت رفتارهای تهاجمیتر بروند. خود مقاله هم تأکید میکند که این یافته نباید به معنای تشویق به توهین یا رفتار خصمانه با هوش مصنوعی تفسیر شود، بلکه بیشتر نشانهای است از اینکه مدلهای زبانی هنوز به نشانههای سطحی زبان حساساند.
پژوهشگران خودشان تاکید میکنند که این آزمایش هنوز محدود است. فقط ۵۰ سوال استفاده شده و تمرکز تحقیق روی سوالهای چندگزینهای بوده است. بنابراین نمیتوان نتیجه گرفت که در همه موقعیتها، بیادبی باعث عملکرد بهتر AI میشود. ممکن است در نوشتن متن، تحلیل پیچیده، برنامهنویسی یا گفتوگوهای طولانی، نتیجه کاملا متفاوت باشد.
از طرف دیگر، تعریف «ادب» و «بیادبی» در فرهنگها و زبانهای مختلف متفاوت است. چیزی که در یک زبان فقط دستوری بهنظر میرسد، ممکن است در زبان دیگر توهینآمیز تلقی شود. خود پژوهشگران هم اشاره میکنند که آزمایش آنها همه طیفهای اجتماعی و فرهنگی لحن را پوشش نمیدهد.
مقاله همچنین به مساله مهم هزینه و توانایی مدلها اشاره میکند. پژوهشگران در حال آزمایش مدلهای دیگر مثل Claude و GPT-o3 هستند و نتایج اولیه نشان میدهد مدلهای پیشرفتهتر احتمالا کمتر به لحن وابستهاند. شاید در آینده، مدلها بتوانند لحن را کاملا کنار بگذارند و فقط روی محتوای واقعی سوال تمرکز کنند. اما فعلا به نظر میرسد زبان انسانی هنوز راههای زیادی برای تاثیر گذاشتن بر هوش مصنوعی دارد.
با این حال، مهمترین نکته تحقیق شاید چیز دیگری باشد: هوش مصنوعی فقط ماشین محاسبه نیست، سیستمی است که زبان انسان را تقلید میکند و در نتیجه، بسیاری از پیچیدگیهای اجتماعی زبان از ادب و احترام گرفته تا فشار و پرخاشگری به شکلی غیرمنتظره وارد رفتار آن میشود. شاید همین موضوع یکی از عجیبترین ویژگیهای نسل جدید هوش مصنوعی باشد به این معنی که هرچه انسانیتر حرف میزند، بیشتر تحت تاثیر ظرافتها و تناقضهای زبان انسانی قرار میگیرد.
این پژوهش نشان میدهد مدلهای زبانی فقط به معنای سوال واکنش نشان نمیدهند، بلکه به لحن، ساختار و فضای اجتماعی زبان نیز حساساند. هرچند نتیجه تحقیق به معنای توصیه به رفتار تهاجمی با هوش مصنوعی نیست، اما نکته مهمی را آشکار میکند، هوش مصنوعی مدرن بیش از آنکه یک ماشین محاسبه ساده باشد، سیستمی است که الگوهای پیچیده گفتوگوی انسانی را بازتولید میکند. همین موضوع باعث میشود حتی تفاوتی ظاهرا کوچک مثل مودب یا تند بودن جملهها، بتواند مسیر پاسخ و عملکرد مدل را تغییر دهد.
Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)