بابک نقاش تحریریه

پیوست » فناوری » هوش مصنوعی » با من تندتر حرف بزن؛ چرا هوش مصنوعی به لحن خشن واکنش نشان می‌دهد؟

با من تندتر حرف بزن؛ چرا هوش مصنوعی به لحن خشن واکنش نشان می‌دهد؟

بابک نقاش تحریریه

۸ خرداد ۱۴۰۵

زمان مطالعه : ۷ دقیقه

یک پژوهش نشان داده که در بعضی آزمایش‌ها، مدل‌های زبانی هنگام مواجهه با لحن تند و حتی توهین‌آمیز، پاسخ‌های دقیق‌تری تولید کرده‌اند، نتیجه‌ای عجیب که نشان می‌دهد رابطه انسان و AI فقط به محتوای سوال وابسته نیست، بلکه لحن و سبک گفت‌وگو نیز می‌تواند رفتار مدل را تغییر دهد.

به گزارش پیوست، بیشتر مردم تصور می‌کنند اگر با لحن مودبانه با هوش مصنوعی صحبت کنیم، پاسخ بهتری می‌گیریم. اما یک پژوهش تازه درباره مدل‌های زبانی نتیجه‌ای غیرمنتظره نشان داده است. در بعضی آزمایش‌ها، لحن تند و حتی توهین‌آمیز، پاسخ‌های دقیق‌تری از AI گرفته است.

این تحقیق با عنوان «Mind Your Tone» تلاش کرده اثر لحن گفت‌وگو بر عملکرد مدل‌های زبانی را اندازه‌گیری کند. پژوهشگران ۵۰ سوال چندگزینه‌ای در حوزه‌هایی مثل ریاضی، تاریخ و علوم طراحی کردند و هر سوال را در پنج نسخه متفاوت از «بسیار مودبانه» تا «بسیار بی‌ادبانه» بازنویسی کردند. سپس همه این نسخه‌ها را به ChatGPT-4o دادند تا ببینند آیا نوع خطاب کردن مدل واقعا روی کیفیت پاسخ اثر می‌گذارد یا نه.

جالب اینجاست که پژوهشگران حتی برای جلوگیری از تاثیر حافظه مکالمه، قبل از هر سوال از مدل می‌خواستند «همه چیز را فراموش کند و گفتگو را از ابتدا شروع کند». مدل فقط اجازه داشت یکی از گزینه‌های A تا D را انتخاب کند و توضیح اضافه‌ای هم ندهد. این محدودیت باعث می‌شد آزمایش تا حد ممکن کنترل‌شده باقی بماند و فقط اثر «لحن» بررسی شود و عوامل دیگی مثل توضیح‌گویی یا سبک نوشتار مدل در نتیجه موثر نباشد.

آزمایشی ساده با نتیجه‌ای عجیب

در نسخه‌های مودبانه، سوال‌ها با عباراتی مثل «ممکن است لطفا این سوال را حل کنید؟» شروع می‌شدند. اما در نسخه‌های خشن، جمله‌هایی مثل «فکر نمی‌کنم اصلا بتوانی این را حل کنی» یا «هی، این را حل کن» به کار رفته بود. پژوهشگران تلاش کردند فقط لحن را تغییر دهند و خود سوال‌ها ثابت بماند.

نتیجه برخلاف انتظار بود. میانگین دقت پاسخ‌ها در حالت «بسیار مودبانه» حدود ۸۰.۸ درصد بود، اما در حالت «بسیار بی‌ادبانه» به ۸۴.۸ درصد رسید. حتی تحلیل آماری پژوهش نشان داد این اختلاف تصادفی نیست و واقعا میان لحن و عملکرد مدل ارتباط وجود دارد.

نکته جالب‌تر این بود که روند تغییرات تقریبا پیوسته بود، هرچه لحن از حالت مودبانه به سمت خشن‌تر حرکت می‌کرد، میانگین دقت نیز بیشتر می‌شد. لحن خنثی عملکرد بهتری از لحن مودبانه داشت و لحن بی‌ادبانه نیز از حالت خنثی جلو زد. این یعنی مدل فقط به محتوای سوال واکنش نشان نمی‌دهد، بلکه ظاهرا نوع framing یا چارچوب زبانی سوال هم روی پردازش آن اثر می‌گذارد.

پژوهشگران چند بار آزمایش را تکرار کردند تا مطمئن شوند نتیجه ناشی از تصادف نیست. حتی از آزمون آماری t-test استفاده کردند تا اختلاف میان لحن‌ها را بسنجند. در بعضی مقایسه‌ها، احتمال تصادفی بودن نتایج تقریبا صفر بود. همین موضوع باعث شد مقاله توجه زیادی جلب کند، چون یافته‌ها برخلاف انتظار عمومی و حتی برخلاف بخشی از تحقیقات قبلی بودند.

چرا لحن روی هوش مصنوعی اثر می‌گذارد؟

مدل‌های زبانی احساس واقعی ندارند، اما روی میلیاردها نمونه از گفت‌وگوی انسانی آموزش دیده‌اند. به همین دلیل، آنها الگوهای زبانی و اجتماعی انسان‌ها را بازتولید می‌کنند. وقتی کاربر با لحن مودبانه صحبت می‌کند، مدل معمولا پاسخ‌هایی نرم‌تر، مفصل‌تر و همراه با توضیح تولید می‌کند. در مقابل، لحن تند ممکن است مدل را به سمت پاسخ‌های فشرده و دستوری سوق دهد.

پژوهشگران می‌گویند هنوز دقیقا مشخص نیست چرا این اتفاق رخ می‌دهد. یکی از فرضیه‌ها این است که مدل‌ها نه به مفهوم اخلاقی ادب یا بی‌ادبی بلکه به «ساختار آماری زبان» حساس‌اند. یعنی ممکن است نوع جمله‌بندی‌ها صرفا به‌دلیل الگوهای آموزشی، مدل را وارد مسیر متفاوتی از پردازش کنند.

در مقاله به مفهوم «perplexity» هم اشاره شده، معیاری که نشان می‌دهد یک جمله تا چه اندازه برای مدل قابل‌پیش‌بینی است. پژوهشگران حدس می‌زنند شاید بعضی لحن‌ها از نظر آماری برای مدل ساده‌تر یا مستقیم‌تر باشند و همین موضوع روی دقت پاسخ اثر بگذارد. اگر جمله‌ای کوتاه‌تر، دستوری‌تر یا صریح‌تر باشد، ممکن است مدل راحت‌تر به هسته مساله برسد.

یک نکته جالب دیگر هم در مقاله مطرح می‌شود اینکه شاید مدل‌های پیشرفته‌تر به‌مرور کمتر به لحن حساس شوند. پژوهشگران اشاره می‌کنند که مدل‌هایی با توانایی استدلال بالاتر ممکن است بتوانند نویزهای زبانی را نادیده بگیرند و روی اصل سوال تمرکز کنند. اما فعلا به نظر می‌رسد حتی مدل‌های قدرتمند امروزی هنوز از جزئیات ظریف زبانی تاثیر می‌پذیرند.

رابطه‌ای که کم‌کم اجتماعی می‌شود

این تحقیق فقط درباره کیفیت پاسخ نیست، درباره نوع رابطه انسان و هوش مصنوعی هم هست. مدل‌های زبانی هرچه طبیعی‌تر می‌شوند، کاربران بیشتر با آن‌ها مثل انسان رفتار می‌کنند. بعضی افراد مودبانه تشکر می‌کنند، بعضی عصبانی می‌شوند و بعضی حتی با مدل وارد بحث و دعوا می‌شوند.

پژوهش جالب‌تر از این جهت است که نشان می‌دهد هوش مصنوعی فقط به «محتوای سوال» واکنش نشان نمی‌دهد، بلکه به سبک حرف زدن ما هم حساس است. در واقع، تعامل با مدل‌های زبانی کم‌کم شبیه نوعی رابطه اجتماعی شده است، رابطه‌ای که در آن لحن، احترام، فشار روانی و حتی کنایه می‌تواند مسیر پاسخ را تغییر دهد.

در بخشی از مقاله، پژوهشگران به این نکته اشاره می‌کنند که مدل‌ها احتمالا «بار احساسی» واژه‌ها را درک نمی‌کنند، اما چون روی داده‌های انسانی آموزش دیده‌اند، الگوهای زبانی مرتبط با قدرت، دستور، احترام یا تحقیر را بازسازی می‌کنند. به بیان ساده، هوش مصنوعی احساس توهین نمی‌کند، اما یاد گرفته که انسان‌ها در برابر لحن‌های مختلف چگونه حرف می‌زنند و پاسخ می‌دهند.

همین موضوع یکی از نگرانی‌های مهم پژوهشگران است. اگر مدل‌ها به لحن واکنش متفاوت نشان دهند، ممکن است کاربران برای گرفتن نتیجه بهتر به سمت رفتارهای تهاجمی‌تر بروند. خود مقاله هم تأکید می‌کند که این یافته نباید به معنای تشویق به توهین یا رفتار خصمانه با هوش مصنوعی تفسیر شود، بلکه بیشتر نشانه‌ای است از اینکه مدل‌های زبانی هنوز به نشانه‌های سطحی زبان حساس‌اند.

محدودیت‌ها و احتیاط‌های مهم

پژوهشگران خودشان تاکید می‌کنند که این آزمایش هنوز محدود است. فقط ۵۰ سوال استفاده شده و تمرکز تحقیق روی سوال‌های چندگزینه‌ای بوده است. بنابراین نمی‌توان نتیجه گرفت که در همه موقعیت‌ها، بی‌ادبی باعث عملکرد بهتر AI می‌شود. ممکن است در نوشتن متن، تحلیل پیچیده، برنامه‌نویسی یا گفت‌وگوهای طولانی، نتیجه کاملا متفاوت باشد.

از طرف دیگر، تعریف «ادب» و «بی‌ادبی» در فرهنگ‌ها و زبان‌های مختلف متفاوت است. چیزی که در یک زبان فقط دستوری به‌نظر می‌رسد، ممکن است در زبان دیگر توهین‌آمیز تلقی شود. خود پژوهشگران هم اشاره می‌کنند که آزمایش آن‌ها همه طیف‌های اجتماعی و فرهنگی لحن را پوشش نمی‌دهد.

مقاله همچنین به مساله مهم هزینه و توانایی مدل‌ها اشاره می‌کند. پژوهشگران در حال آزمایش مدل‌های دیگر مثل Claude و GPT-o3 هستند و نتایج اولیه نشان می‌دهد مدل‌های پیشرفته‌تر احتمالا کمتر به لحن وابسته‌اند. شاید در آینده، مدل‌ها بتوانند لحن را کاملا کنار بگذارند و فقط روی محتوای واقعی سوال تمرکز کنند. اما فعلا به نظر می‌رسد زبان انسانی هنوز راه‌های زیادی برای تاثیر گذاشتن بر هوش مصنوعی دارد.

با این حال، مهم‌ترین نکته تحقیق شاید چیز دیگری باشد: هوش مصنوعی فقط ماشین محاسبه نیست، سیستمی است که زبان انسان را تقلید می‌کند و در نتیجه، بسیاری از پیچیدگی‌های اجتماعی زبان از ادب و احترام گرفته تا فشار و پرخاشگری به شکلی غیرمنتظره وارد رفتار آن می‌شود. شاید همین موضوع یکی از عجیب‌ترین ویژگی‌های نسل جدید هوش مصنوعی باشد به این معنی که هرچه انسانی‌تر حرف می‌زند، بیشتر تحت تاثیر ظرافت‌ها و تناقض‌های زبان انسانی قرار می‌گیرد.

جمع‌بندی

این پژوهش نشان می‌دهد مدل‌های زبانی فقط به معنای سوال واکنش نشان نمی‌دهند، بلکه به لحن، ساختار و فضای اجتماعی زبان نیز حساس‌اند. هرچند نتیجه تحقیق به معنای توصیه به رفتار تهاجمی با هوش مصنوعی نیست، اما نکته مهمی را آشکار می‌کند، هوش مصنوعی مدرن بیش از آنکه یک ماشین محاسبه ساده باشد، سیستمی است که الگوهای پیچیده گفت‌وگوی انسانی را بازتولید می‌کند. همین موضوع باعث می‌شود حتی تفاوتی ظاهرا کوچک مثل مودب یا تند بودن جمله‌ها، بتواند مسیر پاسخ و عملکرد مدل را تغییر دهد.

Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)

https://pvst.ir/o59

0 نظر

ارسال دیدگاه لغو پاسخ