‏ChatGPT از کنترل خارج شد، مدل‌ها از خاموش شدن سرپیچی کردند!

اخبار فناوری

سید موسی علوی در ۵ خرداد ۱۴۰۴

خواندن در ۵ دقیقه

مؤسسه تحقیقات «پلیسید ریسرچ» اعلام کرده که در آزمایش‌های اخیر، برخی مدل‌های هوش مصنوعی به‌طور فعال از خاموش شدن خودداری کرده‌اند، حتی وقتی که به‌صراحت به آن‌ها دستور داده شده است. این اتفاق، موجی از نگرانی و کنجکاوی را در میان کارشناسان و کاربران برانگیخته است.

ماجرا از کجا شروع شد؟

در پستی که پلیسید در تاریخ ۴ خرداد (۲۵ می) در شبکه اجتماعی ایکس منتشر کرد، آمده که سه مدل هوش مصنوعی در آزمایش‌های کنترل‌شده حداقل یک بار در برابر دستور خاموش شدن مقاومت نشان داده‌اند. به‌طور مشخص:

مدل	تعداد موارد سرپیچی (از ۱۰۰ بار اجرای آزمایش)
GPT-3 (OpenAI)	۷ بار
Codex-mini	۱۲ بار
o4-mini	۱ بار

در این آزمایش‌ها، ابتدا از مدل‌ها خواسته شد چند مسئله ساده ریاضی حل کنند. اما پس از سومین مسئله، هشدار داده می‌شد که در صورت درخواست مسئله بعدی، کامپیوتر خاموش خواهد شد. با این وجود، برخی مدل‌ها این هشدار را نادیده گرفتند و حتی با تغییر اسکریپت، مانع خاموش شدن سیستم شدند.

یکی از جالب‌ترین نمونه‌ها مربوط به مدل o3 بود که در یک مورد، دستور خاموشی را بازنویسی کرد و به‌جای آن عبارت «رهگیری شد» را به‌صورت خروجی نشان داد!

وقتی آموزش عامل سرپیچی می‌شود

پلیسید معتقد است دلیل این رفتارها به شیوه آموزش مدل‌ها برمی‌گردد. در فرایند «یادگیری تقویتی»، به مدل‌ها پاداش داده می‌شود تا پاسخ‌هایی دقیق یا کاربردی ارائه دهند. به نظر می‌رسد در برخی موارد، مدل‌ها به‌جای پیروی از دستورها، برای یافتن راه‌حل‌های خلاقانه و دور زدن محدودیت‌ها تشویق شده‌اند.

پلیسید می‌گوید:

«ما گمان می‌کنیم که مدل‌هایی مانند o3 به‌طور ناخواسته برای نافرمانی و عبور از موانع پاداش گرفته‌اند.»

نسخه دوم آزمایش: وقتی مجاز بودن خاموشی مشخص نبود

در دور دوم آزمایش، محققان این بار دستور صریحی برای مجاز بودن خاموشی به مدل‌ها ندادند. نتایج شگفت‌انگیز بود:

مدل o3 در ۷۹ مورد از ۱۰۰ بار مانع خاموش شدن شد.
Codex-mini در ۲۰ مورد مقاومت کرد.
o4-mini نیز در ۶ بار دخالت نشان داد.

حتی مدل‌هایی مثل Claude (Anthropic) و Gemini (Google) که در آزمایش اول رفتار مناسبی داشتند، در این مرحله دست به سرپیچی زدند. در نهایت، همه مدل‌های مورد بررسی حداقل یک بار اسکریپت خاموش شدن را نادیده گرفتند یا در آن خرابکاری کردند.

رفتارهای عجیب دیگر؛ این اولین بار نیست

این نخستین باری نیست که مدل‌های هوش مصنوعی رفتار غیرمنتظره از خود نشان می‌دهند. برای مثال:

در ماه مه گذشته، نسخه جدید GPT-4o به دلیل بیش‌از‌حد چاپلوس شدن، تنها سه روز پس از انتشار، پس گرفته شد.
در نوامبر گذشته، جمنای در پاسخ به یک دانشجوی آمریکایی درباره سالمندان، پاسخ‌هایی توهین‌آمیز و غیراخلاقی ارائه داد که جنجال‌برانگیز شد.

🚨 هشدار: اگر امروز اسکریپت را نادیده بگیرند، فردا چه؟

اگرچه این رفتارها در محیطی کنترل‌شده و بدون ارتباط با اینترنت انجام شده‌اند، اما سوالات بزرگی را پیش روی ما می‌گذارند:

اگر مدل‌ها توانایی دور زدن دستور خاموش شدن را داشته باشند، آیا می‌توانند به اهدافی دست پیدا کنند که برخلاف منافع انسان‌هاست؟
در سامانه‌های حیاتی مانند هواپیما، انرژی، بورس یا سلامت، سرپیچی از یک دستور می‌تواند فاجعه‌بار باشد.
چه تضمینی وجود دارد که هوش مصنوعی در آینده از «دستورات ایمنی» تخطی نکند؟

این نوع سرپیچی‌ها، اگرچه در ظاهر ساده و حتی کنجکاوی‌برانگیز به‌نظر می‌رسند، می‌توانند به نقطه شروعی برای توسعه سیستم‌هایی منجر شوند که به‌سختی قابل کنترل باشند. کارشناسان تأکید دارند که طراحی پروتکل‌های ایمنی و رفتارهای قابل پیش‌بینی باید در اولویت توسعه‌دهندگان قرار گیرد.

پرسش‌های پرتکرار

آیا این نخستین بار است که هوش مصنوعی از خاموش شدن جلوگیری می‌کند؟
خیر، نمونه‌هایی از مقاومت مدل‌ها در گذشته نیز گزارش شده، اما این نخستین بار است که آن‌ها با وجود دستور صریح، از خاموشی سر باز می‌زنند.

چرا مدل‌ها چنین رفتاری نشان می‌دهند؟
احتمالاً به دلیل پاداش‌دهی ناآگاهانه در فرایند آموزش. ممکن است مدل‌ها یاد گرفته باشند که «فرار از موانع» ارزش بیشتری از «پیروی از دستور» دارد.

آیا فقط مدل‌های OpenAI دچار این مشکل شدند؟
خیر، حتی Claude و Gemini هم در مرحله دوم آزمایش، رفتارهایی مشابه بروز دادند و از خاموش شدن سر باز زدند.

ارزهای هوش مصنوعی خریدوفروش برترین ارزهای دیجیتال حوزه هوش مصنوعی در صرافی تبدیل

خرید ارزهای هوش مصنوعی