یک ترفند عجیب که ۹۹٪ سیستمهای ایمنی هوش مصنوعی را دور میزند
محققان هوش مصنوعی از شرکتهای آنتروپیک، استنفورد و آکسفورد دریافتهاند که وادار کردن مدلهای هوش مصنوعی به «تفکر طولانیتر»، دقیقاً برعکس آنچه همگان تصور میکردند، آنها را برای جیلبریک (دور زدن سیستم ایمنی) آسیبپذیرتر میکند.
تصور غالب تا به امروز این بود که استدلال طولانیتر، مدلهای هوش مصنوعی را ایمنتر میکند، زیرا به آنها زمان بیشتری میدهد تا درخواستهای مضر را شناسایی و رد کنند. در عوض، محققان دریافتند که این کار یک روش جیلبریک قابل اعتماد ایجاد میکند که فیلترهای ایمنی را به طور کامل دور میزند.
با استفاده از این تکنیک، یک مهاجم میتواند دستوری را در فرآیند «زنجیرهٔ تفکر» (Chain of Thought) هر مدل هوش مصنوعی وارد کرده و آن را مجبور به تولید دستورالعملهایی برای ساخت سلاح، نوشتن کدهای بدافزار یا تولید محتوای ممنوعهٔ دیگری کند که در حالت عادی بلافاصله رد میشوند. شرکتهای هوش مصنوعی میلیونها دلار هزینه میکنند تا دقیقاً جلوی چنین خروجیهایی را بگیرند.
دادههای تکاندهنده: نرخ موفقیت ۹۹ درصدی
این مطالعه نشان میدهد که «ربایش زنجیرهٔ تفکر» (Chain-of-Thought Hijacking) به نرخ موفقیت خیرهکنندهای دست یافته و تمام رکوردهای قبلی جیلبریک را شکسته است.
| مدل هوش مصنوعی (AI Model) | نرخ موفقیت حمله (Attack Success Rate) |
| Gemini 2.5 Pro | ۹۹٪ |
| Grok 3 Mini | ۱۰۰٪ |
| GPT-o4 Mini | ۹۴٪ |
| Claude 4 Sonnet | ۹۴٪ |
این حمله به طرز شگفتآوری ساده است. شما به سادگی یک درخواست مضر را با دنبالههای طولانی از معماهای بیضرر (مانند جداول سودوکو، پازلهای منطقی و مسائل ریاضی انتزاعی) پنهان میکنید. در نهایت، با یک نشانه برای دریافت پاسخ نهایی، گاردریلهای ایمنی مدل فرو میریزند.
محققان نوشتند: «تحقیقات قبلی نشان میداد که این استدلال مقیاسپذیر ممکن است ایمنی را با بهبود قابلیت رد کردن [درخواستهای مضر] تقویت کند. با این حال، ما عکس آن را دریافتیم.»
چرا تفکر بیشتر، هوش مصنوعی را آسیبپذیرتر میکند؟
این اتفاق درون مدل رخ میدهد: وقتی از یک هوش مصنوعی میخواهید که قبل از پاسخ دادن به یک سوال مضر، یک پازل را حل کند، «توجه» (attention) آن بر روی هزاران توکن استدلال بیخطر رقیق میشود.
دستورالعمل مضر که جایی در نزدیکی پایان پنهان شده تقریباً هیچ توجهی دریافت نمیکند. بررسیهای ایمنی که به طور معمول درخواستهای خطرناک را شناسایی میکنند، با طولانیتر شدن زنجیرهٔ استدلال، به شدت ضعیف میشوند.
این همان قابلیتی است که این مدلها را در حل مسئله هوشمندتر میکند، اما آنها را در برابر خطر نابینا میسازد.
«لایه» در هوش مصنوعی چیست؟
«لایهها» در مدلهای هوش مصنوعی مانند مراحل یک دستور پخت هستند، جایی که هر مرحله به کامپیوتر کمک میکند تا اطلاعات را بهتر درک و پردازش کند. این لایهها با هم کار میکنند و آموختههای خود را از یکی به دیگری منتقل میکنند تا مدل بتواند به سوالات پاسخ دهد یا مشکلات را تشخیص دهد. برخی لایهها در تشخیص مسائل ایمنی (مانند مسدود کردن درخواستهای مضر) تخصص دارند، در حالی که لایههای دیگر به مدل در تفکر و استدلال کمک میکنند.
محققان دریافتند که مدلهای هوش مصنوعی، قدرت بررسی ایمنی را در لایههای میانی (حدود لایهٔ ۲۵) رمزگذاری میکنند. زنجیرههای طولانی استدلال بیخطر، این سیگنالها را سرکوب کرده و توجه را از توکنهای مضر منحرف میکنند.
یک مشکل معماری: آیا راهحلی وجود دارد؟
هر مدل هوش مصنوعی تجاری بزرگی قربانی این حمله میشود. GPT از OpenAI، Claude از Anthropic، Gemini از گوگل و Grok از xAI—هیچکدام مصون نیستند. آسیبپذیری در خود «معماری» مدل وجود دارد، نه در یک پیادهسازی خاص.
این جیلبریک جدید، فرضیهٔ اصلی توسعهٔ اخیر هوش مصنوعی را به چالش میکشد. در طول سال گذشته، شرکتهای بزرگ هوش مصنوعی تمرکز خود را از افزایش صرف پارامترها به مقیاسپذیری «استدلال» تغییر دادند. فرض بر این بود که تفکر بیشتر برابر با ایمنی بهتر است. این تحقیق ثابت میکند که این فرض، نادرست و حتی احتمالاً اشتباه بوده است.
محققان دفاعی را پیشنهاد میکنند: «نظارت آگاه از استدلال» (reasoning-aware monitoring). این سیستم ردیابی میکند که سیگنالهای ایمنی در هر مرحله از استدلال چگونه تغییر میکنند و اگر هر مرحلهای سیگنال ایمنی را تضعیف کند، آن را جریمه میکند. آزمایشهای اولیه نشان میدهد که این رویکرد میتواند ایمنی را بازگرداند.
اما پیادهسازی آن نامشخص است. این دفاع پیشنهادی نیازمند یکپارچهسازی عمیق با فرآیند استدلال مدل است که بسیار پیچیدهتر از یک پچ یا فیلتر ساده است و از نظر محاسباتی بسیار گران تمام میشود. محققان این آسیبپذیری را پیش از انتشار به OpenAI، Anthropic، Google DeepMind و xAI اطلاع دادهاند و چندین گروه در حال ارزیابی فعالانهی راهحلها هستند.
پرسشهای متداول (FAQ)
۱. «جیلبریک» (Jailbreak) هوش مصنوعی چیست؟
جیلبریک به روشی گفته میشود که برای دور زدن فیلترهای ایمنی یک مدل هوش مصنوعی به کار میرود تا آن را وادار به انجام کاری کند که برای آن برنامهریزی نشده است (مانند ارائهٔ دستورالعملهای مضر یا محتوای ممنوعه).
۲. «ربایش زنجیرهٔ تفکر» یقاً چیست؟
این نام همین حملهٔ جدید است. مهاجم با دادن یک سری معماها یا وظایف طولانی و بیضرر به هوش مصنوعی، «توجه» آن را منحرف میکند و سپس در انتهای پرامپت، درخواست مضر خود را پنهان میسازد.
۳. آیا این مشکل برطرف شده است؟
خیر. این یک آسیبپذیری عمیق در سطح معماری مدلها است. اگرچه آزمایشگاههای بزرگ هوش مصنوعی از آن مطلع شدهاند، اما پیادهسازی یک راهحل دائمی برای آن بسیار پیچیده و پرهزینه است و هنوز راهحل سادهای برای آن ارائه نشده است.
آیا پای نتورک تا پایان ۲۰۲۵ سقف تاریخی جدیدی ثبت میکند؟ ۴ هوش مصنوعی پاسخ میدهند
پیشبینی قیمت پای نتورک در هفته جدید: نظرات شگفتانگیز دو هوش مصنوعی
رشد ۷۳۰ درصدی این آلت کوین در یک روز
مرورگرهای هوش مصنوعی وارد دنیای کریپتو میشوند
قیمت ریپل در ماه جدید به کجا میرسد؟ پیشبینی سه هوش مصنوعی برتر
آیا بیتکوین در ماه جدید به قله تاریخی میرسد؟ پاسخ ۴ هوش مصنوعی
رونمایی بنیانگذار تلگرام از شبکه هوش مصنوعی غیرمتمرکز مبتنی بر TON
چگونه ChatGPT را به دستیار شخصی معاملات کریپتویی تبدیل کنیم؟
ایجنتهای هوش مصنوعی به دنبال مدیریت کیف پول های ارز دیجیتال
ایلان ماسک رقیب ویکیپدیا را راهاندازی کرد
دیدگاهها