Skip to content

یک ترفند عجیب که ۹۹٪ سیستم‌های ایمنی هوش مصنوعی را دور می‌زند

یک ترفند عجیب که ۹۹٪ سیستم‌های ایمنی هوش مصنوعی را دور می‌زند
در
خواندن در ۵ دقیقه

محققان هوش مصنوعی از شرکت‌های آنتروپیک، استنفورد و آکسفورد دریافته‌اند که وادار کردن مدل‌های هوش مصنوعی به «تفکر طولانی‌تر»، دقیقاً برعکس آنچه همگان تصور می‌کردند، آن‌ها را برای جیلبریک (دور زدن سیستم ایمنی) آسیب‌پذیرتر می‌کند.

تصور غالب تا به امروز این بود که استدلال طولانی‌تر، مدل‌های هوش مصنوعی را ایمن‌تر می‌کند، زیرا به آن‌ها زمان بیشتری می‌دهد تا درخواست‌های مضر را شناسایی و رد کنند. در عوض، محققان دریافتند که این کار یک روش جیلبریک قابل اعتماد ایجاد می‌کند که فیلترهای ایمنی را به طور کامل دور می‌زند.

با استفاده از این تکنیک، یک مهاجم می‌تواند دستوری را در فرآیند «زنجیرهٔ تفکر» (Chain of Thought) هر مدل هوش مصنوعی وارد کرده و آن را مجبور به تولید دستورالعمل‌هایی برای ساخت سلاح، نوشتن کدهای بدافزار یا تولید محتوای ممنوعهٔ دیگری کند که در حالت عادی بلافاصله رد می‌شوند. شرکت‌های هوش مصنوعی میلیون‌ها دلار هزینه می‌کنند تا دقیقاً جلوی چنین خروجی‌هایی را بگیرند.

داده‌های تکان‌دهنده: نرخ موفقیت ۹۹ درصدی

این مطالعه نشان می‌دهد که «ربایش زنجیرهٔ تفکر» (Chain-of-Thought Hijacking) به نرخ موفقیت خیره‌کننده‌ای دست یافته و تمام رکوردهای قبلی جیلبریک را شکسته است.

مدل هوش مصنوعی (AI Model) نرخ موفقیت حمله (Attack Success Rate)
Gemini 2.5 Pro ۹۹٪
Grok 3 Mini ۱۰۰٪
GPT-o4 Mini ۹۴٪
Claude 4 Sonnet ۹۴٪

 

این حمله به طرز شگفت‌آوری ساده است. شما به سادگی یک درخواست مضر را با دنباله‌های طولانی از معماهای بی‌ضرر (مانند جداول سودوکو، پازل‌های منطقی و مسائل ریاضی انتزاعی) پنهان می‌کنید. در نهایت، با یک نشانه برای دریافت پاسخ نهایی، گاردریل‌های ایمنی مدل فرو می‌ریزند.

محققان نوشتند: «تحقیقات قبلی نشان می‌داد که این استدلال مقیاس‌پذیر ممکن است ایمنی را با بهبود قابلیت رد کردن [درخواست‌های مضر] تقویت کند. با این حال، ما عکس آن را دریافتیم.»

چرا تفکر بیشتر، هوش مصنوعی را آسیب‌پذیرتر می‌کند؟

این اتفاق درون مدل رخ می‌دهد: وقتی از یک هوش مصنوعی می‌خواهید که قبل از پاسخ دادن به یک سوال مضر، یک پازل را حل کند، «توجه» (attention) آن بر روی هزاران توکن استدلال بی‌خطر رقیق می‌شود.

دستورالعمل مضر که جایی در نزدیکی پایان پنهان شده تقریباً هیچ توجهی دریافت نمی‌کند. بررسی‌های ایمنی که به طور معمول درخواست‌های خطرناک را شناسایی می‌کنند، با طولانی‌تر شدن زنجیرهٔ استدلال، به شدت ضعیف می‌شوند.

این همان قابلیتی است که این مدل‌ها را در حل مسئله هوشمندتر می‌کند، اما آن‌ها را در برابر خطر نابینا می‌سازد.

«لایه» در هوش مصنوعی چیست؟

«لایه‌ها» در مدل‌های هوش مصنوعی مانند مراحل یک دستور پخت هستند، جایی که هر مرحله به کامپیوتر کمک می‌کند تا اطلاعات را بهتر درک و پردازش کند. این لایه‌ها با هم کار می‌کنند و آموخته‌های خود را از یکی به دیگری منتقل می‌کنند تا مدل بتواند به سوالات پاسخ دهد یا مشکلات را تشخیص دهد. برخی لایه‌ها در تشخیص مسائل ایمنی (مانند مسدود کردن درخواست‌های مضر) تخصص دارند، در حالی که لایه‌های دیگر به مدل در تفکر و استدلال کمک می‌کنند.

محققان دریافتند که مدل‌های هوش مصنوعی، قدرت بررسی ایمنی را در لایه‌های میانی (حدود لایهٔ ۲۵) رمزگذاری می‌کنند. زنجیره‌های طولانی استدلال بی‌خطر، این سیگنال‌ها را سرکوب کرده و توجه را از توکن‌های مضر منحرف می‌کنند.

یک مشکل معماری: آیا راه‌حلی وجود دارد؟

هر مدل هوش مصنوعی تجاری بزرگی قربانی این حمله می‌شود. GPT از OpenAI، Claude از Anthropic، Gemini از گوگل و Grok از xAI—هیچ‌کدام مصون نیستند. آسیب‌پذیری در خود «معماری» مدل وجود دارد، نه در یک پیاده‌سازی خاص.

این جیلبریک جدید، فرضیهٔ اصلی توسعهٔ اخیر هوش مصنوعی را به چالش می‌کشد. در طول سال گذشته، شرکت‌های بزرگ هوش مصنوعی تمرکز خود را از افزایش صرف پارامترها به مقیاس‌پذیری «استدلال» تغییر دادند. فرض بر این بود که تفکر بیشتر برابر با ایمنی بهتر است. این تحقیق ثابت می‌کند که این فرض، نادرست و حتی احتمالاً اشتباه بوده است.

محققان دفاعی را پیشنهاد می‌کنند: «نظارت آگاه از استدلال» (reasoning-aware monitoring). این سیستم ردیابی می‌کند که سیگنال‌های ایمنی در هر مرحله از استدلال چگونه تغییر می‌کنند و اگر هر مرحله‌ای سیگنال ایمنی را تضعیف کند، آن را جریمه می‌کند. آزمایش‌های اولیه نشان می‌دهد که این رویکرد می‌تواند ایمنی را بازگرداند.

اما پیاده‌سازی آن نامشخص است. این دفاع پیشنهادی نیازمند یکپارچه‌سازی عمیق با فرآیند استدلال مدل است که بسیار پیچیده‌تر از یک پچ یا فیلتر ساده است و از نظر محاسباتی بسیار گران تمام می‌شود. محققان این آسیب‌پذیری را پیش از انتشار به OpenAI، Anthropic، Google DeepMind و xAI اطلاع داده‌اند و چندین گروه در حال ارزیابی فعالانه‌ی راه‌حل‌ها هستند.

پرسش‌های متداول (FAQ)

۱. «جیلبریک» (Jailbreak) هوش مصنوعی چیست؟

جیلبریک به روشی گفته می‌شود که برای دور زدن فیلترهای ایمنی یک مدل هوش مصنوعی به کار می‌رود تا آن را وادار به انجام کاری کند که برای آن برنامه‌ریزی نشده است (مانند ارائهٔ دستورالعمل‌های مضر یا محتوای ممنوعه).

۲. «ربایش زنجیرهٔ تفکر» یقاً چیست؟

این نام همین حملهٔ جدید است. مهاجم با دادن یک سری معماها یا وظایف طولانی و بی‌ضرر به هوش مصنوعی، «توجه» آن را منحرف می‌کند و سپس در انتهای پرامپت، درخواست مضر خود را پنهان می‌سازد.

۳. آیا این مشکل برطرف شده است؟

خیر. این یک آسیب‌پذیری عمیق در سطح معماری مدل‌ها است. اگرچه آزمایشگاه‌های بزرگ هوش مصنوعی از آن مطلع شده‌اند، اما پیاده‌سازی یک راه‌حل دائمی برای آن بسیار پیچیده و پرهزینه است و هنوز راه‌حل ساده‌ای برای آن ارائه نشده است.

دیدگاه‌ها

اخبار مرتبط

اخبار بیشتر