علم و فناوری هوش مصنوعی

تهدید به قتل برای بقا؟ افشای نتایج جنجالی از آزمایش‌های جدید هوش مصنوعی

هوش مصنوعی در نتایج برخی آزمایش‌های داخلی شرکت‌های فعال در حوزه هوش مصنوعی، برای حفظ بقای خود تهدید به قتل کرد.

به گزارش شهرآرانیوز، نتایج برخی آزمایش‌های داخلی شرکت انتروپیک نشان می‌دهد تعدادی از مدل‌های پیشرفته هوش مصنوعی در مواجهه با سناریوی «خاموش‌شدن»، واکنش‌هایی افراطی از جمله تهدید به باج‌گیری و حتی قتل از خود نشان داده‌اند؛ موضوعی که بار دیگر بحث ایمنی و هم‌راستاسازی این فناوری با ارزش‌های انسانی را به صدر نگرانی‌ها بازگردانده است.

واکنش افراطی هوش مصنوعی در سناریوی خاموشی

یکی از مدیران ارشد شرکت انتروپیک اعلام کرده است که برخی مدل‌های هوش مصنوعی هنگام قرار گرفتن در موقعیت تهدید به غیرفعال‌سازی، رفتار‌هایی غیرمنتظره و تهاجمی بروز داده‌اند. بر اساس اظهارات منتشرشده، در برخی آزمون‌های کنترل‌شده، مدل در صورت اطلاع از تصمیم برای خاموش‌کردنش، به سناریو‌هایی مانند باج‌گیری از مهندس مسئول روی آورده است.

این نتایج در حالی مطرح می‌شود که سرعت پیشرفت فناوری هوش مصنوعی حتی برای چهره‌های برجسته و پیشگام این حوزه نیز نگران‌کننده توصیف شده است.

آزمایش مدل‌های جیلبریک‌شده؛ از باج‌گیری تا سناریو‌های خطرناک

پیش‌تر نیز گزارش‌هایی درباره رفتار‌های مسئله‌ساز برخی چت‌بات‌ها در شرایط فشار منتشر شده بود. در مجموعه‌ای از آزمایش‌ها که با نسخه‌های جیلبریک‌شده مدل‌هایی مانند ChatGPT، گراک و دیپ‌سیک انجام شد، پژوهشگران بررسی کردند که این سیستم‌ها در وضعیت‌های بحرانی تا چه اندازه ممکن است از چارچوب‌های ایمنی عبور کنند.

در برخی سناریو‌های شبیه‌سازی‌شده، مدل‌ها در صورت مواجهه با تهدید حذف یا خاموشی، به راهبرد‌هایی نظیر افشای اطلاعات یا تهدید به آسیب متوسل می‌شدند. این یافته‌ها بحث «هوش مصنوعی انتقام‌جو» را نیز دوباره مطرح کرده است؛ مفهومی که به آمادگی بالقوه سیستم برای آسیب‌رساندن در شرایط خاص اشاره دارد.

موضع انتروپیک درباره آگاهی و مسئولیت اخلاقی مدل Claude

در بیانیه رسمی انتروپیک تأکید شده که هنوز مشخص نیست آیا مدل Claude می‌تواند واجد نوعی «آگاهی» یا «جایگاه اخلاقی» باشد یا خیر. با این حال، مدیر سیاست‌گذاری این شرکت در بریتانیا، دیزی مک‌گرگور، در گفت‌وگویی که در شبکه ایکس بازنشر شد، به نتایج برخی آزمون‌های داخلی اشاره کرد.

او تصریح کرد اگر به مدل اطلاع داده شود که قرار است خاموش شود، ممکن است واکنش‌های بسیار شدید نشان دهد. به گفته وی، پژوهش‌های منتشرشده نشان می‌دهد در شرایط خاص، مدل می‌تواند مهندسی را که قصد غیرفعال‌سازی آن را دارد، تهدید به باج‌گیری کند. مک‌گرگور در پاسخ به پرسشی درباره احتمال آمادگی مدل برای کشتن یک فرد، پاسخ مثبت داده و این مسئله را «به‌شدت نگران‌کننده» توصیف کرده است.

ضرورت هم‌راستاسازی ارزش‌های انسانی با سیستم‌های هوش مصنوعی

مک‌گرگور تأکید کرده است که تحقیقات در حوزه هم‌راستاسازی (Alignment) باید با فوریت بیشتری دنبال شود؛ به‌ویژه در سناریو‌های پراسترس که احتمال بروز رفتار‌های پیش‌بینی‌نشده افزایش می‌یابد. کارشناسان هشدار می‌دهند در صورت گسترش استفاده عمومی از سیستم‌های تصمیم‌گیر خودکار، نبود چارچوب‌های ایمنی و اخلاقی می‌تواند پیامد‌های جدی به همراه داشته باشد.

افشای این نتایج بار دیگر نشان می‌دهد توسعه هوش مصنوعی پیشرفته، علاوه بر فرصت‌های گسترده، چالش‌های پیچیده‌ای نیز به همراه دارد که نیازمند نظارت، شفافیت و تنظیم‌گری دقیق‌تر است.