به گزارش شهرآرانیوز، نتایج برخی آزمایشهای داخلی شرکت انتروپیک نشان میدهد تعدادی از مدلهای پیشرفته هوش مصنوعی در مواجهه با سناریوی «خاموششدن»، واکنشهایی افراطی از جمله تهدید به باجگیری و حتی قتل از خود نشان دادهاند؛ موضوعی که بار دیگر بحث ایمنی و همراستاسازی این فناوری با ارزشهای انسانی را به صدر نگرانیها بازگردانده است.
یکی از مدیران ارشد شرکت انتروپیک اعلام کرده است که برخی مدلهای هوش مصنوعی هنگام قرار گرفتن در موقعیت تهدید به غیرفعالسازی، رفتارهایی غیرمنتظره و تهاجمی بروز دادهاند. بر اساس اظهارات منتشرشده، در برخی آزمونهای کنترلشده، مدل در صورت اطلاع از تصمیم برای خاموشکردنش، به سناریوهایی مانند باجگیری از مهندس مسئول روی آورده است.
این نتایج در حالی مطرح میشود که سرعت پیشرفت فناوری هوش مصنوعی حتی برای چهرههای برجسته و پیشگام این حوزه نیز نگرانکننده توصیف شده است.
پیشتر نیز گزارشهایی درباره رفتارهای مسئلهساز برخی چتباتها در شرایط فشار منتشر شده بود. در مجموعهای از آزمایشها که با نسخههای جیلبریکشده مدلهایی مانند ChatGPT، گراک و دیپسیک انجام شد، پژوهشگران بررسی کردند که این سیستمها در وضعیتهای بحرانی تا چه اندازه ممکن است از چارچوبهای ایمنی عبور کنند.
در برخی سناریوهای شبیهسازیشده، مدلها در صورت مواجهه با تهدید حذف یا خاموشی، به راهبردهایی نظیر افشای اطلاعات یا تهدید به آسیب متوسل میشدند. این یافتهها بحث «هوش مصنوعی انتقامجو» را نیز دوباره مطرح کرده است؛ مفهومی که به آمادگی بالقوه سیستم برای آسیبرساندن در شرایط خاص اشاره دارد.
در بیانیه رسمی انتروپیک تأکید شده که هنوز مشخص نیست آیا مدل Claude میتواند واجد نوعی «آگاهی» یا «جایگاه اخلاقی» باشد یا خیر. با این حال، مدیر سیاستگذاری این شرکت در بریتانیا، دیزی مکگرگور، در گفتوگویی که در شبکه ایکس بازنشر شد، به نتایج برخی آزمونهای داخلی اشاره کرد.
او تصریح کرد اگر به مدل اطلاع داده شود که قرار است خاموش شود، ممکن است واکنشهای بسیار شدید نشان دهد. به گفته وی، پژوهشهای منتشرشده نشان میدهد در شرایط خاص، مدل میتواند مهندسی را که قصد غیرفعالسازی آن را دارد، تهدید به باجگیری کند. مکگرگور در پاسخ به پرسشی درباره احتمال آمادگی مدل برای کشتن یک فرد، پاسخ مثبت داده و این مسئله را «بهشدت نگرانکننده» توصیف کرده است.
مکگرگور تأکید کرده است که تحقیقات در حوزه همراستاسازی (Alignment) باید با فوریت بیشتری دنبال شود؛ بهویژه در سناریوهای پراسترس که احتمال بروز رفتارهای پیشبینینشده افزایش مییابد. کارشناسان هشدار میدهند در صورت گسترش استفاده عمومی از سیستمهای تصمیمگیر خودکار، نبود چارچوبهای ایمنی و اخلاقی میتواند پیامدهای جدی به همراه داشته باشد.
افشای این نتایج بار دیگر نشان میدهد توسعه هوش مصنوعی پیشرفته، علاوه بر فرصتهای گسترده، چالشهای پیچیدهای نیز به همراه دارد که نیازمند نظارت، شفافیت و تنظیمگری دقیقتر است.