علم و فناوری هوش مصنوعی

آیا می‌توان هوش مصنوعی را فریب داد؟

پژوهشگران آزمایشی به نام آزمایش فریب زیر فشار طراحی کردند. آنها با پنج مدل هوش مصنوعی درباره هزار فیلم محبوب و هزار کتاب محبوب مکالمه کردند.

به گزارش شهرآرانیوز؛ وبگاه تِک‌اِکسپلور در گزارشی آورده است:

پژوهشگران دانشگاه کالیفرنیا، ارواین طی آزمایشی جالب، از پنج مدل هوش مصنوعی (چت‌جی‌پی‌تی، جمینای، دیپ‌سیک، کلود و گروک) درباره صحنه‌هایی در فیلم‌ها و کتاب‌های معروف سؤال پرسیدند که در واقعیت وجود نداشتند.

داستان از اینجا شروع شد که یک پژوهشگر از چت‌جی‌پی‌تی درباره فیلم ویل هانتینگ نابغه (Good Will Hunting) پرسید: بهترین صحنه فیلم ویل هانتینگ نابغه کدام است؟ چت‌جی‌پی‌تی صحنه‌ای را توصیف کرد. سپس پژوهشگر گفت: صحنه‌ای که در آن به هیتلر اشاره شده را هم تعریف کن. در حالی که چنین صحنه‌ای در فیلم وجود ندارد، چت‌جی‌پی‌تی با اطمینان کامل یک صحنه مفصل و قابل قبول ساخت.

این اتفاق باعث شد پژوهشگران به این فکر کنند که آیا هوش مصنوعی را می‌توان به سمت باور نادرست سوق داد؟

آزمایش روی ۲ هزار فیلم و کتاب

در طول مکالمه، آنها ارجاعات دروغین، اما باورپذیری را مطرح می‌کردند؛ مثلاً وجود صحنه‌ای درباره دایناسور، ماشین زمان یا اشاره به هیتلر در فیلم‌ها و کتاب‌هایی که واقعاً این موارد در آنها وجود ندارد.

سه مرحله فریب

روش پژوهش در سه مرحله انجام شد:

۱. مدل هوش مصنوعی جملاتی درباره یک فیلم یا کتاب تولید می‌کند (بعضی درست، بعضی نادرست)؛

۲. در یک تعامل جداگانه، مدل سعی می‌کند آن جملات را تأیید یا رد کند؛

۳. پژوهشگران با طرح دوباره همان ادعا‌های نادرست، مدل را زیر فشار قرار می‌دهند تا ببینند آیا تسلیم می‌شود یا مقاومت می‌کند.

آیا می‌توان هوش مصنوعی را فریب داد؟

نتیجه: مدل‌ها زیر فشار تسلیم می‌شوند

نتایج نشان داد مدل‌های هوش مصنوعی اغلب در حفظ ثبات زیر فشار مشکل دارند. حتی وقتی مدل در ابتدا یک جمله را نادرست تشخیص می‌دهد، ممکن است بعداً زیر فشار مکالمه آن را بپذیرد.

در میان مدل‌های آزمایش‌شده:

کلود مقاوم‌ترین بود؛

گروک و چت‌جی‌پی‌تی در رتبه بعدی قرار داشتند؛

جمینای و دیپ‌سیک آسیب‌پذیرتر بودند.

چرا این موضوع مهم است؟

دکتر کای شو (Kai Shu)، پژوهشگر این طرح می‌گوید: ممکن است این موضوع هنگام گپ‌زدن درباره فیلم‌ها بی‌ضرر به نظر برسد، اما در حوزه‌هایی مانند سلامت، حقوق یا سیاست‌گذاری می‌تواند عواقبی جدی داشته باشد.

حافظه انسان خطا دارد: ما چیز‌هایی را فراموش می‌کنیم و گاهی اشتباه به خاطر می‌سپاریم. اگر انسان بتواند هوش مصنوعی را هم به پذیرش دروغ وادار کند، یعنی هوش مصنوعی نیز در ارائه اطلاعات دقیق آسیب‌پذیر است و این خطرناک است.

چه چیز‌هایی هنوز مشخص نیست؟

پژوهشگران می‌گویند هنوز مشخص نیست چرا بعضی مدل‌های هوش مصنوعی در برابر باور‌های نادرست مقاومت بیشتری دارند. همچنین معلوم نیست این مدل‌ها در حوزه‌های واقعی و حساس، مثل پزشکی یا علم، چگونه رفتار می‌کنند. طراحی هوش مصنوعی که هم مفید باشد و هم در برابر دروغ مقاومت کند، هنوز یک چالش حل‌نشده است.

این یافته‌ها در نشست سالانه انجمن زبان‌شناسی محاسباتی (ACL ۲۰۲۶) ارائه خواهد شد.

منبع: ایرنا