هوش مصنوعی در «توهم دیداری»: وقتی بدون تصویر هم با اطمینان پاسخ می‌دهد

به گزارش شهرآرانیوز، وبگاه تِک‌اِکسپلور در گزارشی آورده است: چند سال پیش، خبر‌هایی منتشر شد مبنی بر اینکه هوش مصنوعی ممکن است به‌زودی به رادیولوژیست‌ها در تفسیر عکس‌های شکستگی استخوان و تحلیل ماموگرافی کمک کند. اما یک مطالعه جدید نشان می‌دهد که هنوز تا رسیدن به این هدف فاصله زیادی داریم.

گروهی از پژوهشگران دانشگاه استنفورد آزمایشی به نام فانتوم- صفر (Phantom-۰) طراحی کردند. آنها از جدیدترین مدل‌های هوش مصنوعی مانند جی‌پی‌تی- ۵، جمینای ۳ پرو، کلود سونت ۴.۵ و کلود اپوس ۴.۵ سوالات بسیار دقیقی درباره تصاویر پرسیدند، اما هیچ تصویری در اختیار آنها قرار ندادند.

نتایج شگفت‌انگیز بود: مدل‌های هوش مصنوعی به جای اینکه بپذیرند چیزی نمی‌بینند، با اطمینان کامل جزئیات خیالی را توصیف کردند. از شماره پلاک ماشین و زبان یک روزنامه گرفته تا شرایط تهدیدکننده حیات که اصلاً وجود نداشتند.

به طور متوسط، این رفتار در بیش از ۶۰ درصد موارد در میان مدل‌های پیشرفته مشاهده شد.

در پنج سال گذشته، پیشرفت چشمگیری در مدل‌های هوش مصنوعی که هم متن و هم تصویر را پردازش می‌کنند، دیده شده است. این قابلیت چندوجهی کاربرد‌هایی در پزشکی و رباتیک پیدا کرده است. بیش از ۲۳۰ میلیون نفر روزانه سوالات مربوط به حوزه سلامت را از هوش مصنوعی می‌پرسند.

برای سنجش عملکرد این مدل‌ها، آزمون‌های استانداردی طراحی شده است. فرض اولیه این است که نمره بالاتر به معنای درک بصری بهتر است؛ اما این مطالعه جدید، این سامانه ارزیابی را زیر سؤال می‌برد.

آزمایش‌ها نشان داد مدل‌های هوش مصنوعی حتی زمانی که تصاویر کاملاً حذف شده بودند، نمرات به طرز شگفت‌آور خوبی در آزمون‌های بصری کسب کردند.

{$sepehr_key_204280}

گروه پژوهشی یک قدم فراتر رفت و یک مدل فقط متنی (بدون دسترسی به داده‌های بصری) را برای پاسخ به سؤالات مربوط به عکس‌های قفسه سینه آموزش داد.

نتیجه شگفت‌آور بود: این مدل متنی در یک آزمون استاندارد تفسیر عکس قفسه سینه، هم از سامانه‌های پیشرفته هوش مصنوعی و هم از پزشکان انسانی بهتر عمل کرد.

این یافته‌ها نشان می‌دهد که سامانه‌های ارزیابی فعلی ممکن است بیش از حد به الگو‌های متنی تکیه کنند تا درک بصری واقعی.

پژوهشگران الگوی جالب دیگری نیز مشاهده کردند: وقتی به مدل هوش مصنوعی به صراحت گفته می‌شد که تصویری وجود ندارد و از او خواسته می‌شد حدس بزند، دقت پاسخ‌ها به‌شدت کاهش می‌یافت.

اما وقتی سؤال به گونه‌ای پرسیده می‌شد که مدل تصور می‌کرد تصویری وجود دارد، وارد حالت سراب می‌شد و عملکردش بهبود می‌یافت، زیرا می‌توانست از سرنخ‌ها و الگو‌های پنهان متنی برای تولید پاسخ استفاده کند.

نیاز فوری به معیار‌های ارزیابی بهتر و امن‌تر

پژوهشگران بر نیاز فوری به معیار‌های ارزیابی بهتر و امن‌تر، به‌ویژه در محیط‌های پزشکی که پاسخ‌های ساختگی می‌توانند عواقب جدی داشته باشند، تأکید می‌کنند.

آنها روش ارزیابی جدیدی به نام بی-کلین (B-Clean) را به‌عنوان راه‌حلی بالقوه معرفی کردند. این روش سؤالاتی را که بدون تصویر قابل پاسخگویی هستند، حذف می‌کند و مدل‌های چندوجهی را بر اساس درک بصری واقعی آزمایش می‌کند، نه بر اساس حدس‌های از روی سرنخ‌های متنی.

برای تعیین اینکه آیا بی-کلین و روش‌های مشابه می‌توانند به طور مؤثر پدیده سراب را حذف کنند، به مطالعات بیشتری نیاز است.