شهرآرانیوز؛ در دسامبر ۲۰۲۳، زمانی که ساندار پیچای (مدیرعامل گوگل) و دمیس هاسابس (مدیرعامل گوگل دیپمایند) از مدل هوش مصنوعی Gemini رونمایی کردند، بسیاری تصور کردند این نام صرفاً ادای احترامی به صور فلکی یا یک واژه خوشآهنگ لاتین است. اما حقیقت بسیار پیچیدهتر و استراتژیکتر است. نام Gemini یک «مانیفست» فشرده است که تاریخچه شرکت، جاهطلبیهای فضایی و معماری فنی این هوش مصنوعی را در یک کلمه خلاصه میکند.
بر اساس مستندات و اظهارات رسمی، این نامگذاری بر سه ستون اصلی استوار است:
مهمترین و مستقیمترین دلیل این نامگذاری، به ساختار داخلی گوگل بازمیگردد. تا پیش از آوریل ۲۰۲۳، گوگل دارای دو آزمایشگاه هوش مصنوعی مجزا و حتی رقیب بود:
Google Brain: تیم مستقر در کالیفرنیا که معماری «ترنسفورمر» (پایه و اساس تمام هوش مصنوعیهای امروزی) را اختراع کرد.
DeepMind: تیم مستقر در لندن که روی هوش مصنوعی عمومی و پروژههایی مثل AlphaGo تمرکز داشت.
برای مقابله با پیشرفت سریع OpenAI (سازنده ChatGPT)، گوگل تصمیم گرفت در یک حرکت تاریخی این دو واحد را ادغام کند و واحد جدیدی به نام Google DeepMind را تشکیل دهد.
جف دین (Jeff Dean)، دانشمند ارشد گوگل و یکی از رهبران این پروژه، در پستی در شبکه اجتماعی X (توییتر سابق) صراحتاً اعلام کرده:
«نام Gemini لاتین واژه «دوقلوها» است. این نام اشارهای است به دو تیم legacy ما (Brain و DeepMind) که حالا شروع به کار کردن با یکدیگر کردهاند.»
بنابراین، Gemini در وهله اول نماد «دوقلویی» است که از ترکیب دو DNA متفاوت (یکی مهندسیمحور و دیگری پژوهشمحور) متولد شده است.
لایه دوم معنایی، بسیار جاهطلبانهتر است و به تاریخ فضانوردی ناسا اشاره دارد. در دهه ۱۹۶۰، ناسا سه برنامه اصلی داشت:
مرکوری: فرستادن اولین انسان به فضا (شروع ساده).
جمینای (Gemini): یادگیری مهارتهای پیچیده مثل راهپیمایی فضایی و اتصال سفینهها.
آپولو: فرود انسان بر ماه (هدف نهایی).
پروژه جمینای ناسا نقش «پل» را بازی میکرد. بدون جمینای، آپولو ممکن نبود.
برای گوگل، مدلهای زبانی قبلی (مثل LaMDA و PaLM) حکم پروژه «مرکوری» را داشتند. هدف نهایی گوگل، رسیدن به AGI (هوش مصنوعی عمومی که هوشی در سطح یا فراتر از انسان دارد) است که حکم پروژه «آپولو» و فتح ماه را دارد.
در این میان، مدل Gemini همان «پل» حیاتی است. این مدل قرار است پیچیدگیها را حل کند تا گوگل را به مقصد نهایی (AGI) برساند.
طبق گزارشی از نشریه The Information و تأیید ضمنی مدیران دیپمایند، انتخاب این نام بازتابدهنده جاهطلبی تیم برای رسیدن به قلههای نهایی دانش، درست شبیه به تلاش ناسا برای رسیدن به ماه است. دمیس هاسابس نیز بارها از علاقه خود به شبیهسازی پروژههای بزرگ علمی (مانند پروژه آپولو) در دنیای هوش مصنوعی سخن گفته است.

در اسطورهشناسی یونان و روم، صورت فلکی جوزا (Gemini) خانه دو برادر دوقلو به نامهای کاستور (Castor) و پولوکس (Pollux) است.
کاستور: فانی بود و مهارت زیادی در سوارکاری و جنگ داشت.
پولوکس: جاودانه (پسر زئوس) بود و قدرت بدنی خارقالعادهای داشت.
این دو برادر با وجود تفاوت ماهوی (یکی فانی و دیگری جاودانه)، تیمی جداییناپذیر بودند که یکدیگر را تکمیل میکردند.
گوگل مدل Gemini را Native Multimodal (چندوجهیِ ذاتی) نامید. برخلاف GPT-۴ که در ابتدا اجزای بینایی و شنوایی جداگانهای داشت که به هم وصله شده بودند، Gemini از همان ابتدا طوری آموزش دید که همزمان متن، تصویر، کد و صدا را درک کند.
این «همکاری اجزای مختلف» (متن و تصویر) برای خلق یک موجودیت واحد، دقیقاً یادآور همکاری کاستور و پولوکس در اسطورههاست. همانطور که آن دو برادر با هم کامل میشدند، مدل جمینای نیز با ترکیب دادههای متنی و تصویری به درکی فراتر از مدلهای تکبعدی میرسد.
انتخاب نام Gemini یک تصمیم بازاریابی ساده نبود؛ بلکه بیانیهای استراتژیک بود که گوگل با آن به جهان (و البته به کارمندان خود) سه پیام داد:
وحدت داخلی: دوران رقابت داخلی تمام شده؛ ما (Brain و DeepMind) اکنون یکی هستیم.
ماموریت علمی: ما در حال ساخت پلی به سوی هوش مصنوعی عمومی هستیم، درست مثل ناسا در دهه ۶۰.
معماری فنی: آینده هوش مصنوعی در ترکیب همزمانِ حواس مختلف (Multimodality) است، نه فقط متن.