به گزارش شهرآرانیوز؛ DeepSeek که امسال با مدل R1 توجه زیادی را به خود جلب کرد، حالا نسخه جدیدی از این مدل را با مجوز باز MIT روی پلتفرم Hugging Face منتشر کرده است. این مجوز به کاربران اجازه میدهد تا از این مدل بهصورت تجاری استفاده کنند.
به گفته DeepSeek، این بهروزرسانی جزئی است و نسبت به نسخه قبلی شامل چندین بهبود میشود. با این حال، مخزن مربوط به این مدل در Hugging Face فاقد توضیحات دقیق بوده و فقط شامل فایلهای پیکربندی و وزنهای مدل است؛ یعنی همان پارامترهایی که رفتار مدل را تعیین میکنند.
مدل جدید R1 دارای 685 میلیارد پارامتر است که نشاندهنده اندازه عظیم آن است. این حجم بالا باعث میشود اجرای مدل بدون تغییرات خاص روی سختافزارهای خانگی ممکن نباشد.
طبق دادههای منتشرشده توسط برخی کاربران فعال در حوزه مدلهای هوش مصنوعی، نسخه جدید DeepSeek R1 عملکرد بهتری نسبت به نسخه قبلی خود در بنچمارک Thematic Generation ثبت کرده است. امتیاز این مدل در این آزمون از 1.80 به 1.74 کاهش یافته که نشاندهنده بهبود در توانایی مدل برای تولید محتوای موضوعمحور است؛ چرا که در این معیار، امتیاز پایینتر نشاندهنده کیفیت بالاتر است.
همچنین کاربر دیگری با انتشار ویدیوی زیر که عملکرد DeepSeek-R1-0528 (نسخه جدید) را در برابر Claude-4-Sonnet نشان میدهد، ادعا کرده که این نسخه در حوزه استدلال منطقی با بهبود قابلتوجهی همراه بوده است. طبق گفته این کاربر، مدل جدید در زمینه توسعه فرانتاند و استفاده هوشمندانهتر از ابزارها نیز پیشرفت کرده است.
این ارتقاها میتواند R1 را به گزینهای قویتر برای توسعهدهندگان و کاربران حرفهای تبدیل کند.
DeepSeek در اوایل سال جاری با معرفی نسخه اولیه مدل R1 سر و صدای زیادی بهپا کرد و حتی با رقبای بزرگی مانند OpenAI مقایسه شد. بااینحال، فناوری این استارتاپ چینی توجه برخی نهادهای نظارتی آمریکایی را نیز به خود جلب کرده و برخی آن را تهدیدی برای امنیت ملی ایالات متحده دانستهاند.
این حرکت همچنین موج جدیدی از انتشار مدلها توسط شرکتهای چینی نظیر علیبابا و Zhipu AI را به دنبال داشت.
منبع: دیجیاتو