علم و فناوری هوش مصنوعی

معرفی سورا ۲، نسل جدید هوش مصنوعی + قابلیت‌ها و ویژگی‌ها

رونمایی از مدل جدید تولید ویدیوی OpenAI با نام Sora ۲؛ ابزاری برای تولید ویدیو‌هایی که مرز میان واقعیت و شبیه‌سازی را محو کرده‌اند و کاربران را شگفت‌زده کرده است.

به گزارش شهرآرانیوز، این روز‌ها وقتی صفحه‌ی شبکه‌های اجتماعی را باز می‌کنیم با ویدیو‌هایی روبه‌رو می‌شویم که کاملا مرز واقعیت و بازسازی دیجیتال را کنار زده‌اند: مایکل جکسون قطعه‌ای رپ جدیدی را اجرا می‌کند، باب راس با همان صدای آرام و شمرده‌اش منظره‌ای دیجیتال را می‌کشد و توپاک شکور در گفت‌وگویی زنده از سیاست و جامعه می‌گوید.

البته این ویدیو‌ها را از آرشیو‌های تلویزیونی بیرون نکشیده‌اند و این کاربران هستند که پس از معرفی مدل جدید تازه‌ی تولید ویدیوی OpenAI نسخه‌ی عمومی Sora ۲ را تست می‌کنند.

Sora ۲ چیست؟ از تولید ویدیو تا شبیه‌سازی جهان

سورا ۲، که تیم OpenAI از آن به‌عنوان «لحظه‌ی انتشار GPT-۳.۵ برای ویدیو» یاد می‌کند، نقطه‌ی عطفی در مسیر تکامل فناوری‌های تولید محتوای هوش مصنوعی به‌شمار می‌رود. اگر نسخه‌ی نخست سورا که در فوریه‌ی ۲۰۲۴ معرفی شد را معادل «GPT-۱» در دنیای ویدیو بدانیم که صرفاً امکان‌پذیری تولید ویدیو‌های منسجم را ثابت کرد، نسخه‌ی دوم با هدفی بسیار گسترده‌تر طراحی شده است: حرکت از تولید ویدیو به‌سمت شبیه‌سازی جهان.

در این چارچوب، مدل دیگر صرفاً مجموعه‌ای از پیکسل‌ها را بر اساس متن ورودی کنار هم نمی‌چیند، بلکه می‌کوشد درک درونی و سازگار از جهان فیزیکی بسازد؛ جهانی با قوانین علیت، پویایی اجسام و پیوستگی زمانی. هدف این است که هوش مصنوعی نه فقط ظاهر، بلکه منطق پشت رویداد‌ها را هم بازسازی کند.

دانلود

فیلم اصلی

نسخه جدید سورا تلاش می‌کند نه‌فقط ظاهر پدیده‌ها، بلکه علت و پیامد رویداد‌ها را نیز درک کند

در لایه‌ی فنی، سورا ۲ بر پایه‌ی مدل‌های دیفیوژن (Diffusion Models) توسعه‌یافته؛ الگوریتم‌هایی که با یادگیری فرآیند معکوسِ افزودن نویز به داده‌ها، می‌توانند از یک فضای کاملاً تصادفی، تصویر یا ویدیویی تازه و منسجم بسازند. این فرایند با پالایش تدریجی نویز آغاز می‌شود و مرحله‌به‌مرحله تا رسیدن به خروجی نهایی، که با دستور کاربر تطبیق دارد ادامه می‌یابد.

یکی از مفاهیم محوری در عملکرد Sora ۲ تحت عنوان «حفظ پیوستگی زمانی» معرفی می‌شود. این مفهوم به توانایی مدل برای حفظ هویت و ویژگی‌های اشیا، شخصیت‌ها و محیط‌ها در طول یک ویدیو اشاره دارد؛ به‌طوری‌که اجزا به‌طور ناگهانی تغییر شکل ندهند، ناپدید نشوند یا در فریم‌های مختلف رفتار‌های ناسازگاری نداشته باشند، مشکلی که مدل‌های نسل قبل به‌سختی با آن دست‌وپنجه نرم می‌کردند.

سورا ۲ این مسئله را از طریق پردازش ویدیو در یک فضای نهان (Latent Space) حل می‌کند؛ فضایی فشرده و انتزاعی از داده‌ها که در آن مدل می‌تواند روابط پیچیده میان فریم‌ها را درک کند و تغییرات را به‌صورت تدریجی و منطقی اعمال نماید.

این رویکرد به نسخه جدید سورا اجازه می‌دهد تا ساختار زمانی و روایی ویدیو‌ها را حفظ کند و خروجی‌هایی تولید نماید که از نظر تداوم بصری و علیت، طبیعی‌تر به نظر می‌رسند.

به همین دلیل هم OpenAI می‌گوید هدفش از توسعه‌ی این مدل تنها خلق ویدیو‌های باکیفیت یا سینمایی نیست، بلکه می‌خواهد زیربنایی فنی برای آموزش ایجنت‌های هوش مصنوعی در آینده فراهم کند؛ سیستم‌هایی مانند ربات‌ها که برای تعامل مؤثر با محیط، نیازمند درک عمیق و سازگار از قوانین جهان فیزیکی هستند.

ویژگی‌ها و نوآوری‌های Sora ۲

پیشرفت‌های Sora ۲ نسبت به نسخه‌های پیشین خود و مدل‌های رقیب، مجموعه‌ای از ویژگی‌های فنی و هوشمندانه را در بر می‌گیرد که هم کیفیت خروجی را ارتقا می‌دهند و هم عمق درک مدل از جهان و توانایی تعاملش با کاربر را افزایش می‌دهند.

وضوح بالاتر

دانلود

فیلم اصلی

نخستین ویژگی قابل‌توجه در Sora ۲، بهبود چشمگیر وضوح تصاویر است. ویدیو‌های خروجی این مدل اکنون از کیفیتی برخوردارند که به استاندارد‌های تولید حرفه‌ای در سینما و تبلیغات نزدیک می‌شوند.

اما این ارتقا تنها به افزایش تعداد پیکسل‌ها خلاصه نمی‌شود؛ مدل اکنون می‌تواند جزئیاتی بسیار ظریف را بازتولید کند: از بافت لطیف پارچه و انعکاس نور در چشمان شخصیت‌ها گرفته تا ریزدانه‌های باران روی شیشه. این دقت بصری، حس واقع‌گرایی را تا مرز فریب چشم بیننده پیش می‌برد.

تولید ویدیو‌های طولانی‌تر و منسجم‌تر

در نسخه‌های اولیه، طول ویدیو به چند ثانیه محدود می‌شد؛ زیرا با افزایش زمان، خطا‌ها و ناپیوستگی‌های تصویری نیز بیشتر می‌شدند. اما سورا ۲ با معماری بازطراحی‌شده و درک بهتر از تداوم روایی، اکنون می‌تواند کلیپ‌هایی چنددقیقه‌ای تولید کند که انسجام حرکات، منطق صحنه و روند داستانی در آنها حفظ می‌شود. این توانایی، مسیر تازه‌ای را برای استفاده از مدل در تولید فیلم‌های کوتاه و محتوای سینمایی باز کرده است.

کنترل دقیق حرکت و زمان

در نسخه جدید سورا، کاربر تنها تماشاگر نیست؛ بلکه عملاً نقش کارگردان را ایفا می‌کند. مدل امکان کنترل بسیار دقیق بر حرکات دوربین و سرعت رویداد‌ها را فراهم می‌کند. می‌توان یک صحنه را با حرکت آهسته و سینمایی یا با ریتمی تند و پرانرژی ساخت. این سطح از کنترل، Sora ۲ را از یک مولد تصادفی ویدیو به ابزار کارگردانی هوشمند تبدیل می‌کند که توانایی اجرای دقیق دیدگاه خلاقانه‌ی کاربر را دارد.

درک عمیق‌تر از نور، فضا و عمق میدان

یکی از ویژگی‌های تحسین‌برانگیز در خروجی‌های Sora ۲، کیفیت سینمایی نورپردازی آن است. مدل نه‌تنها تفاوت میان نور طبیعی و مصنوعی را درک می‌کند، بلکه می‌تواند تأثیر آنها را بر سطوح، بافت‌ها و اشیا به‌درستی بازسازی کند. سایه‌ها نرم و طبیعی‌اند، بازتاب‌ها از قوانین فیزیکی پیروی می‌کنند و ترکیب این عوامل، به ویدیو‌ها عمق، حجم و حسی سه‌بعدی می‌بخشد که پیش‌تر در مدل‌های مولد ویدیو بی‌سابقه بود.

واقع‌گرایی فیزیکی در تعاملات اشیا

مدل‌های قدیمی‌تر گاهی قوانین فیزیک را نادیده می‌گرفتند؛ مثلاً اگر کاربر می‌خواست توپی به سمت سبد پرتاب شود، مدل ممکن بود به شکلی جادویی آن را مستقیم داخل سبد بیندازد. اما Sora ۲ از چنین خطا‌هایی عبور کرده است. حالا اگر پرتاب ناموفق باشد، توپ به تخته برخورد کرده، تغییر جهت می‌دهد و بر اساس جرم، نیرو و زاویه، واکنش طبیعی نشان می‌دهد. این پایبندی به قوانین فیزیکی در شبیه‌سازی‌های پیچیده‌تر، از شناوری اجسام روی آب تا انعطاف‌پذیری مواد مختلف نیز مشهود است.

درک عمیق‌تر زبان و صحنه‌پردازی پیچیده

آخرین و شاید مهم‌ترین ویژگی Sora ۲، توانایی آن در فهم دستور‌های متنی چندوجهی است. مدل اکنون می‌تواند دستور‌هایی را که شامل چندین شخصیت، تعاملات متقابل، توصیف‌های دقیق از محیط و زمان‌بندی رویداد‌ها هستند، به یک صحنه‌ی ویدیویی منسجم و منطقی تبدیل کند. به‌این‌ترتیب، کاربر می‌تواند روایت‌های چندلایه و سینمایی‌تری را خلق کند، بی‌آنکه مدل دچار ابهام یا حذف جزئیات شود.

دانلود

فیلم اصلی

اپلیکیشن Sora و رویکرد استقرار

اوپن‌ای‌آی تصمیم دارد سورا ۲ را با رویکردی متفاوت از گذشته منتشر کند. برخلاف بسیاری از مدل‌های پیشین که از طریق API در اختیار توسعه‌دهندگان قرار می‌گرفتند، این بار محصول در قالب یک اپلیکیشن اجتماعی مستقل با نام «Sora» برای سیستم‌عامل iOS منتشر شده است.

این اپلیکیشن که در فاز اول به‌صورت دعوت‌نامه‌ای و فقط در ایالات متحده و کانادا در دسترس کاربران قرار می‌گیرد، می‌خواهد به‌جای «مصرف محتوا» روی «خلق محتوا» تمرکز داشته باشد. کاربران می‌توانند ویدیو‌های خود را بسازند، آثار دیگران را ریمیکس کنند و در یک فید قابل‌شخصی‌سازی، محتوا‌های جدید را کشف نمایند.

OpenAI برای نخستین‌بار مدل خود را در قالب یک اپلیکیشن اجتماعی منتشر می‌کند.

مهم‌ترین ویژگی این اپلیکیشن، Cameos است که همانطور که در ادامه توضیح می‌دهیم به کاربران امکان خواهد داد با دوستان خود به شیوه‌ای جدید و خلاقانه تعامل کنند.

این شرکت همچنین اعلام کرده است که الگوریتم فید این اپلیکیشن هم برای به این منظور بهینه‌سازی نشده که کاربر را مدت‌زمان بیشتری نگه دارد، بلکه اولویت آن نمایش محتوایی است که الهام‌بخش ساخت آثار جدید باشد. رویکرد فعلی در تضاد با مدل کسب‌وکار بسیاری از پلتفرم‌های اجتماعی امروزی قرار می‌گیرد.

در حال حاضر، استفاده از اپلیکیشن رایگان است، اما OpenAI اشاره کرده که ممکن است در آینده برای تولید ویدیو‌های اضافی، هزینه‌ای از کاربران دریافت کند تا بتواند هزینه‌های محاسباتی سنگین این مدل را مدیریت نماید.

Cameos؛ جنجالی‌ترین قابلیت سورا

یکی از نوآورانه‌ترین و درعین‌حال بحث‌برانگیزترین ویژگی‌های سورا ۲ را در قابلیتی به نام Cameo تجربه می‌کنیم؛ امکانی که به کاربران اجازه می‌دهد چهره، صدای خود یا افراد دیگر، از دوستان گرفته تا حیوانات خانگی و اشیای واقعی را مستقیماً به صحنه‌های تولیدشده توسط هوش مصنوعی «تزریق کنند».

کاربران برای استفاده از Cameos باید ویدیو و صدای کوتاهی از خود را ضبط کنند تا هویتشان تأیید شود.

بدین منظور کاربران باید ابتدا از طریق اپلیکیشن، ویدیو و صدای کوتاهی از خود را ضبط کنند تا هویتشان تأیید شود و مدل هم بتواند ظاهر و صدای آنها را یاد بگیرد. پس از این مرحله، کاربر می‌تواند نسخه‌ی دیجیتال خود را به هر محیطی که سورا ۲ می‌سازد، وارد کند. استفاده از چهره دیگر افراد نیز مستلزم اجازه آنها خواهد بود.

قابلیت کامئو، سورا ۲ را از یک ابزار تولید محتوای صرف به پلتفرمی تعاملی و اجتماعی تبدیل می‌کند. برای نمونه، کاربر می‌تواند خود را در حال قدم‌زدن در شهری با حال‌وهوای سایبرپانک یا گفت‌و‌گو با یک شخصیت تاریخی بازسازی‌شده مشاهده کند.

به گفته‌ی OpenAI، این قابلیت به‌گونه‌ای طراحی شده که کاربر کنترل کاملی بر روی نسخه‌ی دیجیتال خود داشته باشد و بتواند در هر زمان دسترسی مدل به آن را لغو یا ویدیو‌های خود را حذف کند.

دانلود

فیلم اصلی

تفاوت‌های نسل دوم سورا با نسل اول

اولین نسخه سورا در سال ۲۰۲۴ بیشتر به‌عنوان «اثبات مفهومی» عمل می‌کرد؛ مدلی برای نشان‌دادن اینکه یک سیستم زبانی می‌تواند ویدیو‌های منسجم تولید کند. اما نسخه جدید را می‌توانیم نتیجه‌ی بازنگری کامل در هدف و معماری این پروژه بدانیم.

نسل اول سورا عمدتاً برای تولید کلیپ‌های کوتاه و تک‌نما بر اساس دستورات ساده طراحی شده بود و ویدیو‌های کاملاً صامتی می‌ساخت. ولی نسخه‌ی جدید سیستم صوتی تصویری کاملی به‌شمار می‌رود. به‌علاوه نسخه‌ی اول در حفظ ثبات اشیا موفق بود، اما در شبیه‌سازی تعاملات فیزیکی پیچیده به چالش می‌خورد. مثلاً اجسام گاهی بی‌وزن بودند یا ناگهان از فریم حذف می‌شدند.

در نسل دوم، تمرکز از تولید فریم‌ها به درک زمان، فضا و علیت تغییر یافته است.

حالا مدل دوم با داده‌های بیشتر و معماری پیچیده‌تر، قادر است تداوم فیزیکی و روابط علّی را حفظ کند. توپ‌ها واقعاً می‌غلتند، باد واقعاً مو‌ها را تکان می‌دهد، و اشیا به همان شکلی که باید در فضا واکنش نشان می‌دهند.

یکی دیگر از تفاوت‌های مهم دو نسخه به درک متن و صحنه در سطوح چندگانه برمی‌گردد. در نسخه‌ی قبلی، مدل تنها دستور مستقیم را دنبال می‌کرد، اما سورا ۲ می‌تواند چند دستور ترکیبی را هم‌زمان درک کند. اگر کاربر بخواهد «زنی که در حال دویدن در جنگل است و هم‌زمان صدای باران می‌شنود و دوربین از پشت سر او حرکت می‌کند» را بسازد، مدل می‌فهمد که باید سه‌لایه‌ی حرکتی، صوتی و تصویری را هماهنگ کند؛ و شاید مهم‌تر از همه اینکه نسخه‌ی اول سورا هرگز فراگیر نشد؛ درحالی‌که آپدیت جدید نخستین نسخه‌ی عمومی به‌شمار می‌رود و همراه با اپلیکیشن اجتماعی جدید OpenAI برای iOS همه‌ی کاربران عمومی را هدف قرار می‌دهد.

منبع: زومیت

عضو شوید: آخرین اخبار کشور را در این صفحه اینستاگرام دنبال کنید

گزارش خطا

ارسال نظرات

نام

ایمیل

* نظر

دیدگاه های ارسال شده توسط شما، پس از تائید توسط شهرآرانیوز در سایت منتشر خواهد شد.

نظراتی که حاوی توهین و افترا باشد منتشر نخواهد شد.

معرفی سورا ۲، نسل جدید هوش مصنوعی + قابلیت‌ها و ویژگی‌ها

Sora ۲ چیست؟ از تولید ویدیو تا شبیه‌سازی جهان

ویژگی‌ها و نوآوری‌های Sora ۲

وضوح بالاتر

تولید ویدیو‌های طولانی‌تر و منسجم‌تر

کنترل دقیق حرکت و زمان

درک عمیق‌تر از نور، فضا و عمق میدان

واقع‌گرایی فیزیکی در تعاملات اشیا

درک عمیق‌تر زبان و صحنه‌پردازی پیچیده

اپلیکیشن Sora و رویکرد استقرار

Cameos؛ جنجالی‌ترین قابلیت سورا

تفاوت‌های نسل دوم سورا با نسل اول

ویدئو | نبض غدیر در حرم مطهر رضوی | مردم از مولای متقیان می‌گویند (چهارشنبه ۱۳ خرداد ۱۴۰۵)

ویدئو | سقوط ۴۴ درصدی تولید خودروسازان در دو ماه نخست سال ۱۴۰۵

ویدئو | چرخ بازار لاستیک در چاله قیمت‌ها

ویدئو | دلار تراولی؛ فرصت طلایی یا هشدار اقتصادی پنهان؟