به گزارش شهرآرانیوز، این روزها وقتی صفحهی شبکههای اجتماعی را باز میکنیم با ویدیوهایی روبهرو میشویم که کاملا مرز واقعیت و بازسازی دیجیتال را کنار زدهاند: مایکل جکسون قطعهای رپ جدیدی را اجرا میکند، باب راس با همان صدای آرام و شمردهاش منظرهای دیجیتال را میکشد و توپاک شکور در گفتوگویی زنده از سیاست و جامعه میگوید.
البته این ویدیوها را از آرشیوهای تلویزیونی بیرون نکشیدهاند و این کاربران هستند که پس از معرفی مدل جدید تازهی تولید ویدیوی OpenAI نسخهی عمومی Sora ۲ را تست میکنند.
سورا ۲، که تیم OpenAI از آن بهعنوان «لحظهی انتشار GPT-۳.۵ برای ویدیو» یاد میکند، نقطهی عطفی در مسیر تکامل فناوریهای تولید محتوای هوش مصنوعی بهشمار میرود. اگر نسخهی نخست سورا که در فوریهی ۲۰۲۴ معرفی شد را معادل «GPT-۱» در دنیای ویدیو بدانیم که صرفاً امکانپذیری تولید ویدیوهای منسجم را ثابت کرد، نسخهی دوم با هدفی بسیار گستردهتر طراحی شده است: حرکت از تولید ویدیو بهسمت شبیهسازی جهان.
در این چارچوب، مدل دیگر صرفاً مجموعهای از پیکسلها را بر اساس متن ورودی کنار هم نمیچیند، بلکه میکوشد درک درونی و سازگار از جهان فیزیکی بسازد؛ جهانی با قوانین علیت، پویایی اجسام و پیوستگی زمانی. هدف این است که هوش مصنوعی نه فقط ظاهر، بلکه منطق پشت رویدادها را هم بازسازی کند.
نسخه جدید سورا تلاش میکند نهفقط ظاهر پدیدهها، بلکه علت و پیامد رویدادها را نیز درک کند
در لایهی فنی، سورا ۲ بر پایهی مدلهای دیفیوژن (Diffusion Models) توسعهیافته؛ الگوریتمهایی که با یادگیری فرآیند معکوسِ افزودن نویز به دادهها، میتوانند از یک فضای کاملاً تصادفی، تصویر یا ویدیویی تازه و منسجم بسازند. این فرایند با پالایش تدریجی نویز آغاز میشود و مرحلهبهمرحله تا رسیدن به خروجی نهایی، که با دستور کاربر تطبیق دارد ادامه مییابد.
یکی از مفاهیم محوری در عملکرد Sora ۲ تحت عنوان «حفظ پیوستگی زمانی» معرفی میشود. این مفهوم به توانایی مدل برای حفظ هویت و ویژگیهای اشیا، شخصیتها و محیطها در طول یک ویدیو اشاره دارد؛ بهطوریکه اجزا بهطور ناگهانی تغییر شکل ندهند، ناپدید نشوند یا در فریمهای مختلف رفتارهای ناسازگاری نداشته باشند، مشکلی که مدلهای نسل قبل بهسختی با آن دستوپنجه نرم میکردند.
سورا ۲ این مسئله را از طریق پردازش ویدیو در یک فضای نهان (Latent Space) حل میکند؛ فضایی فشرده و انتزاعی از دادهها که در آن مدل میتواند روابط پیچیده میان فریمها را درک کند و تغییرات را بهصورت تدریجی و منطقی اعمال نماید.
این رویکرد به نسخه جدید سورا اجازه میدهد تا ساختار زمانی و روایی ویدیوها را حفظ کند و خروجیهایی تولید نماید که از نظر تداوم بصری و علیت، طبیعیتر به نظر میرسند.
به همین دلیل هم OpenAI میگوید هدفش از توسعهی این مدل تنها خلق ویدیوهای باکیفیت یا سینمایی نیست، بلکه میخواهد زیربنایی فنی برای آموزش ایجنتهای هوش مصنوعی در آینده فراهم کند؛ سیستمهایی مانند رباتها که برای تعامل مؤثر با محیط، نیازمند درک عمیق و سازگار از قوانین جهان فیزیکی هستند.
پیشرفتهای Sora ۲ نسبت به نسخههای پیشین خود و مدلهای رقیب، مجموعهای از ویژگیهای فنی و هوشمندانه را در بر میگیرد که هم کیفیت خروجی را ارتقا میدهند و هم عمق درک مدل از جهان و توانایی تعاملش با کاربر را افزایش میدهند.
نخستین ویژگی قابلتوجه در Sora ۲، بهبود چشمگیر وضوح تصاویر است. ویدیوهای خروجی این مدل اکنون از کیفیتی برخوردارند که به استانداردهای تولید حرفهای در سینما و تبلیغات نزدیک میشوند.
اما این ارتقا تنها به افزایش تعداد پیکسلها خلاصه نمیشود؛ مدل اکنون میتواند جزئیاتی بسیار ظریف را بازتولید کند: از بافت لطیف پارچه و انعکاس نور در چشمان شخصیتها گرفته تا ریزدانههای باران روی شیشه. این دقت بصری، حس واقعگرایی را تا مرز فریب چشم بیننده پیش میبرد.
در نسخههای اولیه، طول ویدیو به چند ثانیه محدود میشد؛ زیرا با افزایش زمان، خطاها و ناپیوستگیهای تصویری نیز بیشتر میشدند. اما سورا ۲ با معماری بازطراحیشده و درک بهتر از تداوم روایی، اکنون میتواند کلیپهایی چنددقیقهای تولید کند که انسجام حرکات، منطق صحنه و روند داستانی در آنها حفظ میشود. این توانایی، مسیر تازهای را برای استفاده از مدل در تولید فیلمهای کوتاه و محتوای سینمایی باز کرده است.
در نسخه جدید سورا، کاربر تنها تماشاگر نیست؛ بلکه عملاً نقش کارگردان را ایفا میکند. مدل امکان کنترل بسیار دقیق بر حرکات دوربین و سرعت رویدادها را فراهم میکند. میتوان یک صحنه را با حرکت آهسته و سینمایی یا با ریتمی تند و پرانرژی ساخت. این سطح از کنترل، Sora ۲ را از یک مولد تصادفی ویدیو به ابزار کارگردانی هوشمند تبدیل میکند که توانایی اجرای دقیق دیدگاه خلاقانهی کاربر را دارد.
یکی از ویژگیهای تحسینبرانگیز در خروجیهای Sora ۲، کیفیت سینمایی نورپردازی آن است. مدل نهتنها تفاوت میان نور طبیعی و مصنوعی را درک میکند، بلکه میتواند تأثیر آنها را بر سطوح، بافتها و اشیا بهدرستی بازسازی کند. سایهها نرم و طبیعیاند، بازتابها از قوانین فیزیکی پیروی میکنند و ترکیب این عوامل، به ویدیوها عمق، حجم و حسی سهبعدی میبخشد که پیشتر در مدلهای مولد ویدیو بیسابقه بود.
مدلهای قدیمیتر گاهی قوانین فیزیک را نادیده میگرفتند؛ مثلاً اگر کاربر میخواست توپی به سمت سبد پرتاب شود، مدل ممکن بود به شکلی جادویی آن را مستقیم داخل سبد بیندازد. اما Sora ۲ از چنین خطاهایی عبور کرده است. حالا اگر پرتاب ناموفق باشد، توپ به تخته برخورد کرده، تغییر جهت میدهد و بر اساس جرم، نیرو و زاویه، واکنش طبیعی نشان میدهد. این پایبندی به قوانین فیزیکی در شبیهسازیهای پیچیدهتر، از شناوری اجسام روی آب تا انعطافپذیری مواد مختلف نیز مشهود است.
آخرین و شاید مهمترین ویژگی Sora ۲، توانایی آن در فهم دستورهای متنی چندوجهی است. مدل اکنون میتواند دستورهایی را که شامل چندین شخصیت، تعاملات متقابل، توصیفهای دقیق از محیط و زمانبندی رویدادها هستند، به یک صحنهی ویدیویی منسجم و منطقی تبدیل کند. بهاینترتیب، کاربر میتواند روایتهای چندلایه و سینماییتری را خلق کند، بیآنکه مدل دچار ابهام یا حذف جزئیات شود.
اوپنایآی تصمیم دارد سورا ۲ را با رویکردی متفاوت از گذشته منتشر کند. برخلاف بسیاری از مدلهای پیشین که از طریق API در اختیار توسعهدهندگان قرار میگرفتند، این بار محصول در قالب یک اپلیکیشن اجتماعی مستقل با نام «Sora» برای سیستمعامل iOS منتشر شده است.
این اپلیکیشن که در فاز اول بهصورت دعوتنامهای و فقط در ایالات متحده و کانادا در دسترس کاربران قرار میگیرد، میخواهد بهجای «مصرف محتوا» روی «خلق محتوا» تمرکز داشته باشد. کاربران میتوانند ویدیوهای خود را بسازند، آثار دیگران را ریمیکس کنند و در یک فید قابلشخصیسازی، محتواهای جدید را کشف نمایند.
OpenAI برای نخستینبار مدل خود را در قالب یک اپلیکیشن اجتماعی منتشر میکند.
مهمترین ویژگی این اپلیکیشن، Cameos است که همانطور که در ادامه توضیح میدهیم به کاربران امکان خواهد داد با دوستان خود به شیوهای جدید و خلاقانه تعامل کنند.
این شرکت همچنین اعلام کرده است که الگوریتم فید این اپلیکیشن هم برای به این منظور بهینهسازی نشده که کاربر را مدتزمان بیشتری نگه دارد، بلکه اولویت آن نمایش محتوایی است که الهامبخش ساخت آثار جدید باشد. رویکرد فعلی در تضاد با مدل کسبوکار بسیاری از پلتفرمهای اجتماعی امروزی قرار میگیرد.
در حال حاضر، استفاده از اپلیکیشن رایگان است، اما OpenAI اشاره کرده که ممکن است در آینده برای تولید ویدیوهای اضافی، هزینهای از کاربران دریافت کند تا بتواند هزینههای محاسباتی سنگین این مدل را مدیریت نماید.
یکی از نوآورانهترین و درعینحال بحثبرانگیزترین ویژگیهای سورا ۲ را در قابلیتی به نام Cameo تجربه میکنیم؛ امکانی که به کاربران اجازه میدهد چهره، صدای خود یا افراد دیگر، از دوستان گرفته تا حیوانات خانگی و اشیای واقعی را مستقیماً به صحنههای تولیدشده توسط هوش مصنوعی «تزریق کنند».
کاربران برای استفاده از Cameos باید ویدیو و صدای کوتاهی از خود را ضبط کنند تا هویتشان تأیید شود.
بدین منظور کاربران باید ابتدا از طریق اپلیکیشن، ویدیو و صدای کوتاهی از خود را ضبط کنند تا هویتشان تأیید شود و مدل هم بتواند ظاهر و صدای آنها را یاد بگیرد. پس از این مرحله، کاربر میتواند نسخهی دیجیتال خود را به هر محیطی که سورا ۲ میسازد، وارد کند. استفاده از چهره دیگر افراد نیز مستلزم اجازه آنها خواهد بود.
قابلیت کامئو، سورا ۲ را از یک ابزار تولید محتوای صرف به پلتفرمی تعاملی و اجتماعی تبدیل میکند. برای نمونه، کاربر میتواند خود را در حال قدمزدن در شهری با حالوهوای سایبرپانک یا گفتوگو با یک شخصیت تاریخی بازسازیشده مشاهده کند.
به گفتهی OpenAI، این قابلیت بهگونهای طراحی شده که کاربر کنترل کاملی بر روی نسخهی دیجیتال خود داشته باشد و بتواند در هر زمان دسترسی مدل به آن را لغو یا ویدیوهای خود را حذف کند.
اولین نسخه سورا در سال ۲۰۲۴ بیشتر بهعنوان «اثبات مفهومی» عمل میکرد؛ مدلی برای نشاندادن اینکه یک سیستم زبانی میتواند ویدیوهای منسجم تولید کند. اما نسخه جدید را میتوانیم نتیجهی بازنگری کامل در هدف و معماری این پروژه بدانیم.
نسل اول سورا عمدتاً برای تولید کلیپهای کوتاه و تکنما بر اساس دستورات ساده طراحی شده بود و ویدیوهای کاملاً صامتی میساخت. ولی نسخهی جدید سیستم صوتی تصویری کاملی بهشمار میرود. بهعلاوه نسخهی اول در حفظ ثبات اشیا موفق بود، اما در شبیهسازی تعاملات فیزیکی پیچیده به چالش میخورد. مثلاً اجسام گاهی بیوزن بودند یا ناگهان از فریم حذف میشدند.
در نسل دوم، تمرکز از تولید فریمها به درک زمان، فضا و علیت تغییر یافته است.
حالا مدل دوم با دادههای بیشتر و معماری پیچیدهتر، قادر است تداوم فیزیکی و روابط علّی را حفظ کند. توپها واقعاً میغلتند، باد واقعاً موها را تکان میدهد، و اشیا به همان شکلی که باید در فضا واکنش نشان میدهند.
یکی دیگر از تفاوتهای مهم دو نسخه به درک متن و صحنه در سطوح چندگانه برمیگردد. در نسخهی قبلی، مدل تنها دستور مستقیم را دنبال میکرد، اما سورا ۲ میتواند چند دستور ترکیبی را همزمان درک کند. اگر کاربر بخواهد «زنی که در حال دویدن در جنگل است و همزمان صدای باران میشنود و دوربین از پشت سر او حرکت میکند» را بسازد، مدل میفهمد که باید سهلایهی حرکتی، صوتی و تصویری را هماهنگ کند؛ و شاید مهمتر از همه اینکه نسخهی اول سورا هرگز فراگیر نشد؛ درحالیکه آپدیت جدید نخستین نسخهی عمومی بهشمار میرود و همراه با اپلیکیشن اجتماعی جدید OpenAI برای iOS همهی کاربران عمومی را هدف قرار میدهد.
منبع: زومیت