با Sora، متن‌های شما به ویدئوهای واقعی تبدیل می‌شوند

زمان مطالعه: 2 دقیقه

در یک گزارش فنی اخیر، OpenAI از Sora، یک مدل پیشرفته برای تبدیل متن به ویدئو، رونمایی کرده است. Sora به دلیل توانایی تولید ویدئوها و تصاویر در طیف گسترده‌ای از مدت‌زمان، نسبت ابعاد و وضوح تصویر برجسته است و می‌تواند تا یک دقیقه محتوای ویدئویی باکیفیت بالا تولید کند.

مدل‌های زبانی بزرگ (LLMs) با آموزش بر روی حجم عظیمی از داده‌های اینترنتی، قابلیت‌های چشمگیری از خود نشان داده‌اند. این مدل‌ها قادرند انواع مختلفی از متون، از جمله کد، معادلات ریاضی و زبان‌های طبیعی مختلف را پردازش کنند. بااین‌حال، تلاش‌های پیشین در این حوزه معمولاً به انواع خاصی از محتوای بصری، ویدئوهای کوتاه یا ابعاد ثابت ویدئویی محدود بوده‌اند.


گزارش فنی OpenAI به دو جنبه کلیدی می‌پردازد:

• روش‌های تبدیل داده‌های بصری متنوع به یک نمایش منسجم که برای مدل‌سازی مولد در مقیاس بزرگ مناسب باشد.
• ارزیابی کیفی توانایی‌ها و محدودیت‌های Sora
با این حال جزئیات معماری مدل و پیاده‌سازی آن در این گزارش منتشر نشده است.


Sora چگونه کار می‌کند؟

Sora بر اساس اصول مدل‌سازی انتشار (Diffusion Modeling) کار می‌کند. در این فرآیند، تولید ویدئو با فریمی که شبیه به نویز ایستا است آغاز شده و مدل به‌صورت تدریجی نویز را حذف کرده و تصویر را در چندین مرحله پالایش می‌کند.
این مدل با تکیه بر نوآوری‌های قبلی در مدل‌هایی مانند DALL·E و GPT طراحی شده است. Sora از تکنیک بازنویسی توضیحات (Recaptioning) که در DALL·E 3 معرفی شده بود، استفاده می‌کند تا شرح‌های بسیار دقیق و توصیفی برای داده‌های آموزشی بصری تولید کند. در نتیجه، این مدل می‌تواند دستورالعمل‌های متنی را به‌طور دقیق در محتوای ویدئویی ایجاد‌شده اجرا کند.


ویژگی‌های کلیدی Sora

تولید ویدئو از متن: Sora قادر است ویدئوهایی با کیفیت بالا را از ورودی‌های متنی تولید کند.
متحرک‌سازی تصاویر ثابت: این مدل می‌تواند تصاویر ایستا را با دقت بالا متحرک کند و جزئیات ظریفی را به آن‌ها بی‌افزاید.
تکمیل ویدئوهای ناقص: Sora می‌تواند ویدئوهای موجود را گسترش داده یا فریم‌های از‌دست‌رفته را پر کند، به‌طوری‌که خروجی نهایی یکپارچگی و روانی بیشتری داشته باشد.
درک عمیق‌تر از دنیای واقعی: این مدل، گامی در جهت توسعه هوش مصنوعی عمومی (AGI) محسوب می‌شود و می‌تواند درک بهتری از محیط واقعی و شبیه‌سازی آن ارائه دهد.
به‌طورکلی، Sora پایه‌گذار نسل جدیدی از مدل‌های هوش مصنوعی است که درک و شبیه‌سازی عمیق‌تری از دنیای واقعی دارند و مسیر را برای دستیابی به هوش مصنوعی عمومی (AGI) هموارتر می‌کنند.

Adblock test (Why?)

لینک مطلب اصلی


منتشر شده

در

توسط

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

0
افکار شما را دوست داریم، لطفا نظر دهید.x