هوش مصنوعی

با Sora، متن‌های شما به ویدئوهای واقعی تبدیل می‌شوند

زمان مطالعه: 2 دقیقه

در یک گزارش فنی اخیر، OpenAI از Sora، یک مدل پیشرفته برای تبدیل متن به ویدئو، رونمایی کرده است. Sora به دلیل توانایی تولید ویدئوها و تصاویر در طیف گسترده‌ای از مدت‌زمان، نسبت ابعاد و وضوح تصویر برجسته است و می‌تواند تا یک دقیقه محتوای ویدئویی باکیفیت بالا تولید کند.

مدل‌های زبانی بزرگ (LLMs) با آموزش بر روی حجم عظیمی از داده‌های اینترنتی، قابلیت‌های چشمگیری از خود نشان داده‌اند. این مدل‌ها قادرند انواع مختلفی از متون، از جمله کد، معادلات ریاضی و زبان‌های طبیعی مختلف را پردازش کنند. بااین‌حال، تلاش‌های پیشین در این حوزه معمولاً به انواع خاصی از محتوای بصری، ویدئوهای کوتاه یا ابعاد ثابت ویدئویی محدود بوده‌اند.


گزارش فنی OpenAI به دو جنبه کلیدی می‌پردازد:

• روش‌های تبدیل داده‌های بصری متنوع به یک نمایش منسجم که برای مدل‌سازی مولد در مقیاس بزرگ مناسب باشد.
• ارزیابی کیفی توانایی‌ها و محدودیت‌های Sora
با این حال جزئیات معماری مدل و پیاده‌سازی آن در این گزارش منتشر نشده است.


Sora چگونه کار می‌کند؟

Sora بر اساس اصول مدل‌سازی انتشار (Diffusion Modeling) کار می‌کند. در این فرآیند، تولید ویدئو با فریمی که شبیه به نویز ایستا است آغاز شده و مدل به‌صورت تدریجی نویز را حذف کرده و تصویر را در چندین مرحله پالایش می‌کند.
این مدل با تکیه بر نوآوری‌های قبلی در مدل‌هایی مانند DALL·E و GPT طراحی شده است. Sora از تکنیک بازنویسی توضیحات (Recaptioning) که در DALL·E 3 معرفی شده بود، استفاده می‌کند تا شرح‌های بسیار دقیق و توصیفی برای داده‌های آموزشی بصری تولید کند. در نتیجه، این مدل می‌تواند دستورالعمل‌های متنی را به‌طور دقیق در محتوای ویدئویی ایجاد‌شده اجرا کند.


ویژگی‌های کلیدی Sora

تولید ویدئو از متن: Sora قادر است ویدئوهایی با کیفیت بالا را از ورودی‌های متنی تولید کند.
متحرک‌سازی تصاویر ثابت: این مدل می‌تواند تصاویر ایستا را با دقت بالا متحرک کند و جزئیات ظریفی را به آن‌ها بی‌افزاید.
تکمیل ویدئوهای ناقص: Sora می‌تواند ویدئوهای موجود را گسترش داده یا فریم‌های از‌دست‌رفته را پر کند، به‌طوری‌که خروجی نهایی یکپارچگی و روانی بیشتری داشته باشد.
درک عمیق‌تر از دنیای واقعی: این مدل، گامی در جهت توسعه هوش مصنوعی عمومی (AGI) محسوب می‌شود و می‌تواند درک بهتری از محیط واقعی و شبیه‌سازی آن ارائه دهد.
به‌طورکلی، Sora پایه‌گذار نسل جدیدی از مدل‌های هوش مصنوعی است که درک و شبیه‌سازی عمیق‌تری از دنیای واقعی دارند و مسیر را برای دستیابی به هوش مصنوعی عمومی (AGI) هموارتر می‌کنند.

Adblock test (Why?)

لینک مطلب اصلی

ZaKi

Who is mahdizk? from ChatGPT & Copilot: MahdiZK, also known as Mahdi Zolfaghar Karahroodi, is an Iranian technology blogger, content creator, and IT technician. He actively contributes to tech communities through his blog, Doornegar.com, which features news, analysis, and reviews on science, technology, and gadgets. Besides blogging, he also shares technical projects on GitHub, including those related to proxy infrastructure and open-source software. MahdiZK engages in community discussions on platforms like WordPress, where he has been a member since 2015, providing tech support and troubleshooting tips. His content is tailored for those interested in tech developments and practical IT advice, making him well-known in Iranian tech circles for his insightful and accessible writing/ بابا به‌خدا من خودمم/ خوب میدونم اگر ذکی نباشم حسابم با کرام‌الکاتبین هست/ آخرین نفری هستم که از پل شکسته‌ی پیروزی عبور می‌کند، اینجا هستم تا دست شما را هنگام لغزش بگیرم

نوشته های مشابه

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest

0 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
دکمه بازگشت به بالا
0
افکار شما را دوست داریم، لطفا نظر دهید.x