هوش مصنوعی سورا (Sora) چیست؟
با ویدئوساز جدید شرکت OpenAI آشنا هستید؟ باز هم این شرکت هوش مصنوعی، همه را غافلگیر کرد و ویدئوساز حرفهای سورا (Sora) را معرفی کرد. ویدئوهای حاصل از این ابزار، بسیار واقعی هستند تا حدی که تشخیص آنها از فیلم ضبط شده بسیار سخت است.
سورا دارای معماری مبدل (transformer architecture) است؛ یعنی عملکرد شبکه عصبی آن مشابه چت جی پی تی (ChatGPT) است. شرکت OpenAI با عرضه این فناوری میخواهد آینده هوش مصنوعی را متحول کند.
این مدل هوش مصنوعی برای تبدیل متن به ویدئو«Text-to-Video» طراحی شده است. سورا پیامهای متنی را دریافت میکند و آنها را به کلیپهای ویدیویی کوتاه تبدیل میکند. مجموعه ویدئوهای جدید OpenAI واقعاً نفس گیر هستند. به ویدئو زیر نگاه کنید:
OpenAI در بلاگ پست اخیرش، این گونه توضیح میدهد: «سورا میتواند صحنههای پیچیده با شخصیتهای متعدد، انواع حرکت خاص و جزئیات دقیق سوژه و پسزمینه را تولید کند.» این مدل هوش مصنوعی، محتوای متنی که کاربر درخواست کرده را میفهمد و چگونگی وجود آن چیزها در دنیای واقعی را تشخیص میدهد.
مطلب پیشنهادی: لیست ابزارهای هوش مصنوعی
حالا چه کسانی به سورا دسترسی دارند؟
سورا در حال حاضر از جانب محققان امنیتی در حال بررسی است. آنها باید از ایمن بودن آن قبل از انتشار عمومی، اطمینان پیدا کنند و خطرات حیاتی را ارزیابی نمایند.
با این حال، به گفته OpenAI، گروه کوچکی از هنرمندان تجسمی، فیلمسازان و طراحان نیز به Sora دسترسی دارند. ولی نامی از هیچ هنرمند یا طراحی برده نشده است.
به نقل از برخی اکانتهای موجود در انجمن OpenAI، لیست انتظار تکمیل خواهد شد که اولین فرصت برای دستیابی به این فناوری است. اما زمان دقیق ثبت نام عمومی برای استفاده از Sora مشخص نیست.
بنابراین تا به حال، تاریخ انتشاری برای سورا اعلام نشده است. تمام محتوایی که در اینترنت پخش شده هم از بلاگ پست شرکت OpenAI گرفته شده است. این شرکت حتی نشانهای مبهم از زمان احتمالی یا نشانهای مبنی بر عرضه آن در سال جاری را بروز نداده است.
با توجه به سرعتی که هوش مصنوعی در دوسال اخیر داشته، پس زمان عرضه عمومی این فناوری هم چندان دور نیست.
چه انتظاری از Sora میرود؟
امنیت ساخت ویدیو با هوش مصنوعی باید به خوبی برررسی شود؛ چون مسائل اخلاقی زیادی را در بر دارد. شرکت OpenAI چند گام امنیتی مهم را قبل از عرضه عمومی سورا در پیش دارد. آنها با متخصصان کارکشته و تیم امنیت سایبری همکاری دارند تا این فناوری را از نظر ارائه اطلاعات نادرست (misinformation)، انتشار محتوای نفرت انگیز (hateful content) و تبعیض آمیز (bias )، تست کنند.
همچنین به گفته OpenAI این شرکت در حال کار روی فناوری تشخیص ویدیو با هوش مصنوعی است تا تشخیص دهد که آیا یک ویدیو را سورا ساخته یا نه؟
این مرحله مشابه اتفاقی است که پس از راهاندازی ChatGPT افتاد و این شرکت هوش مصنوعی، فناوری طبقهبندی کننده متن (text classifier) را راهاندازی کرد که البته بعداً به دلیل ناکارآمدی کنار گذاشته شد. وقتی آن را تست کردند تا ببینند که میتواند سرقت ادبی ChatGPT را پیدا کند، حتی قادر به تشخیص محتوای تولید شده توسط خودش هم نبود!
مطلب پیشنهادی: هوش مصنوعی عمومی چیست؟
عملکرد سورا چگونه است؟
شرکت OpenAI اعلام کرده: «سورا نوعی مدل انتشاری (diffusion model) است که با یک ویدیو، شبیه به نویز استاتیک (static noise) آغاز شده و به تدریج با حذف نویز در طی مراحل مختلف، آن را تغییر میدهد».
این فناوری مشابه خانواده مدلهای زبانی GPT عمل میکند که ربات چت این شرکت، یعنی چت جی پی تی از آن بهره میبرد. همه آنها از معماری ترانسفورمر یا مبدل استفاده میکنند. این نوع از شبکه عصبی، ورودیها را میگیرد و آنها را به خروجی تبدیل میکند.
این مدل، درک عمیقی از زبان دارد تا بتواند درخواست کاربر را تفسیر کند و در نهایت کاراکترهای قانعکننده، پر احساس و فعال را بسازد. همچنین میتواند چندین عکس از ویدیوی ساخته شده بگیرد تا ثبات کاراکترها و سبک بصری را با دقت حفظ کند.
شرکت OpenAI ویدئوساز سورا را با کمک ویدیوها و تصاویری تغذیه کرده که آنها را واحدهای داده یا «patches» میداند. با یکپارچه سازی این دادهها میتوان اطلاعات بصری متفاوتی را از نظر بازه زمانی، وضوح و ابعاد فیلم در اختیار سورا قرار داد تا بیشتر از قبل آموزش ببیند.
مدل فعلی، نقطه ضعف هم دارد. شاید در شبیه سازی دقیق صحنههای پیچیده به مشکل خورده و موارد خاصی را نفهمد. به عنوان مثال، شاید فردی یک کلوچه را گاز بزند ولی جای گاز گرفتگی روی کلوچه نماند یا شاید جزئیات مکانی را اشتباه بگیرد؛ به عنوان مثال، چپ و راست را جابجا کند. در تصویر زیر حرکت نامناسب دونده، مشخص است.
مطلب پیشنهادی: هوش مصنوعی گوگل جمینی چیست؟
دیدگاه شما