تستخدم أداة الذكاء الاصطناعي الجديدة من Google DeepMind وحدات بكسل الفيديو والمطالبات النصية لإنشاء مقاطع صوتية
جوجل ديب مايند لقد أزال الأغطية أداة جديدة للذكاء الاصطناعي لإنشاء مقاطع صوتية للفيديو. بالإضافة إلى استخدام مطالبة نصية لتوليد الصوت، تأخذ أداة DeepMind أيضًا في الاعتبار محتويات الفيديو. ومن خلال الجمع بين الاثنين، تقول DeepMind أنه يمكن للمستخدمين استخدام الأداة لإنشاء مشاهد ذات “درجة درامية أو مؤثرات صوتية واقعية أو حوار يطابق شخصيات ونبرة الفيديو.” يمكنك رؤية بعض الأمثلة المنشورة على موقع DeepMind الإلكتروني، وهي تبدو جيدة جدًا فيديو لسيارة تسير عبر مناظر المدينة الشبيهة بالسايبربانك، استخدمت Google العبارة السريعة “انزلاق السيارات، واختناق محرك السيارة، والموسيقى الإلكترونية الملائكية” لتوليد الصوت. يمكنك أن ترى كيف تتوافق أصوات الانزلاق مع حركة السيارة. آخر المثال يخلق مشهد صوتي تحت الماء باستخدام الموجه، “قنديل البحر ينبض تحت الماء، الحياة البحرية، المحيط.” على الرغم من أنه يمكن للمستخدمين تضمين مطالبة نصية، إلا أن DeepMind تقول إنها اختيارية. لا يحتاج المستخدمون أيضًا إلى مطابقة الصوت الذي تم إنشاؤه بدقة مع المشاهد المناسبة. وفقًا لـ DeepMind، يمكن للأداة أيضًا إنشاء عدد “غير محدود” من المقاطع الصوتية لمقاطع الفيديو، مما يسمح للمستخدمين بالتوصل إلى دفق لا نهاية له من خيارات الصوت. وقد يساعد ذلك في التميز عن أدوات الذكاء الاصطناعي الأخرى، مثل مولد المؤثرات الصوتية من ElevenLabs، والذي يستخدم المطالبات النصية لإنشاء الصوت. يمكن أن يسهل أيضًا إقران الصوت بالفيديو الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من أدوات مثل ديب مايند فيو و سورا (وتخطط الأخيرة لدمج الصوت في نهاية المطاف). وتقول شركة DeepMind إنها قامت بتدريب أداة الذكاء الاصطناعي الخاصة بها على الفيديو والصوت والتعليقات التوضيحية التي تحتوي على “أوصاف تفصيلية للصوت ونصوص الحوار المنطوق”. يسمح هذا لمولد الفيديو إلى الصوت بمطابقة الأحداث الصوتية مع المشاهد المرئية. لا تزال الأداة بها بعض القيود. على سبيل المثال، يحاول DeepMind تحسين قدرته على مزامنة حركة الشفاه مع الحوار، كما ترون في هذا فيديو لعائلة الطين. تشير DeepMind أيضًا إلى أن نظام تحويل الفيديو إلى الصوت الخاص بها يعتمد على جودة الفيديو، لذا فإن أي شيء محبب أو مشوه “يمكن أن يؤدي إلى انخفاض ملحوظ في جودة الصوت”.
المصدر