داخل سباق Meta للتغلب على OpenAI: “نحن بحاجة إلى تعلم كيفية بناء الحدود والفوز بهذا السباق”

كشفت دعوى قضائية كبرى تتعلق بحقوق الطبع والنشر ضد شركة Meta عن مجموعة كبيرة من الاتصالات الداخلية حول خطط الشركة لتطوير نماذج الذكاء الاصطناعي مفتوحة المصدر، Llama، والتي تتضمن مناقشات حول تجنب “التغطية الإعلامية التي تشير إلى أننا استخدمنا مجموعة بيانات نعلم أنها مقرصنة”. تشير الرسائل، التي كانت جزءًا من سلسلة من المعروضات التي كشفت عنها محكمة في كاليفورنيا، إلى أن شركة ميتا استخدمت بيانات محمية بحقوق الطبع والنشر عند تدريب أنظمة الذكاء الاصطناعي الخاصة بها وعملت على إخفائها – بينما كانت تسابق للتغلب على المنافسين مثل OpenAI وMistral. أجزاء من تم الكشف عن الرسائل لأول مرة الأسبوع الماضي. في رسالة بريد إلكتروني في أكتوبر 2023 إلى باحث Meta AI هوغو توفرون، أحمد الدحلة، نائب رئيس Meta للذكاء الاصطناعي التوليدي، كتب أن هدف الشركة “يجب أن يكون GPT4″، في إشارة إلى نموذج اللغة الكبير OpenAI تم الإعلان عنها في مارس 2023. وأضاف الدهلي أن ميتا “كان عليه أن يتعلم كيفية بناء الحدود والفوز بهذا السباق”. يبدو أن تلك الخطط تضمنت موقع قرصنة الكتب Library Genesis (LibGen) لتدريب أنظمة الذكاء الاصطناعي الخاصة بها. ان بريد إلكتروني غير مؤرخ من مدير Meta للمنتج Sony Theakanath، التي تم إرسالها إلى نائب الرئيس لأبحاث الذكاء الاصطناعي جويل بينو، درست ما إذا كان سيتم استخدام LibGen داخليًا فقط، للمعايير المضمنة في منشور بالمدونة، أو لإنشاء نموذج تم تدريبه على الموقع. في رسالة البريد الإلكتروني، كتب ثياكاناث أنه “تمت الموافقة على GenAI لاستخدام LibGen لـ Llama3… مع عدد من عمليات التخفيف المتفق عليها” بعد تصعيدها إلى “MZ” – من المفترض أن يكون الرئيس التنفيذي لشركة Meta مارك زوكربيرج. كما هو مذكور في البريد الإلكتروني، يعتقد ثيكاناث أن “Libgen ضروري لتلبية أرقام SOTA (أحدث ما توصلت إليه التكنولوجيا)،” مضيفًا “من المعروف أن OpenAI وMistral يستخدمان المكتبة لنماذجهما (من خلال الكلام الشفهي).” ” لم يذكر Mistral وOpenAI ما إذا كانا يستخدمان LibGen أم لا. (تواصلت The Verge مع كليهما للحصول على مزيد من المعلومات). كتب Theakanath من Meta أن LibGen “ضروري” للوصول إلى “أرقام SOTA عبر جميع الفئات”. لقطة الشاشة: الحافة وثائق المحكمة تنبع من دعوى جماعية رفع هذا المؤلف ريتشارد كادري، والممثلة الكوميدية سارة سيلفرمان، وآخرون دعوى ضد شركة ميتا، متهمين إياها باستخدام محتوى محمي بحقوق الطبع والنشر تم الحصول عليه بشكل غير قانوني لتدريب نماذج الذكاء الاصطناعي الخاصة بها في انتهاك لقوانين الملكية الفكرية. وقد جادلت ميتا، مثل شركات الذكاء الاصطناعي الأخرى، بأن استخدام المواد المحمية بحقوق الطبع والنشر في بيانات التدريب يجب أن يشكل استخدامًا قانونيًا عادلاً. تواصلت The Verge مع Meta لطلب التعليق لكنها لم تتلق ردًا على الفور. تضمنت بعض “التخفيفات” لاستخدام LibGen شروطًا مفادها أنه يجب على Meta “إزالة البيانات التي تم وضع علامة عليها بوضوح على أنها مقرصنة/مسروقة”، مع تجنب الاستشهاد خارجيًا بـ “البيانات المقرصنة/ المسروقة”. استخدام أي بيانات تدريبية” من الموقع. ذكرت رسالة البريد الإلكتروني لـ Theakanath أيضًا أن الشركة ستحتاج إلى “الفريق الأحمر” لنماذج الشركة “للأسلحة البيولوجية ومخاطر CBRNE (الكيميائية والبيولوجية والإشعاعية والنووية والمتفجرات)”. كما تناول البريد الإلكتروني بعض “مخاطر السياسة” التي يشكلها استخدام LibGen أيضًا، بما في ذلك كيفية استجابة المنظمين للتغطية الإعلامية التي تشير إلى استخدام Meta للمحتوى المقرصن. وقالت الرسالة الإلكترونية: “قد يقوض هذا موقفنا التفاوضي مع المنظمين بشأن هذه القضايا”. محادثة أبريل 2023 بين باحث Meta نيكولاي باشليكوف وعضو فريق الذكاء الاصطناعي ديفيد إسيوبو أظهر أيضًا باشليكوف وهو يعترف بأنه “غير متأكد من قدرتنا على استخدام عناوين IP الخاصة بـ meta للتحميل من خلال السيول (لمحتوى القراصنة).”وثائق داخلية أخرى عرض الإجراءات التي اتخذتها Meta لإخفاء معلومات حقوق الطبع والنشر في بيانات تدريب LibGen. تُظهر وثيقة بعنوان “الملاحظات على LibGen-SciMag” التعليقات التي تركها الموظفون حول كيفية تحسين مجموعة البيانات. أحد الاقتراحات هو “إزالة المزيد من رؤوس حقوق النشر ومعرفات المستندات”، والتي تتضمن أي أسطر تحتوي على “رقم ISBN” أو “حقوق النشر” أو “جميع الحقوق محفوظة” أو رمز حقوق النشر. تشير ملاحظات أخرى إلى أخذ المزيد من البيانات الوصفية “لتجنب التعقيدات القانونية المحتملة”، بالإضافة إلى النظر في إزالة قائمة مؤلفي الورقة البحثية “لتقليل المسؤولية”. وتناقش الوثيقة إزالة “رؤوس حقوق الطبع والنشر ومعرفات المستندات”. لقطة الشاشة: The Verge في يونيو الماضي، صحيفة نيويورك تايمز ذكرت في السباق المحموم داخل Meta بعد ظهور ChatGPT لأول مرة، تم الكشف عن أن الشركة قد اصطدمت بحائط: لقد استهلكت تقريبًا كل كتاب ومقالة وقصيدة باللغة الإنجليزية متاحة يمكنها العثور عليها عبر الإنترنت. في محاولة يائسة للحصول على المزيد من البيانات، ورد أن المديرين التنفيذيين ناقشوا شراء سايمون آند شوستر بشكل مباشر وفكروا في التعاقد مع مقاولين في أفريقيا لتلخيص الكتب دون إذن. في التقرير، برر بعض المديرين التنفيذيين نهجهم من خلال الإشارة إلى “سابقة السوق” لشركة OpenAI في استخدام الأعمال المحمية بحقوق الطبع والنشر، في حين جادل آخرون انتصار جوجل القضائي في عام 2015 ينص على حقها في مسح الكتب ضوئيًا يمكن أن توفر الغطاء القانوني. قال أحد المسؤولين التنفيذيين في اجتماع لصحيفة نيويورك تايمز: “الشيء الوحيد الذي يمنعنا من أن نكون جيدين مثل ChatGPT هو حجم البيانات فقط”. وقد ورد أن المختبرات الحدودية مثل OpenAI وAnthropic قد اصطدمت بجدار البيانات، وهو ما يعني أنه ليس لديهم بيانات جديدة كافية لتدريب نماذجهم اللغوية الكبيرة. وقد نفى العديد من القادة ذلك، ومن بينهم سام ألتمان، الرئيس التنفيذي لشركة OpenAI قال بوضوح:”ليس هناك جدار.” المؤسس المشارك لـ OpenAI إيليا سوتسكيفر، الذي غادر الشركة في شهر مايو الماضي لبدء مختبر حدودي جديد، كان الأمر أكثر وضوحًا فيما يتعلق بإمكانيات جدار البيانات. في مؤتمر الذكاء الاصطناعي الأول الشهر الماضيوقال سوتسكيفر: “لقد حققنا ذروة البيانات ولن يكون هناك المزيد. علينا أن نتعامل مع البيانات التي لدينا. “هناك إنترنت واحد فقط.” وقد أدت ندرة البيانات هذه إلى ظهور مجموعة كبيرة من الطرق الغريبة والجديدة للحصول على بيانات فريدة. بلومبرج ذكرت أن المختبرات الحدودية مثل OpenAI وGoogle كانت تدفع لمنشئي المحتوى الرقمي ما بين 1 إلى 4 دولارات في الدقيقة مقابل لقطات الفيديو غير المستخدمة من خلال طرف ثالث من أجل تدريب حاملي شهادة الماجستير في القانون (تمتلك كلتا الشركتين منتجات منافسة لتوليد الفيديو بتقنية الذكاء الاصطناعي). مع الشركات مثل Meta وOpenAI اللذان يأملان في تطوير أنظمة الذكاء الاصطناعي الخاصة بهما في أسرع وقت ممكن، لا بد أن تصبح الأمور فوضوية بعض الشيء. رغم ذلك رفض القاضي جزئيًا الدعوى الجماعية التي رفعها كادري وسيلفرمان دعوى قضائية العام الماضي، فإن الأدلة الموضحة هنا يمكن أن تعزز أجزاء من قضيتهم أثناء المضي قدمًا في المحكمة.

المصدر

ترك الرد إلغاء الرد

من فضلك ادخل تعليقك

من فضلك ادخل اسمك هنا

لقد أدخلت عنوان بريد إلكتروني غير صحيح!

الرجاء إدخال عنوان بريدك الإلكتروني هنا

CAPTCHA

Please input characters displayed above.

الكاتب

إقرأ أيضا

يبدو أن جهاز iPad Air الجديد المزود بشريحة M3 قادم

توفر المناظير المستقرة الجديدة من Fujifilm المزيد من التكبير/التصغير

سيكون ارتفاع أسعار عائلة Samsung Galaxy S25 محدودًا

هاتف «أونر ماجيك 7 برو» يرفع معايير الذكاء الاصطناعي بأشواط

كاميرات مدعومة بالذكاء الاصطناعي لتنبيه «السائق النعسان»

داخل سباق Meta للتغلب على OpenAI: “نحن بحاجة إلى تعلم كيفية بناء الحدود والفوز بهذا السباق”

ترك الرد إلغاء الرد

إقرأ أيضاً

يبدو أن جهاز iPad Air الجديد المزود بشريحة M3 قادم

توفر المناظير المستقرة الجديدة من Fujifilm المزيد من التكبير/التصغير

سيكون ارتفاع أسعار عائلة Samsung Galaxy S25 محدودًا

القائمة

الأكثر شهرة

يبدو أن جهاز iPad Air الجديد المزود بشريحة M3 قادم

توفر المناظير المستقرة الجديدة من Fujifilm المزيد من التكبير/التصغير

أحدث المقالات

يبدو أن جهاز iPad Air الجديد المزود بشريحة M3 قادم

توفر المناظير المستقرة الجديدة من Fujifilm المزيد من التكبير/التصغير

What would make this website better?