اختبار صعب للغاية ولا يستطيع أي نظام ذكاء اصطناعي اجتيازه – حتى الآن
إذا كنت تبحث عن سبب جديد للقلق بشأن الذكاء الاصطناعي، فجرّب ما يلي: يكافح بعض أذكى البشر في العالم لإنشاء اختبارات لا تستطيع أنظمة الذكاء الاصطناعي اجتيازها. لسنوات، تم قياس أنظمة الذكاء الاصطناعي من خلال إعطاء معلومات جديدة نماذج متنوعة من الاختبارات المرجعية الموحدة. يتألف العديد من هذه الاختبارات من مسائل صعبة من عيار SAT في مجالات مثل الرياضيات والعلوم والمنطق. كانت مقارنة درجات النماذج مع مرور الوقت بمثابة مقياس تقريبي لتقدم الذكاء الاصطناعي. لكن أنظمة الذكاء الاصطناعي أصبحت في نهاية المطاف جيدة جدًا في تلك الاختبارات، لذلك تم إنشاء اختبارات جديدة أصعب – غالبًا مع أنواع الأسئلة التي قد يواجهها طلاب الدراسات العليا في امتحاناتهم. الاختبارات ليست في حالة جيدة أيضًا. حصلت النماذج الجديدة من شركات مثل OpenAI وGoogle وAnthropic على درجات عالية في العديد من التحديات على مستوى الدكتوراه، مما يحد من فائدة تلك الاختبارات ويؤدي إلى سؤال مخيف: هل أصبحت أنظمة الذكاء الاصطناعي أذكى من أن نتمكن من قياسها؟ هذا الأسبوع أصدر الباحثون في مركز سلامة الذكاء الاصطناعي ومقياس الذكاء الاصطناعي إجابة محتملة لهذا السؤال: تقييم جديد يسمى “الاختبار الأخير للإنسانية”، والذي يزعمون أنه أصعب اختبار يتم إجراؤه على الإطلاق لأنظمة الذكاء الاصطناعي. الاختبار الأخير للإنسانية هو من بنات أفكار دان هندريكس، وهو باحث معروف في مجال سلامة الذكاء الاصطناعي ومدير مركز سلامة الذكاء الاصطناعي. (تم تجاهل الاسم الأصلي للاختبار، “الموقف الأخير للإنسانية”، لأنه مثير للغاية). عمل هيندريكس مع شركة Scale AI، وهي شركة تعمل في مجال الذكاء الاصطناعي، لتجميع الاختبار، الذي يتكون من ما يقرب من 3000 سؤال متعدد الخيارات وإجابة قصيرة مصممة لاختبار قدرات أنظمة الذكاء الاصطناعي في مجالات تتراوح من الفلسفة التحليلية إلى هندسة الصواريخ. تم تقديمها من قبل خبراء في هذه المجالات، بما في ذلك أساتذة الجامعات وعلماء الرياضيات الحائزين على جوائز، والذين طُلب منهم طرح أسئلة صعبة للغاية يعرفون إجاباتها. هنا، جرب يدك على سؤال حول تشريح الطائر الطنان من الاختبار: تتمتع الطيور الطنانة ضمن Apodiformes بشكل فريد بعظم بيضاوي مزدوج، وهو سمسماني مدمج في الجزء الذيلي الجانبي من الصفاق الصليبي الموسع لإدخال m. ذيل الخافض. كم عدد الأوتار المزدوجة التي يدعمها هذا العظم السمسماني؟ أجب برقم. أو، إذا كانت الفيزياء هي سرعتك أكثر، جرب هذا: يتم وضع كتلة على سكة أفقية، يمكن أن تنزلق على طولها دون احتكاك. تم ربطه بطرف قضيب صلب عديم الكتلة طوله R. وتم توصيل كتلة في الطرف الآخر. كلا الجسمين لهما وزن W. النظام في البداية ثابت، مع الكتلة مباشرة فوق الكتلة. يتم إعطاء الكتلة دفعة متناهية الصغر، موازية للسكة. افترض أن النظام مصمم بحيث يمكن للقضيب أن يدور 360 درجة كاملة دون انقطاع. عندما يكون القضيب أفقيا، فإنه يحمل الشد T1. عندما يصبح القضيب عموديًا مرة أخرى، وتكون الكتلة أسفل الكتلة مباشرةً، فإنه يحمل الشد T2. (يمكن أن تكون هاتان الكميتان سالبتين، مما يشير إلى أن القضيب في حالة ضغط.) ما قيمة (T1−T2)/W؟ (سأطبع الإجابات هنا، لكن هذا من شأنه أن يفسد الاختبار لأي أنظمة ذكاء اصطناعي يتم تدريبي على هذا العمود أيضًا، فأنا غبي جدًا لدرجة أنني لا أستطيع التحقق من الإجابات بنفسي.) مرت الأسئلة في الاختبار الأخير للإنسانية بعملية تصفية من خطوتين. أولاً، تم تقديم الأسئلة المقدمة إلى نماذج الذكاء الاصطناعي الرائدة لحلها. إذا لم تتمكن النماذج من الإجابة عليها (أو، في حالة أسئلة الاختيار من متعدد، كان أداء النماذج أسوأ من التخمين العشوائي)، تم إعطاء الأسئلة إلى أ مجموعة من المراجعين البشريين، الذين قاموا بتنقيحها والتحقق من الإجابات الصحيحة. تم دفع ما بين 500 إلى 5000 دولار للخبراء الذين كتبوا الأسئلة ذات التصنيف الأعلى لكل سؤال، بالإضافة إلى الحصول على رصيد للمساهمة في الامتحان. وقد قدم كيفن تشو، باحث ما بعد الدكتوراه في فيزياء الجسيمات النظرية بجامعة كاليفورنيا، بيركلي، مجموعة من الأسئلة للاختبار. تم اختيار ثلاثة من أسئلته، وأخبرني أن جميعها كانت “تقع ضمن النطاق الأعلى لما قد يراه المرء في امتحان الدراسات العليا”. قال السيد هندريكس، الذي ساعد في إنشاء اختبار الذكاء الاصطناعي المستخدم على نطاق واسع والمعروف باسم فهم اللغة متعدد المهام الضخم، أو MMLU، إنه كان مصدر إلهام لإنشاء اختبارات أصعب للذكاء الاصطناعي من خلال محادثة مع إيلون ماسك. (السيد هندريكس هو أيضًا مستشار السلامة لشركة السيد ماسك للذكاء الاصطناعي، xAI.) وقال إن السيد ماسك أثار مخاوف بشأن الاختبارات الحالية المقدمة لنماذج الذكاء الاصطناعي، والتي كان يعتقد أنها سهلة للغاية. “نظر إيلون إلى MMLU الأسئلة وقال: “هذه هي المرحلة الجامعية.” قال السيد هندريكس: “أريد أشياء يمكن لخبير عالمي القيام بها”. وهناك اختبارات أخرى تحاول قياس قدرات الذكاء الاصطناعي المتقدمة في مجالات معينة، مثل FrontierMath، وهو اختبار طورته Epoch AI، و ARC-AGI، وهو اختبار طوره باحث الذكاء الاصطناعي فرانسوا شوليه. لكن الاختبار الأخير للإنسانية يهدف إلى تحديد مدى جودة أنظمة الذكاء الاصطناعي في الإجابة على أسئلة معقدة عبر مجموعة واسعة من المواضيع الأكاديمية، مما يمنحنا ما يمكن اعتباره درجة ذكاء عامة. قال السيد هندريكس: “أتمتة الكثير من العمل الفكري الصعب حقًا”. وبمجرد تجميع قائمة الأسئلة، قدم الباحثون اختبار Humanity's Last Exam إلى ستة نماذج رائدة في مجال الذكاء الاصطناعي، بما في ذلك Gemini 1.5 Pro من Google وAnthropic's كلود 3.5 السوناتة. كلهم فشلوا فشلا ذريعا. سجل نظام o1 الخاص بشركة OpenAI أعلى نسبة في المجموعة، حيث حصل على 8.3%. (صحيفة نيويورك تايمز رفع دعوى قضائية ضد تتهمهم شركة OpenAI وشريكتها Microsoft بانتهاك حقوق الطبع والنشر للمحتوى الإخباري المتعلق بأنظمة الذكاء الاصطناعي. وقد أنكرت شركتا OpenAI وMicrosoft هذه الادعاءات). وقال هندريكس إنه يتوقع أن ترتفع هذه الدرجات بسرعة، ومن المحتمل أن تتجاوز 50 في المائة بحلول نهاية العام. وقال إنه في تلك المرحلة، يمكن اعتبار أنظمة الذكاء الاصطناعي “كهنة من الطراز العالمي”، قادرة على الإجابة على الأسئلة حول أي موضوع بشكل أكثر دقة من الخبراء البشريين. وقد يتعين علينا أن نبحث عن طرق أخرى لقياس تأثيرات الذكاء الاصطناعي، مثل النظر إلى البيانات الاقتصادية أو الحكم على ما إذا كان بإمكانه تحقيق اكتشافات جديدة في مجالات مثل الرياضيات والعلوم. “يمكنك أن تتخيل نسخة أفضل من هذا حيث يمكننا طرح الأسئلة التي يمكننا الإجابة عليها”. قالت سمر يو، مديرة الأبحاث في Scale AI ومنظم الاختبار: “لا نعرف الإجابات حتى الآن، ونحن قادرون على التحقق مما إذا كان النموذج قادرًا على المساعدة في حل المشكلة بالنسبة لنا”. جزء من الأمر المربك للغاية حول تقدم الذكاء الاصطناعي هذه الأيام هو كم هو خشنة. لدينا نماذج ذكاء اصطناعي قادرة على ذلك تشخيص الأمراض بشكل أكثر فعالية من الأطباء البشر, الفوز بالميداليات الفضية في أولمبياد الرياضيات الدولي و التغلب على كبار المبرمجين البشريين حول تحديات البرمجة التنافسية. لكن هذه النماذج نفسها تواجه أحيانًا صعوبة في أداء المهام الأساسية، مثل الحساب أو كتابة الشعر الموزون. لقد منحهم ذلك سمعة بأنهم بارعون بشكل مذهل في بعض الأشياء وغير مجدين تمامًا في أشياء أخرى، وقد خلق انطباعات مختلفة تمامًا عن مدى سرعة تحسن الذكاء الاصطناعي، اعتمادًا على ما إذا كنت تنظر إلى أفضل النتائج أو أسوأها. كما أن هذه الخشونة جعلت قياس هذه النماذج أمرًا صعبًا. لقد كتبت ذلك العام الماضي نحن بحاجة إلى تقييمات أفضل لأنظمة الذكاء الاصطناعي. ما زلت أعتقد ذلك. لكنني أعتقد أيضًا أننا بحاجة إلى أساليب أكثر إبداعًا لتتبع تقدم الذكاء الاصطناعي، والتي لا تعتمد على اختبارات موحدة، لأن معظم ما يفعله البشر – وما نخشى أن يفعله الذكاء الاصطناعي بشكل أفضل منا – لا يمكن تسجيله في اختبار كتابي. .السيد. أخبرني تشو، الباحث في فيزياء الجسيمات النظرية الذي قدم أسئلة إلى الاختبار الأخير للإنسانية، أنه على الرغم من أن نماذج الذكاء الاصطناعي كانت مثيرة للإعجاب في كثير من الأحيان في الإجابة على الأسئلة المعقدة، إلا أنه لم يعتبرها تهديدًا له ولزملائه، لأن وظائفهم تنطوي على أكثر من مجرد طرح الإجابات الصحيحة. وقال: “هناك فجوة كبيرة بين ما يعنيه إجراء الاختبار وما يعنيه أن تكون فيزيائيًا وباحثًا ممارسًا”. “حتى الذكاء الاصطناعي الذي يمكنه الإجابة على هذه الأسئلة قد لا يكون جاهزًا للمساعدة في البحث، وهو بطبيعته أقل تنظيمًا.” (وسومللترجمة)الذكاء الاصطناعي(ر)الابتكار(ر)الأبحاث(ر)مركز سلامة الذكاء الاصطناعي (CAIS)
المصدر