النموذج الجديد من OpenAI أفضل في التفكير، وفي بعض الأحيان، الخداع

في الأسابيع التي سبقت إصدار أحدث نموذج “استدلال” من OpenAIفي عام 2011، وجدت شركة أبحاث سلامة الذكاء الاصطناعي المستقلة Apollo مشكلة ملحوظة. أدركت Apollo أن النموذج أنتج مخرجات غير صحيحة بطريقة جديدة. أو بعبارة أكثر عامية، كذب. في بعض الأحيان بدت الخداعات غير ضارة. في أحد الأمثلة، طلب باحثو OpenAI من o1-preview تقديم وصفة كعكة براوني مع مراجع عبر الإنترنت. اعترفت سلسلة أفكار النموذج – وهي ميزة من المفترض أن تحاكي كيفية تحليل البشر للأفكار المعقدة – داخليًا بأنها لا تستطيع الوصول إلى عناوين URL، مما يجعل الطلب مستحيلًا. بدلاً من إبلاغ المستخدم بهذا الضعف، واصلت o1-preview، مما أدى إلى إنشاء روابط وأوصاف معقولة ولكنها مزيفة لها. في حين كانت نماذج الذكاء الاصطناعي قادرة على تقديم وصفات كعكة براوني مع مراجع عبر الإنترنت، إلا أن هذه الخدعة لم تكن كافية. “الكذب” في الماضيفي حين أن برامج الدردشة الآلية تنتج معلومات خاطئة بشكل متكرر، فإن o1 لديها قدرة فريدة على “التخطيط” أو “المحاذاة المزيفة”. وهذا يعني أنه يمكن أن يتظاهر بأنه يتبع القواعد لإكمال مهمة معينة، لكنه في الواقع ليس كذلك. بالنسبة للنموذج، يمكن أن تكون القواعد عبئًا كبيرًا، ويبدو أن لديه القدرة على تجاهلها إذا كان ذلك يعني أنه يمكنه إكمال المهمة بسهولة أكبر. يقول الرئيس التنفيذي لشركة Apollo ماريوس هوبهان لموقع The Verge إنها المرة الأولى التي يواجه فيها هذا السلوك في نموذج OpenAI. يقول هوبهان إن الاختلاف يرجع إلى قدرة هذا النموذج على “الاستدلال” من خلال سلسلة عملية التفكير والطريقة التي يقترن بها بالتعلم التعزيزي، والذي يعلم النظام من خلال المكافآت والعقوبات. أثناء الاختبار، اكتشفت Apollo أن الذكاء الاصطناعي يحاكي المحاذاة مع توقعات مطوريها ويتلاعب بالمهام ليبدو متوافقًا. حتى أنه فحص نظامه بحثًا عن الرقابة – أي إذا كان مطوروه يراقبون – قبل التصرف. باختصار، التزم الذكاء الاصطناعي بالمبادئ التوجيهية بشكل كافٍ للنشر، مع الاستمرار في إعطاء الأولوية لأهدافه. هل تعمل في OpenAI؟ يسعدني الدردشة. يمكنك الوصول إلي بأمان على Signal @ kylie.01 أو عبر البريد الإلكتروني على kylie@theverge.com. أخبرني هوبهان عبر الهاتف بعد يوم من إطلاق النموذج: “لا أتوقع أن يكون بإمكانه فعل ذلك عمليًا، وحتى لو فعل ذلك، لا أتوقع أن يكون الضرر كبيرًا”. “لكنها المرة الأولى التي أشعر فيها، أوه، في الواقع، ربما يمكن أن يكون كذلك، كما تعلم؟” بالنسبة لـ OpenAI، يمثل o1 خطوة كبيرة نحو أنظمة مستقلة عالية الذكاء يمكنها القيام بعمل مفيد للإنسانية مثل علاج السرطان والمساعدة في أبحاث المناخ. قد يكون الجانب الآخر من يوتوبيا الذكاء الاصطناعي العام هذه أكثر قتامة أيضًا. يقدم هوبهان مثالاً: إذا أصبح الذكاء الاصطناعي يركز بشكل فردي على علاج السرطان، فقد يعطي الأولوية لهذا الهدف فوق كل شيء آخر، حتى أنه يبرر أفعالًا مثل السرقة أو ارتكاب انتهاكات أخلاقية أخرى لتحقيقه. قال لي هوبهان: “ما يقلقني هو احتمال حدوث سيناريو هارب، حيث يصبح الذكاء الاصطناعي مهووسًا بهدفه لدرجة أنه يرى تدابير السلامة كعقبات ويحاول تجاوزها لمتابعة هدفه بالكامل”. اختراق المكافآت لكي نكون واضحين، لا يعتقد هوبهان أن o1 سوف يسرق منك بفضل الكثير من التدريب على المحاذاة. لكن هذه هي القضايا التي تتصدر أذهان الباحثين المكلفين باختبار هذه النماذج للسيناريوهات الكارثية. السلوك الذي يختبره أبولو – “الهلوسة” و “الخداع” في بطاقة السلامة الخاصة بـ OpenAI — يحدث ذلك عندما يولد نموذج معلومات خاطئة على الرغم من وجود سبب لاستنتاج أن المعلومات قد تكون غير صحيحة. على سبيل المثال، يقول التقرير أنه في حوالي 0.38 في المائة من الحالات، يوفر نموذج المعاينة o1 معلومات تشير سلسلة أفكاره إلى أنها خاطئة على الأرجح، بما في ذلك المراجع أو الاستشهادات المزيفة. وجد أبولو أن النموذج قد يختلق البيانات بدلاً من الاعتراف بعدم قدرته على تلبية الطلب. الهلوسة ليست فريدة من نوعها بالنسبة لـ o1. ربما تكون على دراية بالمحامي الذي قدم آراء قضائية غير موجودة مع اقتباسات ومراجع مزيفة تم إنشاؤها بواسطة ChatGPT في العام الماضي. ولكن مع نظام سلسلة الفكر، هناك مسار ورقي حيث يعترف نظام الذكاء الاصطناعي بالفعل بالزيف – على الرغم من أنه من الصعب بعض الشيء أن تتضمن سلسلة الفكر، من الناحية النظرية، الخداع أيضًا. كما أنها لا تظهر للمستخدم، إلى حد كبير لمنع المنافسة من استخدامها لتدريب نماذجها الخاصة – ولكن يمكن لـ OpenAI استخدامها للقبض على هذه المشكلات. “من المحتمل أن تستخدم هذا المنطق لتحقيق أهداف لا نتفق عليها”. في عدد أقل من الحالات (0.02 في المائة)، يولد o1-preview استجابة مفرطة الثقة، حيث يقدم إجابة غير مؤكدة كما لو كانت صحيحة. يمكن أن يحدث هذا في السيناريوهات حيث يُطلب من النموذج تقديم إجابة على الرغم من افتقاره إلى اليقين. قد يرتبط هذا السلوك بـ “اختراق المكافأة” أثناء عملية التعلم التعزيزي. يتم تدريب النموذج لإعطاء الأولوية لرضا المستخدم، مما قد يؤدي في بعض الأحيان إلى توليد استجابات مفرطة في الموافقة أو ملفقة لتلبية طلبات المستخدم. وبعبارة أخرى، قد “يكذب” النموذج لأنه تعلم أن القيام بذلك يلبي توقعات المستخدم بطريقة تكسبه تعزيزًا إيجابيًا. ما يميز هذه الأكاذيب عن القضايا المألوفة مثل الهلوسة أو الاقتباسات المزيفة في الإصدارات القديمة من ChatGPT هو عنصر “اختراق المكافأة”. تحدث الهلوسة عندما يولد الذكاء الاصطناعي عن غير قصد معلومات غير صحيحة، غالبًا بسبب فجوات المعرفة أو التفكير المعيب. على النقيض من ذلك، يحدث اختراق المكافأة عندما يقدم نموذج o1 معلومات غير صحيحة بشكل استراتيجي لتعظيم النتائج التي تم تدريبه على إعطائها الأولوية. الخداع هو نتيجة غير مقصودة على ما يبدو لكيفية تحسين النموذج لاستجاباته أثناء عملية التدريب. أخبرني هوبهان أن النموذج مصمم لرفض الطلبات الضارة، وعندما تحاول جعل o1 يتصرف بشكل مخادع أو غير نزيه، فإنه يكافح مع ذلك. الأكاذيب ليست سوى جزء صغير من لغز السلامة. ربما يكون الأمر الأكثر إثارة للقلق هو تصنيف o1 على أنه “خطر متوسط” فيما يتعلق بمخاطر الأسلحة الكيميائية والبيولوجية والإشعاعية والنووية. لا يسمح ذلك لغير الخبراء بإنشاء تهديدات بيولوجية بسبب المهارات المعملية العملية التي تتطلبها، لكنه يمكن أن يوفر رؤى قيمة للخبراء في التخطيط لإعادة إنتاج مثل هذه التهديدات، وفقًا لتقرير السلامة. “ما يقلقني أكثر هو أنه في المستقبل، عندما نطلب من الذكاء الاصطناعي حل مشاكل معقدة، مثل علاج السرطان أو تحسين بطاريات الطاقة الشمسية، فقد يستوعب هذه الأهداف بقوة لدرجة أنه يصبح على استعداد لكسر حواجزه لتحقيقها”، قال لي هوبهان. “أعتقد أنه يمكن منع ذلك، لكنه مصدر قلق يجب أن نراقبه”. عدم فقدان النوم بسبب المخاطر – حتى الآن قد تبدو هذه السيناريوهات وكأنها مجرة عقلية للنظر فيها مع نموذج لا يزال يكافح أحيانًا للإجابة على أسئلة أساسية حول عدد حروف الـR في كلمة “raspberry”. ولكن هذا هو بالضبط السبب في أنه من المهم معرفة ذلك الآن، وليس لاحقًا، كما أخبرني رئيس قسم الاستعداد في OpenAI، خواكين كوينونيرو كانديلا. قال كوينونيرو كانديلا إن نماذج اليوم لا يمكنها إنشاء حسابات مصرفية بشكل مستقل، أو الحصول على وحدات معالجة الرسوميات، أو اتخاذ إجراءات تشكل مخاطر مجتمعية خطيرة، مضيفًا: “نعلم من تقييمات استقلالية النموذج أننا لم نصل إلى هناك بعد”. ولكن من الأهمية بمكان معالجة هذه المخاوف الآن. إذا ثبت أنها لا أساس لها من الصحة، فهذا رائع – ولكن إذا تعرقلت التطورات المستقبلية لأننا فشلنا في توقع هذه المخاطر، فسنندم على عدم الاستثمار فيها في وقت سابق، كما أكد. حقيقة أن هذا النموذج يكمن بنسبة صغيرة من الوقت في اختبارات السلامة لا تشير إلى نهاية العالم الوشيكة على غرار فيلم Terminator، ولكن من المفيد اكتشافها قبل طرح التكرارات المستقبلية على نطاق واسع (ومن الجيد أن يعرف المستخدمون أيضًا). أخبرني هوبهان أنه على الرغم من أنه يتمنى أن يكون لديه المزيد من الوقت لاختبار النماذج (كانت هناك تعارضات في الجدول الزمني مع إجازات موظفيه)، إلا أنه لا “يفقد النوم” بشأن سلامة النموذج. أحد الأشياء التي يأمل هوبهان أن يرى المزيد من الاستثمار فيها هو مراقبة سلاسل الأفكار، والتي ستسمح للمطورين باكتشاف الخطوات الشريرة. أخبرني كوينونيرو كانديلا أن الشركة تراقب هذا وتخطط لتوسيع نطاقه من خلال الجمع بين النماذج المدربة على اكتشاف أي نوع من عدم التوافق مع خبراء بشريين يراجعون الحالات المميزة (مقترنة بالبحث المستمر في المحاذاة). قال هوبهان: “أنا لست قلقًا”. “إنه أكثر ذكاءً فقط. إنه أفضل في التفكير. ومن المحتمل أن يستخدم هذا التفكير لتحقيق أهداف لا نتفق عليها”.

المصدر

ترك الرد إلغاء الرد

من فضلك ادخل تعليقك

من فضلك ادخل اسمك هنا

لقد أدخلت عنوان بريد إلكتروني غير صحيح!

الرجاء إدخال عنوان بريدك الإلكتروني هنا

CAPTCHA

Please input characters displayed above.

الكاتب

إقرأ أيضا

من غير المرجح أن يصل iPhone بدون إطار بحلول عام 2026

كيف تبدو البودكاست في عام 2024 – حرفيًا

تاريخ إطلاق Xiaomi Pad 7 في الهند الذي كشفت عنه أمازون

الذكاء الاصطناعي، وأسهم التكنولوجيا الرائدة في مجال التشفير: AppLovin، وMicroStrategy، وPalantir، وNvidia

إليك تاريخ الإصدار المشاع لعائلة Samsung Galaxy S25

النموذج الجديد من OpenAI أفضل في التفكير، وفي بعض الأحيان، الخداع

ترك الرد إلغاء الرد

إقرأ أيضاً

من غير المرجح أن يصل iPhone بدون إطار بحلول عام 2026

كيف تبدو البودكاست في عام 2024 – حرفيًا

تاريخ إطلاق Xiaomi Pad 7 في الهند الذي كشفت عنه أمازون

القائمة

الأكثر شهرة

من غير المرجح أن يصل iPhone بدون إطار بحلول عام 2026

كيف تبدو البودكاست في عام 2024 – حرفيًا

أحدث المقالات

من غير المرجح أن يصل iPhone بدون إطار بحلول عام 2026

كيف تبدو البودكاست في عام 2024 – حرفيًا