OpenAI تطلق نموذج استدلال o1 جديد
أطلقت شركة OpenAI نموذجًا جديدًا يسمى o1، وهو الأول في سلسلة مخططة من نماذج “الاستدلال” التي تم تدريبها للإجابة على أسئلة أكثر تعقيدًا، وبسرعة أكبر من قدرة الإنسان. يتم إطلاقه جنبًا إلى جنب مع o1-mini، وهو إصدار أصغر وأرخص. ونعم، إذا كنت غارقًا في شائعات الذكاء الاصطناعي: فهذا في الواقع، الفراولة التي تم الترويج لها بشكل كبير بالنسبة لـ OpenAI، يمثل o1 خطوة نحو هدفه الأوسع المتمثل في الذكاء الاصطناعي الشبيه بالإنسان. من الناحية العملية، يقوم بعمل أفضل في كتابة التعليمات البرمجية وحل المشكلات متعددة الخطوات مقارنة بالنماذج السابقة. لكنه أيضًا أكثر تكلفة وأبطأ في الاستخدام من جي بي تي-4oتطلق OpenAI على هذا الإصدار من o1 اسم “معاينة” للتأكيد على مدى حداثته. يحصل مستخدمو ChatGPT Plus و Team على حق الوصول إلى كل من o1-preview و o1-mini بدءًا من اليوم، بينما سيحصل مستخدمو Enterprise و Edu على حق الوصول في وقت مبكر من الأسبوع المقبل. تقول OpenAI إنها تخطط لجلب حق الوصول إلى o1-mini لجميع مستخدمي ChatGPT المجانيين ولكنها لم تحدد تاريخ الإصدار بعد. إن وصول المطورين إلى o1 مكلف حقًا: في واجهة برمجة التطبيقات، تبلغ تكلفة o1-preview 15 دولارًا لكل مليون رمز إدخال، أو أجزاء من النص الذي تم تحليله بواسطة النموذج، و 60 دولارًا لكل مليون رمز إخراج. للمقارنة، تكلف GPT-4o 5 دولارات لكل مليون رمز إدخال و 15 دولارًا لكل مليون رمز إخراج. يخبرني جيري توورك، رئيس الأبحاث في OpenAI، أن التدريب وراء o1 يختلف اختلافًا جوهريًا عن سابقاته، على الرغم من أن الشركة غامضة بشأن التفاصيل الدقيقة. يقول إن o1 “تم تدريبه باستخدام خوارزمية تحسين جديدة تمامًا ومجموعة بيانات تدريب جديدة مصممة خصيصًا لها”. علمت OpenAI نماذج GPT السابقة لتقليد الأنماط من بيانات التدريب الخاصة بها. مع o1، قامت بتدريب النموذج على حل المشكلات بمفرده باستخدام تقنية تُعرف باسم التعلم التعزيزي، والتي تعلم النظام من خلال المكافآت والعقوبات. ثم يستخدم “سلسلة من الأفكار” لمعالجة الاستعلامات، على غرار الطريقة التي يعالج بها البشر المشكلات من خلال المرور بها خطوة بخطوة. نتيجة لهذه المنهجية التدريبية الجديدة، تقول OpenAI أن النموذج يجب أن يكون أكثر دقة. يقول Tworek: “لقد لاحظنا أن هذا النموذج يهلوس بشكل أقل”. لكن المشكلة لا تزال قائمة. “لا يمكننا القول أننا حللنا الهلوسة”. إن الشيء الرئيسي الذي يميز هذا النموذج الجديد عن GPT-4o هو قدرته على معالجة المشكلات المعقدة، مثل الترميز والرياضيات، بشكل أفضل بكثير من سابقاتها مع شرح منطقها أيضًا، وفقًا لـ OpenAI. يقول لي بوب ماكجرو، كبير مسؤولي الأبحاث في OpenAI: “النموذج أفضل بالتأكيد مني في حل اختبار الرياضيات AP، وقد كنت متخصصًا في الرياضيات في الكلية”. يقول إن OpenAI اختبرت أيضًا o1 ضد امتحان تأهيلي لأولمبياد الرياضيات الدولي، وبينما حل GPT-4o بشكل صحيح 13 في المائة فقط من المشكلات، سجل o1 83 في المائة. “لا يمكننا القول أننا حللنا الهلوسة” في مسابقات البرمجة عبر الإنترنت المعروفة باسم مسابقات Codeforces، وصل هذا النموذج الجديد إلى النسبة المئوية 89 من المشاركين، وتزعم OpenAI أن التحديث التالي لهذا النموذج سيؤدي “على نحو مماثل لطلاب الدكتوراه في مهام معيارية صعبة في الفيزياء والكيمياء والأحياء”. في الوقت نفسه، لا يتمتع o1 بنفس قدرة GPT-4o في الكثير من المجالات. فهو لا يعمل بشكل جيد في المعرفة الواقعية حول العالم. كما أنه لا يمتلك القدرة على تصفح الويب أو معالجة الملفات والصور. ومع ذلك، تعتقد الشركة أنه يمثل فئة جديدة تمامًا من القدرات. تم تسميته o1 للإشارة إلى “إعادة ضبط العداد إلى 1”. يقول ماكجرو: “سأكون صادقًا: أعتقد أننا فظيعون في التسمية، تقليديًا”. “لذا آمل أن تكون هذه هي الخطوة الأولى لأسماء أحدث وأكثر عقلانية تنقل بشكل أفضل ما نقوم به لبقية العالم”. لم أتمكن من عرض o1 بنفسي، لكن McGrew و Tworek أظهروه لي عبر مكالمة فيديو هذا الأسبوع. لقد طلبوا منه حل هذا اللغز: “الأميرة بعمر الأمير عندما تكون الأميرة ضعف عمر الأمير عندما كان عمر الأميرة نصف مجموع عمرهما الحالي. ما هو عمر الأمير والأميرة؟ قدم جميع الحلول لهذا السؤال”. تم تخزين النموذج لمدة 30 ثانية ثم قدم إجابة صحيحة. صممت OpenAI الواجهة لإظهار خطوات التفكير أثناء تفكير النموذج. ما يلفت انتباهي ليس أنه أظهر عمله – يمكن لـ GPT-4o القيام بذلك إذا طُلب منه ذلك – ولكن كيف بدا أن o1 يقلد التفكير البشري عن عمد. عبارات مثل “أنا فضولي بشأن” و “أنا أفكر مليًا” و “حسنًا، دعني أرى” خلقت وهمًا للتفكير خطوة بخطوة. ولكن هذا النموذج لا يفكر، ومن المؤكد أنه ليس بشريًا. لذا، لماذا صممناه ليبدو كذلك؟ إن عبارات مثل “أنا فضولي بشأن”، و”أنا أفكر مليًا”، و”حسنًا، دعني أرى” تخلق وهمًا بالتفكير خطوة بخطوة. الصورة: OpenAIOلا تؤمن OpenAI بمساواة تفكير نموذج الذكاء الاصطناعي بالتفكير البشري، وفقًا لتوورك. لكن الواجهة تهدف إلى إظهار كيف يقضي النموذج وقتًا أطول في المعالجة والتعمق في حل المشكلات، كما يقول. “هناك طرق تجعله يبدو أكثر إنسانية من النماذج السابقة”. يقول ماكجرو: “أعتقد أنك سترى أن هناك الكثير من الطرق التي تشعر فيها بنوع من الغرابة، ولكن هناك أيضًا طرق تشعر فيها بإنسانية مفاجئة”. يتم منح النموذج قدرًا محدودًا من الوقت لمعالجة الاستعلامات، لذلك قد يقول شيئًا مثل، “أوه، لقد نفد وقتي، دعني أصل إلى إجابة بسرعة”. في وقت مبكر، أثناء سلسلة أفكاره، قد يبدو الأمر أيضًا وكأنه عملية عصف ذهني ويقول شيئًا مثل، “يمكنني أن أفعل هذا أو ذاك، ماذا يجب أن أفعل؟” البناء نحو الوكلاء نماذج اللغة الكبيرة ليست ذكية تمامًا كما هي موجودة اليوم. إنها في الأساس مجرد توقع لتسلسلات الكلمات لتزويدك بإجابة بناءً على الأنماط المستفادة من كميات هائلة من البيانات. خذ ChatGPT، الذي يميل إلى يزعمون خطأً أن كلمة “فراولة” تحتوي على حرفين فقط لأنه لا يحلل الكلمة بشكل صحيح. وللعلم، فإن نموذج o1 الجديد قد أجاب على هذا السؤال بشكل صحيح. وبما أن OpenAI تتطلع إلى جمع المزيد من التمويل، بتقييم مذهل يبلغ 150 مليار دولارإن زخمها يعتمد على المزيد من الاختراقات البحثية. تعمل الشركة على جلب قدرات الاستدلال إلى ماجستير القانون لأنها ترى مستقبلًا مع أنظمة مستقلة، أو وكلاء، قادرين على اتخاذ القرارات واتخاذ الإجراءات نيابة عنك. بالنسبة لباحثي الذكاء الاصطناعي، فإن كسر المنطق هو خطوة مهمة تالية نحو الذكاء على مستوى الإنسان. التفكير هو أنه إذا كان النموذج قادرًا على أكثر من التعرف على الأنماط، فيمكنه فتح الاختراقات في مجالات مثل الطب والهندسة. في الوقت الحالي، على الرغم من ذلك، فإن قدرات الاستدلال في o1 بطيئة نسبيًا، وليست مثل الوكيل، ومكلفة بالنسبة للمطورين لاستخدامها. يقول ماكجرو: “لقد قضينا عدة أشهر في العمل على الاستدلال لأننا نعتقد أن هذا هو في الواقع الاختراق الحاسم”. “في الأساس، هذه طريقة جديدة للنماذج من أجل أن تكون قادرة على حل المشكلات الصعبة حقًا التي يتطلبها التقدم نحو مستويات الذكاء الشبيهة بالإنسان”.
المصدر