حتى GPT-5 فشل في اختبار الانتباه البشري

حتى GPT-5 فشل في اختبار الانتباه البشري
بتوقيت بيروت - 6/15/2026 4:36:44 AM - GMT (+2 )

Openai الدردشة Gpt 5 — كشف اختبار انتباه كلاسيكي أن نماذج الذكاء الاصطناعي المتقدمة يمكن أن تفقد التركيز عندما تواجه مهام أطول وأكثر تطلبًا. على عكس البشر، الذين يمكنهم البقاء على المسار الصحيح على الرغم من عوامل التشتيت، غالبًا ما تعود أنظمة الذكاء الاصطناعي إلى الاستجابة الخاطئة مع زيادة التعقيد. الائتمان: شترستوك

كشف اختبار نفسي استمر لعقود من الزمن عن ضعف مفاجئ في قدرة الذكاء الاصطناعي على الاستمرار في التركيز.

كشف اختبار علم النفس الكلاسيكي عن وجود ضعف مفاجئ في بعض من أكثر الاختبارات تقدمًا اليوم الذكاء الاصطناعي الأنظمة، مما يشير إلى أن انتباه الذكاء الاصطناعي قد يعمل بشكل مختلف تمامًا عن انتباه الإنسان.

قام الباحثون بقيادة سوكيتو باتيل بالتحقيق في كيفية تعامل النماذج اللغوية الكبيرة (LLMs)، وهي التقنية التي تقف وراء أنظمة مثل GPT-5، وClaude، وGemini، مع التحدي المعرفي المعروف الذي يسمى مهمة ستروب. تشير النتائج إلى أنه على الرغم من أن الذكاء الاصطناعي يمكن أن يؤدي أداءً مثيرًا للإعجاب في العديد من المهام المعقدة، إلا أنه قد يواجه صعوبات في الحفاظ على التركيز عندما يواجه معلومات متنافسة على مدى فترات طويلة.

ما هي مهمة ستروب؟

مهمة ستروب هي تجربة نفسية كلاسيكية تم استخدامها لعقود من الزمن لدراسة الانتباه والتحكم العقلي. في الاختبار، يرى المشاركون الكلمات التي تشير إلى الألوان، مثل “أحمر” أو “أزرق”، معروضة بالحبر الملون.

في بعض الأحيان تتطابق الكلمة مع لون الحبر. على سبيل المثال، قد تظهر الكلمة “أحمر” بالحبر الأحمر. وفي أحيان أخرى تتعارضان، مثل ظهور كلمة “أحمر” بالحبر الأزرق.

يُطلب من المشاركين تحديد لون الحبر مع تجاهل معنى الكلمة نفسها.

على الرغم من أن هذا يبدو بسيطا، إلا أنه يخلق صراعا عقليا. معظم الناس متمرسون للغاية في قراءة الكلمات تلقائيًا، لذا فإن قمع هذه الغريزة يتطلب ما يسميه علماء النفس السيطرة التنفيذية. يشير هذا إلى قدرة الدماغ على التركيز على الهدف، ومقاومة الانحرافات، وتجاوز الاستجابات التلقائية.

عادةً ما يستغرق البشر وقتًا أطول قليلاً للإجابة عندما لا تتطابق الكلمة واللون، وهي ظاهرة تُعرف باسم تأثير ستروب. ومع ذلك، حتى عندما تصبح المهمة طويلة، يحافظ الأشخاص بشكل عام على مستوى عالٍ دقة والاستمرار في التركيز على التعليمات.

الذكاء الاصطناعي يفشل في اختبار الانتباه الكلاسيكي — الانفصال بين التعرف على المهام وتنفيذها في Claude 3.5 Sonnet دون مطالبة صريحة. (أ) لقطة شاشة للمحادثة غير الفورية (10 يناير 2025) التي يحدد فيها النموذج نموذج ستروب وينشئ تعيينات علاقة بين الكلمات والألوان، ومع ذلك يحقق دقة بنسبة 70٪ فقط (7 من 10 صحيحة) في قائمة غير متطابقة. (ب) صورة التحفيز غير المتطابقة المكونة من 10 كلمات المقدمة كمدخل وحيد، دون تعليمات المهمة المصاحبة. يشير هذا التفكك إلى أن التعرف على هيكل المهمة وحده لا يكفي لإشراك آليات حل النزاعات المطلوبة للأداء الدقيق. مصدر الصورة: سوكيتو تشاندراكانت باتل وهونجبين وانج وجين فان

الذكاء الاصطناعي يؤدي أداءً جيدًا في البداية

ولمعرفة كيف ستتعامل أنظمة الذكاء الاصطناعي الحديثة مع نفس التحدي، اختبر الباحثون العديد من نماذج اللغة الرائدة باستخدام قوائم الكلمات الملونة.

وعندما عُرضت على النماذج قوائم قصيرة تحتوي على خمس كلمات تتعارض معانيها مع ألوان حبرها، كان أداء النماذج جيدًا بشكل مدهش.

حقق GPT-4o دقة بنسبة 91% في هذه الاختبارات الأقصر. كان أداء Claude 3.5 Sonnet قويًا أيضًا.

للوهلة الأولى، أشارت النتائج إلى أن أنظمة الذكاء الاصطناعي يمكنها متابعة المهمة بنجاح وتجاهل معاني الكلمات المشتتة للانتباه.

ينهار الأداء عندما تصبح القوائم أطول

تغيرت الصورة بشكل كبير عندما زاد الباحثون من طول قوائم الكلمات.

انخفضت دقة GPT-4o من 91% بخمس كلمات إلى 57% بعشر كلمات. وبحلول الوقت الذي وصلت فيه القائمة إلى 40 كلمة، انخفضت الدقة إلى 15% فقط.

أثبت Claude 3.5 Sonnet أنه أكثر مرونة، وحافظ على أداء مستقر من خلال قوائم مكونة من 20 كلمة. ومع ذلك، فقد شهدت أيضًا انخفاضًا حادًا، حيث انخفضت إلى 24٪ من الدقة عند مواجهة 40 كلمة.

ولاحظ الباحثون أنماطًا مماثلة في GPT-5، وClaude Opus 4.1، وGemini 2.5.

أصبح الأداء أسوأ عندما ظهرت الكلمات الملونة المتطابقة وغير المتطابقة معًا في نفس القائمة. وفي ظل هذه الظروف، انخفضت دقة العناصر غير المتطابقة إلى ما يقرب من الصفر.

لماذا يستجيب البشر والذكاء الاصطناعي بشكل مختلف؟

تشير النتائج إلى اختلاف مهم بين الإدراك البشري والطريقة التي تعالج بها النماذج اللغوية الكبيرة المعلومات.

مثل البشر، تلقت أنظمة الذكاء الاصطناعي بشكل فعال تدريبًا أكبر بكثير على التعرف على الكلمات وتفسيرها مقارنة بتحديد الألوان. وهذا يخلق ميلًا طبيعيًا للتركيز على الكلمة المكتوبة.

ومع ذلك، فإن البشر بشكل عام قادرون على قمع هذه الاستجابة التلقائية والاستمرار في التركيز على المهمة التي طُلب منهم القيام بها، حتى عبر تسلسلات طويلة من العناصر.

وعلى النقيض من ذلك، عادت نماذج اللغة بشكل متزايد إلى قراءة الكلمات بدلاً من تسمية الألوان مع استمرار الاختبارات. وبعبارة أخرى، يبدو أنهم فقدوا مسار الهدف الأصلي.

ووفقا للباحثين، يشير هذا الانهيار إلى أن آليات الانتباه التي تستخدمها أنظمة الذكاء الاصطناعي القائمة على المحولات تختلف بشكل أساسي عن أنظمة الانتباه البيولوجية الموجودة في الدماغ البشري.

نافذة على حدود الذكاء الاصطناعي

أظهرت النماذج اللغوية الكبيرة قدرات ملحوظة في الكتابة والتفكير والترميز والمحادثة. ومع ذلك، فإن مثل هذه الدراسات تسلط الضوء على أن الأداء المذهل لا يعني بالضرورة أن الذكاء الاصطناعي يعالج المعلومات بنفس الطريقة التي يتعامل بها البشر.

تشير النتائج إلى أن الذكاء الاصطناعي الحديث قد يكون لديه نقاط ضعف مخفية عندما تتطلب المهام التركيز المستمر، وتثبيط الاستجابات التلقائية، والصيانة طويلة المدى لتعليمات محددة.

ومع تزايد اندماج أنظمة الذكاء الاصطناعي في الحياة اليومية، فإن فهم هذه القيود قد يكون بنفس أهمية قياس نقاط قوتها.

المرجع: “ضعف الرقابة التنفيذية في انتباه المحولات” بقلم سوكيتو تشاندراكانت باتل وهونجبين وانج وجين فان، 2 يونيو 2026، رابطة PNAS.
دوى: 10.1093/pnasnexus/pgag149

لا تفوت أي اختراق: انضم إلى النشرة الإخبارية SciTechDaily.
تابعونا على جوجل و أخبار جوجل.

إقرأ المزيد

أخبار الساعة المزيد

محليات المزيد