بتوقيت بيروت - 2/5/2026 11:35:56 AM - GMT (+2 )

شئنا أم أبينا، ليس هناك عودة إلى الوراء: فالتطبيقات وأنظمة التشغيل سوف تنجذب بشكل ثابت نحو التفاعلات الصوتية أولاً.
ليس إلزاميا، ولكن لا مفر منهولكن هذا هو الأمر: لا تعني أي من النقاط التي أنا على وشك توضيحها أنك ستكون كذلك القسري للتحدث إلى أجهزتك ضد إرادتك، ولا أن الإنسانية تشق طريقها دون وعي إلى مستقبل حيث ستصبح كل مساحة مشتركة علنًا مليئة حتماً بنشاز من المهووسين الذين يعتمدون بشكل مفرط على الذكاء الاصطناعي.
لن تختفي واجهة المستخدم الرسومية، تمامًا كما لم تختفي الآلة الحاسبة بعد إصدار Lotus 1-2-3. في الواقع، حتى اليوم، لا يزال بإمكانك شراء المعداد إذا كنت ترغب في ذلك. بعضها في الواقع باهظ الثمن.
ولكن في هذه المرحلة، من المحتم تمامًا أن ينجذب كل من مطوري التطبيقات وأنظمة التشغيل بشكل متزايد نحو التفاعلات القائمة على الصوت.
وهناك أسباب وجيهة لذلك، وأكثرها وضوحًا هو إمكانية الوصول.
وبهذا، لا أقصد فقط المستخدمين الذين لا يستطيعون التفاعل فعليًا مع أجهزتهم، على الرغم من أن هذا وحده يعد أمرًا رائعًا. وأعني أيضًا المستخدمين الذين لا يتمتعون بالخبرة التقنية مثلك، ولكن لديهم نفس الاحتياجات، حيث يحاولون التنقل بين الهواتف وأجهزة الكمبيوتر والأنظمة الأساسية التي يبدو أنها تعمل دون عناء مع أي شخص آخر.
وإذا كان رد فعلك غير المحسوب هو إدراك هؤلاء المستخدمين على أنهم كسالى، أو أي شيء في هذا الاتجاه العام، يؤسفني أن أخبرك، ولكنك تفتقد المغزى من الوعد الكامل للحوسبة الحديثة.
من المفترض أن تؤدي التطورات التقنية إلى خفض حاجز الدخول ومساعدة الأشخاص على الوصول إلى حيث يريدون، بغض النظر عن مدى معرفتهم بأي شيء بدءًا من Terminal إلى Safari.
والواقع أن القسم الأعظم من وجود شركة أبل كان مبنياً على هذه الفرضية ذاتها، حتى ولو بدا أن قيادتها تنساها في بعض الأحيان.
مرحبا الكمبيوتربعد كل ما قيل، إليك سببًا كبيرًا آخر يجعل نهج الصوت أولاً أمرًا لا مفر منه: التكنولوجيا الأساسية الفعلية المطلوبة لكي ينجح هذا الأمر هي أخيراً تصبح جيدة.
نعم، لا يزال كل ماجستير في القانون يرتكب أخطاء غبية، ومن المحتمل أن يفعلوا ذلك دائمًا، طالما أنهم يعتمدون على أساليب الانحدار الذاتي القائمة على المحولات.
لكن الشركات ومختبرات الذكاء الاصطناعي الرائدة وحتى المطورين المستقلين إما يتعلمون التغلب على هذه القيود أو ينتقلون إليها أبنية مختلفة تماما، وبعضها يظهر وعدًا كبيرًا.
على مدى العام الماضي، كان هناك تقدم كبير في الواجهات القائمة على الصوت، بما في ذلك أدوات مثل ويسبر وSpeechify، التي شهدت معدل اعتماد حادًا ومتزايدًا.
وفق تدفق ويسبر المؤسس والرئيس التنفيذي تاناي كوثاري، وصل مستخدموه في النهاية إلى نقطة يمثل فيها الصوت ما يقرب من 75% من إجمالي المدخلات عبر المنتج. وبين المستخدمين الناضجين، ينخفض استخدام لوحة المفاتيح إلى أقل من 5%.
وسأأكل قبعتي إذا لم يعملوا على قدرات الوكيل المناسبة لتتماشى مع أدوات الإملاء الخاصة بهم. في الحقيقة، يتحرك Speechify بالفعل بشكل واضح في هذا الاتجاه.
وأيضًا، دعونا لا ننسى التسونامي الأخير الذي سببه OpenClaw، الثآليل وجميع، الأمر الذي فجر السقف بالكامل مما توقع أي شخص أن يكون بمقدور العملاء المستقلين القيام به في أي وقت قريب. في الواقع، يعتمد العديد من المستخدمين على منصات مثل ElevenLabs للتحدث بصوت عالٍ مع وكلائهم، وقد شهد بعضهم تنفيذ واجهة برمجة تطبيقات ElevenLabs بشكل استباقي بواسطة OpenClaw نفسها.
أي شخص يعرف ما يتحدثون عنه سيخبرك كم هو رائع هذا الأمر، مرة أخرىوالثآليل وكل شيء.
التطور على هذه الجبهة يتسارعوإليك مدى سرعة سير الأمور: لقد بدأت كتابة هذا المقال منذ فترة، قبل أن يصبح OpenClaw على ما هو عليه اليوم.
في الأصل كنت قد كتبت:
“(…) لن يمر وقت طويل قبل أن تعتمد التطبيقات وأنظمة التشغيل على أطر عمل مستقلة، حيث يقول المستخدمون فقط ما يريدون، ويتعامل الذكاء الاصطناعي مع المعنى، ويحدد الخطوات، وينفذ هذا الإجراء عبر تطبيقات جاهزة للوكيل نيابة عن المستخدم.”
كما اتضح، فإنه حقًا لم يكن كذلك.
في الأصل، كنت أنوي أيضًا إغلاق النص من خلال طرح أشياء مثل الأنثروبي MCP، وكذلك أبل نوايا التطبيق، لتوضيح كيفية وضع الأجزاء التي من شأنها تمكين الواجهات الجاهزة للصوت في مكانها الصحيح. كنت سأقترح أننا قد نرى أخبارًا على هذه الجبهة في يونيو المقبل، خلال مؤتمر WWDC.
الآن، بينما ما زلت أعتقد أننا قد رؤية المزيد من الميزات الموجهة للصوت وواجهات برمجة التطبيقات والإمكانيات في شهر يونيو، حتى فكرة أنها ستعتمد على المطورين بدأت تبدو قصيرة النظر أو قديمة.
ربما أخطأت في تذكر التفاصيل، لكنني أعتقد أن جون جروبر هو الذي تحدث عن كيف أنهم في مكان ما، ربما في جامعة دريكسيل، مهدوا في نهاية المطاف المسار الذي حفره الناس في العشب لأنه كان أقصر من المسار الذي صممه المهندسون المعماريون.
أعتقد بصدق أن الصوت بالنسبة للعديد من المستخدمين هو أقصر طريق.
من التحدث بطلب إلى iPhone أو Mac والحصول على اختصار متقدم في المقابل، إلى تعديل الصور، أو البحث عن المستندات وتحريرها، أو حتى طلب سير عمل متعدد الخطوات عبر التطبيقات، أصبح من الواضح بشكل متزايد أنه مع ظهور التكنولوجيا أخيرًا، فإن الواجهة التي سيجدها معظم المستخدمين أسهل للتنقل هي ليست واجهة على الإطلاق. أو بالأحرى، تلك التي دأبت البشرية على صقلها منذ الناخر الأول.
وبعد كل هذا، ما زلت أكره عندما يرسل لي الناس رسائل صوتية.
عروض الإكسسوارات على أمازونFTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.
إقرأ المزيد


