تحوّلت شركة "إنفيديا" خلال سنوات قليلة من مصنع لرقاقات الألعاب إلى كيان تقنيّ هو الأكثر قيمة وتأثيراً في سباق الذكاء الاصطناعي العالمي، مدفوعة ببراعة المعالجات الرسومية (GPUs) في لكن هذا المشهد يظهر اليوم تحولاً جذرياً، إذ بدأت بوصلة الطلب العالمي تنعطف نحو مرحلة "الاستنتاج" (Inference) بدلاً من مرحلة "التدريب" الشاقة؛ وهي اللحظة التي تمنح فيها هذه النماذج إجابات حقيقية ولتوضيح الفكرة، يمكن تشبيه الأمر بالفرق بين "سنوات الدراسة" الطويلة التي يقضيها الطبيب في قراءة الكتب وتراكم المعرفة (وهي مرحلة التدريب المكلفة والبطيئة)، وبين "لحظة التشخيص" داخل العيادة حين يقدم الطبيب إجابة فورية فبعد أن انتهى العالم من "تعليم" النماذج، بدأت الحاجة الحقيقية الآن إلى استخدام تلك المعرفة في تقديم إجابات ذكيّة وسريعة للمستخدمين في زمن حقيقي، وهو ما يتطلّب نوعاً مختلفاً تماماً من الرقاقات
وتشير تقديرات شركة "ماكينزي" للاستشارات إلى أن عمليات الاستنتاج ستستحوذ وحدها على ثلاثة أخماس الطلب في مراكز بيانات الذكاء الاصطناعي بحلول نهاية العقد الحالي، مما يضع المعمارية (Architecture) التقليدية التي تقودها فالتصميم الذي برع في بناء النماذج (التدريب) ليس بالضرورة هو الأنسب لتشغيلها بسرعة، فالصورة هنا تشبه الفرق بين "شاحنة ضخمة" مخصصة للأعمال الشاقة، وبين "سيارة كهربائية سريعة" مخصصة للتنقل الذكيّ في داخل المدن المزدحمة، حيث تصبح الكفاءة وسرعة الاستجابة هما المعيار الحقيقي للتفوق
يبرز التحدي الأكبر بما يُعرف تقنياً بـ "جدار الذاكرة"، أي الفجوة المتسعة بين سرعة المعالجة الحسابية وسرعة فبينما تضاعف الأداء الحسابي للمعالجات ثلاث مرات كل بضع سنوات، لم يرتفع عرض نطاق الذاكرة 6 هذا الخلل البنيوي يجعل الوصول إلى الذاكرة أبطأ بعشر مرات، وأكثر استهلاكاً للطاقة من عملية الحساب نفسها، ممّا يحوّل أقوى المعالجات الرسومية مثل B200، التي تضمّ 16 ألف نواة، إلى كيانات تقضي معظم وقتها في حالة "انتظار قسري" للبيانات بدلاً من معالجتها، خاصة في مرحلة توليد الاستجابة (Decoding)، التي تجري رمزاً تلو الآخر وتعتمد بشكل كثيف على استدعاء "أوزان" النموذج من الذاكرة الخارجية
في مواجهة هذا العجز، بدأت ملامح جيل جديد من الشركات الناشئة بالظهور بتصاميم ثورية تتجاوز تتبنى شركة Cerebras نهج الحجم الأقصى؛ فبدلاً من صناعة رقاقات صغيرة، طوّرت رقاقة عملاقة تُعرف بـ "Wafer-Scale"، هذا الحجم الاستثنائي يضمّ 900 ألف نواة مع ذاكرة داخلية ضخمة، مما يسمح بإبقاء كافة البيانات "داخل" الرقاقة نفسها من دون الحاجة إلى إرسالها واستقبالها من ذاكرة خارجية؛ تماماً كما لو قمت بجمع كلّ كتب المكتبة ووضعتها على مكتبك الخاص بدلاً من المشي ذهاباً وإياباً هذا التصميم يحقق سرعة استنتاج تفوق التصاميم التقليدية بـ 15 مرة
وفي سياق متّصل، تعمل شركة MatX على تطوير مصفوفات ذكية تضخّ البيانات بإيقاع منتظم يشبه "الدورة الدموية" التي تمدّ أعضاء الجسم بالأكسجين من دون توقف، حيث تتدفق المعلومات بين وحدات المعالجة بسلاسة، ومن دون الحاجة إلى تخزين النتائج الموقتة، مما يسمح بتخصيص موارد الرقاقة بذكاء وسرعة فائقة بناءً على حاجة المستخدم
وتذهب محاولات كسر "جدار الذاكرة" إلى مستويات أبعد، حيث تسعى شركة d-Matrix لإلغاء هذا الجدار نهائياً عبر تقنية "الحوسبة داخل الذاكرة"، التي تدمج مكونات الحساب والتخزين في وحدة مادية واحدة لتقليص استهلاك كذلك، تبرز توجّهات نحو "التخصّص المفرط"، وفق ما تفعل شركة Etched، التي تصمّم رقاقات مخصّصة حصرياً لنماذج Transformer، بل وصل الأمر بباحثين في الأكاديمية الصينية للعلوم إلى اقتراح دمج أوزان النماذج مادياً داخل الأسلاك المعدنية للرقاقة، مما يجعلها فائقة الكفاءة الطاقية، وإن كانت غير قابلة للتعديل، وهو ما يمثل مخاطرة في ظل التطور المتسارع للخوارزميات، الذي قد يجعل الرقاقة المتخصّصة خارج الزمن في غضون شهور
لم تكتفِ "إنفيديا" بمراقبة هذا التحوّل التقنيّ من مقعد الريادة، بل استجابت بمرونة استراتيجية عبر الكشف عن رقاقة Groq 3 LPX، المتوقع طرحها وتمثل هذه الرقاقة انعطافة حادّة في مسيرة الشركة، حيث تبتعد عن إرث المعالجات الرسومية التقليدي لتركّز على مهام الاستنتاج، معتمدة على برمجيات فائقة الذكاء تُدير حركة كل قطعة بيانات داخل الرقاقة لتعظيم الكفاءة والسرعة
إننا نشهد اليوم تحوّلًا جوهريًا يتجاوز مجرد السباق نحو أرقام الحساب الضخمة، إذ تنتقل الصناعة من عصر 'الاعتماد على عضلات العتاد' المنهكة للطاقة، إلى عصر في هذا المشهد الجديد، لن تُحسم الريادة لمن يملك المعالج الأضخم أو الأكثر استهلاكاً للكهرباء، بل لمن يبرع في فكّ حصار الذاكرة وتشييد مسارات سلسة لتدفق البيانات، في عالم بات يُقاس فيه التفوق الحقيقي بسرعة الاستجابة لا بضخامة البنيان
*باحث ومدرّب في التحوّل الرقمي