الإثنين، 29 سبتمبر 2025

12:48 م

لفهم الصور وتوليدها، أبل تكشف عن “Manzano” نموذج ذكاء اصطناعي جديد

الإثنين، 29 سبتمبر 2025 09:23 ص

شركة أبل

شركة أبل

محمد السيد

دخلت شركة أبل سباق الذكاء الاصطناعي متعدد الوسائط بالكشف عن نموذج جديد يحمل اسم Manzano، وهو مصمم للتعامل مع الصور بفهمها وتحليلها من جهة، وتوليدها وإنتاجها من جهة أخرى، ظل المجال يمثل تحديًا صعبًا أمام النماذج مفتوحة المصدر التي غالبًا ما تجيد مهمة واحدة على حساب الأخرى، بينما تتفوق النماذج التجارية مثل GPT-4o من OpenAI أو Gemini 2.5 Flash من جوجل في الجمع بين المهمتين.

عينات صور منخفضة الجودة

النموذج الجديد، الذي يعني اسمه "شجرة التفاح" بالإسبانية، لم يُطرح بعد للاستخدام العام، ولم تُقدم أبل نسخة تجريبية عملية، بل نشرت ورقة بحثية تضم عينات صور منخفضة الجودة للمقارنة مع نماذج أخرى مثل Deepseek Janus Pro، وتشير الشركة إلى أن الصعوبة تكمن في أن فهم الصور يتطلب تدفقات بيانات مستمرة، بينما يحتاج التوليد إلى تقسيم الصورة إلى رموز منفصلة، وهو ما يسبب تضاربًا داخل بنية النموذج اللغوي.

مرونة في التعامل مع النصوص والرسوم المعقدة

لمعالجة هذه الإشكالية، اعتمدت أبل على تصميم هجين يستخدم مُرمّز صور مشترك قادر على إنتاج نوعين من الرموز: رموز مستمرة خاصة بالفهم، وأخرى منفصلة للتوليد، وهذا النهج يقلل من التعارض بين المهمتين، ويمنح النظام مرونة في التعامل مع النصوص والرسوم المعقدة، ويتكون Manzano من ثلاثة أجزاء رئيسية: المرمّز الهجين، نموذج لغوي موحد، ومُفكك صور مستقل لإخراج النتائج.

تحليل الوثائق والرسوم البيانية

طورت أبل ثلاث نسخ من مُفكك الصور بأحجام مختلفة (0.9 و1.75 و3.52 مليارات معلمة)، قادرة على معالجة صور بدقة تبدأ من 256 بكسل حتى 2048 بكسل، أما عملية التدريب، فقد استندت إلى قاعدة بيانات ضخمة شملت 2.3 مليار زوج من الصور والنصوص، إضافة إلى مليار زوج نصوص إلى صور، بإجمالي بيانات تجاوز 1.6 تريليون رمز، والنتائج الأولية أظهرت تفوق النموذج على اختبارات معيارية مثل ScienceQA و MMMU و MathVista، خاصة في مهام تحليل الوثائق والرسوم البيانية، مع تحسن ملحوظ كلما زاد حجم النموذج ليصل إلى 30 مليار معلمة.

لبناء أنظمة ذكاء اصطناعي متعددة الوسائط

أظهر Manzano قدرة مميزة على توليد الصور، حيث نفّذ أوامر معقدة، ونجح في محاكاة الأنماط الفنية، وأجرى تعديلات متقدمة مثل الإكمال (inpainting) والتوسيع (outpainting) وتقدير العمق، وترى أبل أن هذه الخطوة تمثل أساسًا مهمًا لبناء أنظمة ذكاء اصطناعي متعددة الوسائط يمكن تحديث مكوناتها بشكل مستقل، ولكنها تعترف في الوقت نفسه أن نماذجها ما زالت خلف بعض المنافسين، وهو ما يفسر اعتمادها على GPT-5 من OpenAI لدعم مزايا Apple Intelligence في نظام iOS 26.

اقرأ أيضًا:

لهواتف الآيفون، بناء تطبيق شبيه بـChatGPT من «أبل»

تابع موقع إيجي إن، عبر تطبيق (نبض) اضغط هــــــــنا
تابع موقع إيجي إن، عبر تطبيق (تليجرام) اضغط هــــــــنا
تابع موقع إيجي إن، عبر قناة (يوتيوب) اضغط هــــــــنا
تابع موقع إيجي إن، عبر تطبيق (واتساب) اضغط هــــــــنا

إيجي إن-Egyin، هو موقع متخصص فيالصناعة والاقتصاد، ويهتم بتقديم خدمة صحفية متميزة للقارئ، وهدفنا أن نصل لقرائنا الأعزاء بالخبر الأدق والأسرع والحصري، إضافة للتغطية والمتابعة على مدار الـ24 ساعة، لـ"أسعار الذهب، أسعار العملات، أسعار السيارات، أسعار المواد البترولية"، في مصر والوطن العربي وحول العالم.

Short Url

search