ما هي الرؤية الحاسوبية Computer vision وتطبيقاتها (شرح سهل)

في عصر تكنولوجيا الذكاء الاصطناعي تتفتح أفق الإبداع مع الرؤية الحاسوبية هذه التقنية حققت إنجازات مذهلة في فهم وتحليل الصور التي يتم جمعها من الكاميرات الرقمية حيث تسمح مثل هذه الابتكارات للأنظمة التفاعل مع البيئة بطرق غير مسبوقة.

في هذا المقال، سأقدم لك نظرة عامة على مفاهيم وتحديات وخوارزميات الرؤية الحاسوبية، وسأعرض لك بعض الأمثلة العملية والنظرية لكيفية استخدامها لحل مشاكل العالم الحقيقي. كما سأشارك معكم بعض المصادر والمراجع المفيدة لمن يريد تعلم أو تعمق معرفته بالرؤية الحاسوبية.

هيا بنا نبدأ القراءة.

شرح Computer vision بالعربي


الرؤية الحاسوبية علم من علوم الحاسوب وأحد أهم مجالات الذكاء الاصطناعي (Artificial Intelligence) التي تمكن الآلات الذكية من التعرف على الأشياء والأشخاص في الصور و مقاطع الفيديو وتحليلها باستخدام  تقنيات التعلم الآلي (Machine Learning) والشبكات العصبية العميقة لتحقيق هذا الهدف.

ببساطة، يشبه مجال رؤية الحاسوب إعطاء الأجهزة القدرة على "رؤية" وفهم العالم المرئي (Visual) تماما كما يفعل البشر.

يتضمن تعليم Machines تفسير أشكال الصور أو Videos وفهمها، تخيل لو كان لجهاز حاسوبك القدرة على فهم (Understanding) المشاهد أو حتى التعرف على وجوه الأشخاص في Image هذا هو سحر هذا المجال.

تعمل الرؤية الحاسوبية بنفس طريقة الرؤية البشرية باستثناء أن الحواسيب في حاجة إلى تدريب أكثر لتمييز الصور والمعلومات الرمزية وفيما يلي مثال بسيط لكيفية عمل رؤية الحاسوبيّة:

1. تلتقط الكاميرا صورة سيارة وترسلها إلى جهاز الكمبيوتر.

2. يستخدم الكمبيوتر شبكة عصبية تلافيفية (CNN) لتقسيم الصورة إلى وحدات بكسل وتعيين تسميات لها مثل: "العجلة"، و"النافذة"، و"الباب"، وما إلى ذلك.

3. يستخدم الكمبيوتر التسميات لإجراء العمليات الحسابية والتنبؤات حول ماهية الصورة وما هي الميزات التي تحتوي عليها.

4. يقوم الكمبيوتر بإخراج النتيجة مثل "هذه سيارة لها أربع عجلات وبابين وفتحة سقف".


تاريخ الرؤية الحاسوبية


يتميز هذا المجال بتطورات كبيرة في التكنولوجيا والذكاء الاصطناعي، لذلك سنستعرض في الفقرات الموالية معًا مراحل تطور Computer vision من فترة الخمسينات إلى الابتكارات الرائدة في عصرنا الحديث، لنكتشف كيف استطاعت الرؤية الحاسوبية تحقيق نقلة نوعية لفهم (Understand) العالم من حولنا:

1. تم اختراع أول ماسح ضوئي للصور الرقمية في عام 1959 الذي قام بتحويل الصور إلى شبكات من الأرقام.

2. في ستينيات القرن الماضي، بدأ الباحثون في معهد ماساتشوستس للتكنولوجيا وجامعات أخرى باستكشاف فكرة محاكاة النظام البصري البشري وإنشاء أنظمة اصطناعية يمكنها استخلاص المعلومات من الصور (Image).

3. في عام 1980، بنى كونيهيكو فوكوشيما "Neocognitron" مقدمة الشبكات العصبية التلافيفية الحديثة والتي تمثل العمود الفقري للعديد من خوارزميات (Algorithms) رؤية الكمبيوتر اليوم.

4. في التسعينيات، حققت الرؤية الحاسوبية تقدمًا كبيرًا في مجالات مثل: اكتشاف الوجه، وتتبع الفيديو، باستخدام الأساليب الإحصائية والهندسية.

5. في العقد الأول من القرن الحادي والعشرين، أصبحت الرؤية Computational أكثر سهولة وشعبية، وذلك بفضل توفر مجموعات البيانات الكبيرة، والأجهزة القوية، والبرامج مفتوحة المصدر.

في هذه الفترة بدأت Google وFacebook وغيرهما من عمالقة التكنولوجيا في الاستثمار في أبحاث وتطبيقات رؤية الكمبيوتر.

6. في العقد الأول من القرن الحادي والعشرين شهدت الرؤية الحاسوبية ثورة حيث تجاوزت تقنيات التعلم العميق (Deeplearning) الأساليب التقليدية في العديد من المهام مثل: تصنيف الصور (Image) وتقسيمها وتوليدها بحيث أصبحت أكثر تكاملاً مع المجالات الأخرى كمجال معالجة اللغة الطبيعية، والروبوتات، وعلم الأعصاب.

7. في عشرينيات القرن الحادي والعشرين ستستمر الرؤية الحاسوبية في التطور والابتكار، ومعالجة التحديات الجديدة مثل: الهجمات العدائية، والخصوصية.

تهدف الرؤية Computational أيضًا إلى تحقيق فهم أكثر عمومية وشبيهًا بالإنسان للمشاهد المرئية، بما يتجاوز المهام المحددة.

ايجابيات وسلبيات الرؤية الحاسوبية


1. المزايا:


  • Vision الحاسوب قادرة على معالجة المعلومات المرئية بشكل أسرع وأكثر دقة من الإنسان مما يمكن أن يحسن الكفاءة والإنتاجية في مختلف المجالات.

  • يمكنه تعزيز القدرات البشرية من خلال توفير الواقع المعزز، والتعرف على الوجوه، والواقع الافتراضي وغيرها من التطبيقات (Applications) التي يمكن أن تثري حياتنا وتجاربنا.

  • تقليل التكاليف والمخاطر عن طريق أتمتة المهام الخطيرة التي تتطلب مهارات متخصصة مثل: التشخيص الطبي والملاحة المستقلة.

  •  يمكن أن يخلق فرصاً وتطبيقات جديدة لم تكن ممكنة من قبل مثل: المنازل الذكية، والسيارات ذاتية القيادة، والتجارة الإلكترونية.

2. العيوب:


تتمتع رؤية الحاسوب بإمكانات هائلة لمواجهة مجموعة متنوعة من التحديات وتحسين نوعية الحياة لكثير من الناس، ومع ذلك فإن لها أيضا بعض العيوب والقيود:

  • يتطلب الأمر الكثير من بيانات والقدرة حاسوبية لتدريب وتشغيل الخوارزميات المعقدة، الأمر الذي قد يكون مكلفًا ويستغرق وقتًا طويلاً.

  • يمكن أن تتأثر بالضوضاء وعوامل أخرى التي تؤدي إلى تدهور جودة وموثوقية المدخلات المرئية (Inputs).

  • يمكن أن يثير قضايا أخلاقية واجتماعية مثل: الأمن والتحيز والمساءل والتي تحتاج إلى معالجة وتنظيم.

  • يمكن أن يكون لها عواقب وآثار غير مقصودة مثل: إزاحة العاملين من البشر (Human)، والتأثير على السلوك البشري.

ما هي أبرز تطبيقات الرؤية الحاسوبية ؟


الرؤية حاسوبية لها عدة تطبيقات في مختلف الصناعات مثل:

1. تقنيات التعرف على الوجوه


تقوم Face Recognition بتطابق صور (Image) الوجوه من خلال التحليل البصري وتستخدم في العديد من المجالات مثل: الشبكات الاجتماعية و كاميرا المراقبة وهي تساعد في تحقيق الأمن في بعض الحالات، لكنها تثير انتقادات بشأن حول الخصوصية.

2. السيارات ذاتية القيادة


لقد بدأت المركبات المستقبلية تجوب الطرقات الآن خاصة في الولايات المتحدة، بحيث تعتمد على الرؤية حاسوبية لأنها تمكنها من تحليل (Analyzing) محيطها في الوقت الفعلي والتنقل في الطريق بأمان ولفهم المدخلات المرئية من كاميراتها وأجهزة الاستشعار الأخرى وإدراك سيارات الأخرى التي بجانبها وإشارات المرور والممرات والحواجز وغيرها من الأشياء.

3.  بناء نموذج ثلاثي الأبعاد


تقنية الرؤية ثلاثية الأبعاد تمكن المستخدمين من تجربة صور ثلاثية الأبعاد غامرة وواقعية عبر إنشاء تمثيل رقمي لجسم أو مشهد ثلاثي الأبعاد باستعمال تقنيات الرؤية الحاسوبية على أنواع مختلفة مثل: الرسوم المتحركة والألعاب والمحاكاة والتعليم.

وتعمل الرؤية 3D عن طريق إنشاء صورتين مختلفتين قليلًا لكل عين والتي يتم دمجها بعد ذلك بواسطة الدماغ لخلق إحساس بالعمق.

4. البيع بالتجزئة


يمكن للرؤية الحاسوبية تحليل حركة العملاء وسلوكهم في المتجر وتعزيز تجاربهم وإنشاء خرائط توضح مناطق حركة المرور العالية والمنخفضة، ووقت المكوث، ومعدل التحويل. يمكن أن يساعد ذلك تجار التجزئة على تحسين تخطيط المتجر ووضع المنتج واستراتيجيات الترويج.

إضافة للتعرف على المنتجات والعلامات التجارية من الصور وتوفير المعلومات ذات الصلة كالسعر والمراجعات والتوصيات، فعلى سبيل المثال يستخدم Amazon Go الرؤية الحاسوبية لتمكين التسوق بدون صرف نقدي.

5. الألعاب


تستخدم بعض الألعاب ميزة التعرف على الإيماءات للسماح للاعبين بالتفاعل مع اللعبة باستخدام حركات أجسادهم دون الحاجة إلى وحدات تحكم أو لوحات مفاتيح كلعبة Kinect Sports التي تستخدم هذه الميزة لتتبع حركات اللاعبين وترجمتها إلى إجراءات في مختلف الألعاب الرياضية.

ما هي أشهر خوارزميات الرؤية الحاسوبية ؟


خوارزميات الرؤية الحاسوبية لها دور هام في تعزيز الأنظمة ذكية ومن بينها:

1. SIFT


خوارزمية SIFT هي اختصار لـ Scale Invariant Feature Transform تستخدم خوارزمية تحويل صفة Image غير مرتبط بمقياس لتحديد ومطابقة ميزات محلية من الصور مثل: الزوايا أو النقط تتميز ميزات SIFT بأنها ثابتة للتغييرات في المقياس والدوران والإضاءة مما يجعلها مفيدة لمطابقة الصور والتعرف على الأشياء والمشاهد.

تتكون خوارزمية SIFT من أربع خطوات رئيسية: اكتشاف نقاط الاهتمام في مساحة مقياس غاوسي، تحديد مواقع ومقاييس دقيقة لهذه النقاط، تعيين اتجاهات لها، وإنشاء متجهات ميزة متعددة الأبعاد لوصفها.

2. CNN


الشبكات العصبية التلافيفية (CNNs) هي نوع من نماذج Deep Learning التي تستخدم طبقات متعددة من المرشحات لاستخراج الميزات من الصور (Images).

إنها فعالة جداً لتصنيف الصور Image Classification حيث يمكنها تعلم الأنماط والتسلسلات الهرمية المعقدة للميزات من مجموعات البيانات الكبيرة.

3. R-CNN


الشبكات العصبية التعددية القائمة على المنطقة (R-CNNs) هي مجموعة من الخوارزميات التي تجمع بين شبكات CNN وطرق اقتراح المنطقة لإجراء اكتشاف الكائنات.

يمكنهم تحديد موقع كائنات متعددة وتصنيفها في صورة ما عن طريق تطبيق CNN على كل منطقة محل اهتمام.

4. التدفق البصري - Optical Flow


التدفق البصري هو تقنية تعمل على تقدير حركة وحدات البكسل بين الإطارات المتتالية لمقطع الفيديو. يمكن استخدامه لتتبع كائنات المقطع وفهم المشهد.

5. Shape from X


عبارة عن مجموعة من الخوارزميات التي تستخدم الهندسة الإسقاطية لاستنتاج الشكل ثلاثي الأبعاد 3D لكائن ما من صورة ثنائية الأبعاد أو إطار فيديو واحد.

يمكن أن تكون علامة X عبارة عن نسيج أو حركة أو إشارات أخرى توفر معلومات حول عمق الكائن واتجاهه.


ما هو الهدف الرئيسي للرؤية الحاسوبية ؟


الهدف الرئيسي من الرؤية حاسوبية هو تمكين أجهزة الكمبيوتر (Computers) و الأنظمة من استخلاص معلومات ذات مغزى من الصور الرقمية ومقاطع الفيديو والمدخلات المرئية الأخرى - واتخاذ إجراءات أو تقديم توصيات بناء على تلك المعلومات. 

كما تحاكي تعقيد نظام الرؤية البشرية والذي يتضمن العيون والمستقبلات والقشرة البصرية.

لماذا ندرس رؤية الحاسب ؟


دراسة مجال الرؤية الحاسوبية مهم للغاية ولديه مستقبل واعد غير ذلك فهي تساعدنا في تحسين نوعية حياتنا وخلق إمكانيات جديدة.

كما يمكن أن تزودنا برؤى ووجهات نظر جديدة قد لا نتمكن من تحقيقها بالرؤية البشرية وحدها لكنه يبقى مجال صعب لأنه يتطلب الكثير من المهارات التقنية.

خاتمة

في نهاية هذا الرحلة الملهمة في عالم الرؤية الحاسوبية، ندرك بوضوح أن تلك التقنية ليست مجرد العديد من الخوارزميات والأرقام بل هي نافذة مشرقة نطل من خلالها على مستقبل ذكي وملهم.

إذ تزيد الرؤية الحاسوبية من ذكاء الأنظمة وتحسن حياتنا بشكل ملحوظ بينما نستعرض إنجازاتها في تحسين الصناعات وتشكيل واقعنا، ننظر إلى الأمام بتفاؤل إلى عصر حيث تبقى التقنية هي المحرك لتحقيق المزيد من الإبداع والتقدم.