تحويل إشارات المخ إلى نص عبر الذكاء الاصطناعي
يستطيع نظام الذكاء الاصطناعي الجديد تحويل إشارات الدماغ البشري إلى نص بدقة 97%. اعتاد العالم قوة وتطوّر المُساعِدين الافتراضيين الذين صنعتهم شركات مثل أمازون وجوجل، القادرين على فك شيفرة كلامنا المنطوق بدقة عجيبة مقارنةً بما كانت التكنولوجيا قادرة عليه قبل سنوات قليلة.
ربما نحن قريبين جدًا من أحد أكثر الإنجازات إثارة للدهشة، إذ سيصبح التعرف على الكلمات بمثل سهولة لعبة أطفال. ستستطيع أنظمة الذكاء الاصطناعي ترجمة نشاط دماغنا كاملًا إلى نص، دون حاجة إلى سماع كلمة منطوقة واحدة.
ليس هذا مجرد خيال علمي، فقد تطورت واجهات أجهزة الدماغ سريعًا في العقود الأخيرة، وانتقلت من نماذج الحيوان إلى المشاركين من البشر في محاولة تطبيق ذلك.
يشرح الباحثون من جامعة كاليفورنيا في دراسة جديدة أننا لم نتوصل إلى دقة عالية في هذا المجال حتى الآن. لبحث إمكانية تحسين ذلك، استخدم فريق بقيادة جراح الأعصاب إدوارد تشانغ من مختبر تشانغ التابع لجامعة كاليفورنيا طريقةً جديدة لفك شيفرة المخطط الكهربي لقشرة الدماغ، إذ تسجل النبضات الكهربية التي تحدث في أثناء النشاط القشري، فتلتقطها أقطاب كهربية مزروعة في الدماغ.
أوصل الفريق الأقطاب بأدمغة 4 من مرضى الصرع، لمراقبة النوبات الناجمة عن حالتهم الطبية، وفي تجربة جانبية، طُلب من المشاركين قراءة عدد من الجمل المحددة وتكرارها بصوتٍ عال، في حين سجلت الأقطاب الكهربية نشاطات أدمغتهم في أثناء التمرين.
أُدخلت هذه البيانات في شبكة عصبية حللت أنماط نشاط الدماغ المقابلة لتوقعات كلام محدد، مثل الحروف الساكنة أو المتحركة أو حركات الفم، بناءً على التسجيلات الصوتية للتجربة. بعد ذلك، تفك شبكة عصبية أخرى تشفير هذه التمثيلات (تجمع من تكرار 30 – 50 جملة منطوقة) وتُستخدم في محاولة توقع ما يُقال، بناءً على التوقعات القشرية للكلمات.
في أفضل الحالات، أنتج النظام معدل خطأ للكلمات بنسبة 3% فقط عند تحويل إشارات الدماغ إلى نص، وهذا يقترب من قراءة عقل الإنسان أكثر مما تمكن الذكاء الاصطناعي من قبل على الإطلاق، على الأقل ضمن هذه الظروف التجريبية المحددة بدقة.
فصّل الفريق في بحثهم الكثير من الأمثلة على الجمل المرجعية التي قالها المشاركون، إلى جانب التوقعات التي ولّدتها الشبكة، وقد أخطأت أحيانًا، لكن ليس دائمًا.
رغم ذلك بدت الأخطاء مختلفةً تمامًا عن أخطاء الكلمات التي قد تخطئ الأذن البشرية سماعها، ما قد يكون مجرد تأثير جانبي لمجموعة البيانات المحدودة المقدمة للذكاء الاصطناعي.
من أمثلة الأخطاء: «يستأجر المتحف الموسيقيين كل مساء» التي توقع النظام أن تكون «يستأجر المتحف الموسيقيين كل صباح غال»، «أكل الكلب جزءًا من الكعك» كان من المتوقع أن تكون «الكعكة كانت جزءًا من الكعك»، «تينا تورنر مغنية بوب» أصبحت «هل كان تورنر مغني بوب؟».
أما في الحالات الأقل دقة، فلم يكن للأخطاء أي علاقة دلالية كانت أم صوتية بما قيل: «كانت ترتدي كنزة صوفية دافئة» فُسّرت «كانت الواحة سرابًا».
رغم غرابة الأخطاء، قد يشكل النظام عمومًا معيارًا جديدًا لفك شيفرة نشاط الدماغ القائم على الذكاء الاصطناعي.
وفقًا للفريق فإن النظام في أفضل الحالات يقارب النسخ المحترف للخطاب البشري، إذ يبلغ معدل الخطأ لديه 5%.
يحتاج الناسخون المحترفون الذين يتعاملون مع المتحدثين البشريين العاديين أن يتعاملوا مع مفردات تصل إلى عشرات الآلاف من الكلمات. أما هذا النظام فكان عليه فقط معرفة التوقعات القشرية، أي قرابة 250 كلمة مُستخدمة في مجموعة محدودة من الجمل القصيرة، لذا فهي ليست مقارنة عادلة حقًا.
في حين يوجد الكثير من العقبات التي يجب التغلب عليها، يقترح الفريق أن النطام قد يعمل بوصفه طرفًا اصطناعيًا للمرضى الذين فقدوا النطق، لو أصبح شيء كهذا ممكنًا سيكون أمرًا عظيمًا، أن يجد البعض طريقةً للتواصل مع العالم بطرق تتجاوز كثيرًا ما أظهرته التجارب حتى الآن.
في حال استقاء البيانات من مشارك متصل بالجهاز باستمرار، ستكون البيانات أكثر بنحو نصف ساعة من الكلمات المستخدمة في هذه الدراسة، ما يشير إلى أن مفردات اللغة ومرونتها قد تكونان قابلتين للتوسع كثيرًا.