كثيرة ومتزايدة هي المساعي الهادفة إلى استكشاف كيفية استخدام النماذج اللغوية الكبيرة LLMs في أتمتة المهام البحثية، بما فيها كتابة الأوراق البحثية، وتوليد الأكواد البرمجية، وبحث المؤلفات العلمية. ومع ذلك، كان من الصعب تقييم ما إذا كانت هذه النماذج قادرةً على إنتاج أفكار تتناول البحوث من زوايا جديدة بمستوى يضاهي البشر…
أنتج مولد أفكار يعمل بالذكاء الاصطناعي (AI) أفكارًا بحثية أكثر ابتكارية من تلك التي طرحها 50 عالمًا كان كل منهم يعمل على حدة، بحسب مسوّدة بحثية نُشرت على خادم «آركايف» arXiv في شهر سبتمبر الماضي1.
فقد خضعت مفاهيم من بنات أفكار البشر وأخرى مولدة بالذكاء الاصطناعي لتقييم المحكمين، الذين لم يكونوا على دراية بصانع كل فكرة. قيّم المراجعون المفاهيم المولدة بالذكاء الاصطناعي على أنها أكثر تشويقًا وإثارةً من تلك التي طرحها البشر، وإن حصلتْ مقترحات الذكاء الاصطناعي على تقييم أقل قليلًا من حيث جدواها.
ومع ذلك، ينوه العلماء إلى أن الدراسة، التي لم تخضع للتحكيم بعد، يعتريها بعض أوجه القصور. فهي استهدفت جانبًا وحيدًا من جوانب البحث، وألزمت المشاركين من البشر بطرح أفكارهم على عجالة دون تروٍّ، مما أعاقهم على الأرجح عن الإتيان بأفضل ما لديهم من أفكار.
الذكاء الاصطناعي في العلوم
كثيرة ومتزايدة هي المساعي الهادفة إلى استكشاف كيفية استخدام النماذج اللغوية الكبيرة LLMs في أتمتة المهام البحثية، بما فيها كتابة الأوراق البحثية، وتوليد الأكواد البرمجية، وبحث المؤلفات العلمية. ومع ذلك، كان من الصعب تقييم ما إذا كانت هذه النماذج قادرةً على إنتاج أفكار تتناول البحوث من زوايا جديدة بمستوى يضاهي البشر. ذلك لأن تقييم الأفكار يحتكم إلى معايير شخصية للغاية وغير موضوعية، ويستلزم التفاف الباحثين الذين ينعمون بالخبرة لتقييمها بعناية، حسبما جاء عن تشينجلي ساي، المشارك في إعداد الدراسة، وهو باحث في علوم الحاسب بجامعة ستانفورد بكاليفورنيا. ويتابع ساي قائلًا: “الطريقة المثلى لتناول هذه الإمكانات في سياقها الصحيح هي المقارنة المباشرة”.
ويعد هذا المشروع البحثي، الذي استغرق إجراؤه عامًا، واحدًا من أكبر محاولات تقييم ما إذا كانت النماذج اللغوية الكبيرة – وهي التقنية التي ترتكز عليها أدوات مثل «تشات جي بي تي» – بإمكانها إنتاج أفكار بحثية ابتكارية، بحسب توم هووب، الباحث في علوم الحاسب بمعهد آلن للذكاء الاصطناعي في القدس، الذي يضيف قائلًا: “يتعين إجراء المزيد من هذه النوعية من الأعمال البحثية”.
وقد استعان الفريق البحثي بما يزيد على مئة باحث في مجال معالجة اللغات الطبيعية – وهو فرع من فروع علوم الحاسب يستهدف التواصل بين الذكاء الاصطناعي والبشر. كُلّف 49 مشاركًا من هؤلاء الباحثين بتأليف وكتابة أفكار عن موضوع من إجمالي سبعة موضوعات، في خلال عشرة أيام. وكنوع من الحافز، تقاضى المشاركون 300 دولار أمريكيّ عن كل فكرة، إضافة إلى مكافأة قدرها 1000 دولار عن الأفكار الخمسة التي تحصل على أعلى تقييم.
في تلك الأثناء، طور الباحثون القائمون على الدراسة مولدًا للأفكار باستخدام «كلود 3.5» Claude 3.5، وهو عبارة عن نموذج لغوي كبير طورته شركة «أنثروبيك» Anthropic، الكائنة في مدينة سان فرانسيسكو بكاليفورنيا. ثم وجهوه للعثور على أوراق بحثية ذات صلة بالموضوعات البحثية السبعة بالاستعانة بمحرك بحثي للمنشورات العلمية يعمل بالذكاء الاصطناعي يُدعى «سيمانتيك سكولار» Semantic Scholar. واستنادًا إلى هذه الأوراق البحثية، لقّن الباحثون أداتهم لتوليد 4 آلاف فكرة حول كل موضوع بحثي، ووجهوها إلى تصنيف الأفكار من حيث الأكثر ابتكارية.
محكمون بشريون
ثم ما لبث الباحثون أن عهدوا، على نحو عشوائي، بالأفكار التي من صنع البشر والذكاء الاصطناعي إلى 79 محكمًا، تولوا تقييم كل فكرة بناءً على ما تتسم به من ابتكارية، وإثارة، وجدوى استخدام، وكفاءة متوقعة. ولضمان جهالة المحكِّمين بمن عساه أن يكون صاحب الفكرة، استخدم الباحثون أحد النماذج اللغوية الكبيرة الأخرى لتنقيح كلٍّ من نوعي النصوص بحيث يوحد أسلوب الكتابة ونبرتها دون المساس بالأفكار نفسها.
في المجمل قيّم المحكِّمون الأفكار وليدة الذكاء الاصطناعي على أنها أكثر ابتكاريةً وإثارةً مقارنةً بتلك التي استنبطها المشاركون البشريون. ولكن عندما أمعنوا النظر في الأربعة آلاف فكرة التي أنتجها النموذج اللغوي الكبير، وجدوا أن نحو مئتين منها فقط كانت أفكارًا متفردة بحق، ما يوعز بأن الذكاء الاصطناعي يصير أقل إبداعًا كلما زاد عدد الأفكار التي ينتجها.
وعندما أجرى ساي استبيانًا بين المشاركين يسألهم فيه عن جودة أفكارهم، أقرّ غالبيتهم بأن الأفكار التي قدموها كانت متوسطة الجودة مقارنةً بالأفكار التي أنتجوها في الماضي.
وهكذا، تشير النتائج إلى أن الأفكار التي تنتجها النماذج اللغوية الكبيرة تتجاوز في إبداعها قليلًا ذلك الذي للمنشورات العلمية الحالية، حسبما جاء عن كونج لو، الباحث في مجال تعلم الآلة بجامعة كولومبيا البريطانية في مدينة فانكوفر الكندية. أما من حيث قدرتها على هزيمة أكثر الأفكار البشرية ابتكارًا فهي مسألة لا يمكن الجزم بها.
يؤخذ على الدراسة أيضًا أنها قارنت أفكارًا مكتوبةً خضعت لتحرير النموذج اللغوي الكبير، وهو ما أدى إلى تغيير لغة الأوراق البحثية المقدَّمة وطولها، كما أورد جيفن وست، المتخصص في علم الاجتماع الحاسوبي بجامعة واشنطن في مدينة سياتل الأمريكية. مثل هذه التعديلات ربما أثرت تأثيرًا غير مباشرًا في رؤية المحكمين لمسألة الابتكارية بحسب قول وست، الذي يضيف أن مقارنة الباحثين بأحد النماذج اللغوية الكبيرة القادرة على توليد آلاف الأفكار في ساعات قد لا تتمخض عن مقارنة عادلة تمامًا. يقول: “لا بد من مقارنة الشيء بنظيره”.
وأما ساي وزملاؤه فينوون في الخطوة التالية مقارنة أفكار بحثية من إنتاج الذكاء الاصطناعي بأوراق بحثية بارزة وليدة المؤتمرات الأكاديمية؛ بغيةَ بناء تصور أفضل عن مدى كفاءة النماذج اللغوية الكبيرة مقارنةً بالإبداع البشري. فيقول: “هدفنا هو دفع المجتمع العلمي إلى إمعان التفكير في الصورة التي ينبغي أن يبدو عليها مستقبل يتقلد فيه الذكاء الاصطناعي دورًا أكثر فاعلية في العملية البحثية”.