كيف تعمل نماذج اللغة الكبيرة

منذ إطلاق ChatGPT في نهاية 2022، أصبحت نماذج اللغة الكبيرة (LLMs) على كل لسان. لكن ما الذي يحدث فعلاً داخل هذه النماذج؟ كيف تقرأ سؤالك وتُنتج إجابة تبدو كأنها صادرة من إنسان؟ هذا المقال يُزيل الغموض خطوة بخطوة.

ما هو نموذج اللغة الكبير؟

نموذج اللغة الكبير هو شبكة عصبية اصطناعية ضخمة تعلّمت على كميات هائلة من النصوص البشرية — كتب، مواقع إنترنت، مقالات علمية، محادثات. الهدف البسيط: التنبؤ بالكلمة التالية.

"أبسط وصف لنموذج لغوي: آلة تُكمل الجملة. لكن من هذه البساطة الظاهرة تنبثق قدرات مذهلة."

عندما تكتب "عاصمة فرنسا هي ..."، يحسب النموذج احتمالية كل كلمة ممكنة وتكون "باريس" هي الأعلى بفارق كبير — ليس لأنه يعرف "الحقيقة"، بل لأن هذا التسلسل تكرر كثيراً في بيانات التدريب.

بنية Transformer: القلب النابض

ظهر معمار Transformer في ورقة بحثية شهيرة من Google عام 2017. قبله كانت النماذج تقرأ النصوص كلمة بكلمة بالتسلسل — بطيء ومحدود. Transformer يقرأ الجملة كاملة دفعة واحدة ويفهم العلاقة بين كل كلمة وأخرى.

💡 مثال على Attention

في جملة "أحمد أكل التفاحة لأنها لذيذة"، يفهم النموذج أن "لذيذة" تعود على "التفاحة" لا على "أحمد" — هذا هو Attention: تحديد ما الذي يرتبط بماذا في الجملة.

مراحل تدريب النموذج

1. Pre-training — التدريب الأساسي

النموذج يرى مليارات الجمل ويتعلم التنبؤ بكل كلمة تالية. هذا يستهلك آلاف وحدات GPU لأسابيع أو أشهر ويكلف ملايين الدولارات. الناتج: نموذج "خام" يعرف الكثير لكنه غير مُوجَّه.

2. Fine-tuning و RLHF

لجعل النموذج مفيداً وآمناً، تأتي مرحلة RLHF (Reinforcement Learning from Human Feedback). بشر حقيقيون يُقيّمون إجابات النموذج، وهذه التقييمات تُعلّمه ما هو مفيد وما هو ضار.

# مثال مبسط على آلية Attention
def attention(query, key, value):
    scores = query @ key.T / math.sqrt(d_k)
    weights = softmax(scores)
    return weights @ value

الـ Tokens: وحدة الفهم

النماذج لا تقرأ حروفاً ولا كلمات كاملة — تقرأ Tokens. في الإنجليزية Token يساوي تقريباً ¾ كلمة. في العربية أحياناً كلمة كاملة تساوي token واحد أو ثلاثة حسب التشكيل والطول. GPT-4 يعالج حتى 128,000 token في طلب واحد.

لماذا "يكذب" النموذج أحياناً؟

ظاهرة Hallucination تحدث لأن النموذج يُولّد أكثر ما هو محتمل إحصائياً، لا ما هو صحيح واقعياً. الحل الجزئي: RAG (Retrieval Augmented Generation) — ربط النموذج بمصادر خارجية موثوقة.

مقارنة النماذج الكبرى

كل نموذج له فلسفته: GPT-4 من OpenAI يتميز باتساع المعرفة العامة، Claude من Anthropic يُصمَّم بتركيز على السلامة والاستدلال الطويل، Gemini من Google يندمج مع بحث الويب ومنتجات Google. لا يوجد "الأفضل مطلقاً" — يعتمد على المهمة.

الخلاصة: نماذج اللغة الكبيرة ليست سحراً — هي رياضيات وإحصاء وبيانات هائلة. فهم آليتها يجعلك تستخدمها أذكى وتثق بها بقدر أكثر دقة.

كيف تعمل نماذج اللغة الكبيرة؟ دليل شامل بالعربي