دو سال و نیم پیش انسانیت شاهد آغاز بزرگترین دستاورد خود بود. یا شاید بهتر باشد بگویم: با آن آشنا شدیم: ChatGPT. از زمان عرضه آن در نوامبر ۲۰۲۲، اتفاقات زیادی رخ داده است و صادقانه بگویم هنوز در دل این آشوب فناوری هستیم. هوش مصنوعی با سرعت سرسامآوری پیش میرود و من میخواستم بفهمم واقعاً پشت پرده چه اتفاقی میافتد.
این مطلب تا حد زیادی از مقاله فوقالعاده فنی Chip Huyen درباره RLHF و نحوه عملکرد ChatGPT الهام گرفته شده است: RLHF: Reinforcement Learning from Human Feedback. در حالی که مقاله اصلی به جزئیات فنی عمیق میپردازد، هدف این متن ارائه مفاهیم به روشی سادهتر برای توسعهدهندگانی است که تازه وارد دنیای هوش مصنوعی شدهاند.
برای درک بهتر، من کاملاً وارد فضای «نردی» شدم:
- تعداد زیادی ویدئوی Andrej Karpathy را تماشا کردم
- کتاب Stephen Wolfram با عنوان What Is ChatGPT Doing … and Why Does It Work? را خواندم و حتی نسخه کتاب را خریدم
- در حال حاضر نیمه راه کتاب AI Engineering: Building Applications with Foundation Models اثر Chip Huyen هستم
این مطلب تلاش من برای خلاصه کردن آموختههایم است؛ یک مرور ساده درباره چگونگی عملکرد چیزی مثل ChatGPT. چون صادقانه بگویم، اگر شما با هوش مصنوعی کار میکنید (حتی فقط از آن استفاده میکنید)، باید درک ابتدایی از اتفاقات پشت صحنه داشته باشید.
با کمی وقت گذاشتن روی این موضوع، مهارت شما در موارد زیر به شدت افزایش مییابد:
- نوشتن prompt بهتر
- رفع خطا (debugging)
- ساخت ابزارهای هوش مصنوعی
- همکاری هوشمندانه با این سیستمها
بیایید شروع کنیم.
وقتی از ChatGPT استفاده میکنید، چه اتفاقی میافتد؟

تکمیل پیشرفته: ChatGPT چگونه حدس میزند بعد چه میآید؟
فکر کنید وقتی روی گوشی خود پیام مینویسید و گوشی کلمه بعدی را پیشنهاد میدهد. ChatGPT بر اساس همان اصل عمل میکند، اما با سطحی بسیار پیشرفتهتر. به جای نگاه کردن فقط به آخرین کلمه، به همه چیزی که تا کنون نوشتهاید نگاه میکند.
متن شما به «توکن» تبدیل میشود
توکنها مانند واحدهای واژگانی هستند که مدلهای هوش مصنوعی آنها را میفهمند. اینها همیشه کلمات کامل نیستند؛ گاهی یک توکن یک کلمه کامل مثل «hello» است، گاهی بخشی از یک کلمه مثل «ing» و گاهی فقط یک کاراکتر است. شکستن متن به این واحدها به مدل کمک میکند زبان را مؤثرتر پردازش کند.
مثالی ساده:
جملهی "I love programming in JavaScript" ممکن است به این توکنها تقسیم شود:['I', ' love', ' program', 'ming', ' in', ' Java', 'Script']
متوجه میشویم که «programming» به «program» و «ming» تقسیم شده و «JavaScript» به «Java» و «Script». این همان چیزی است که مدل میبیند.
این توکنها به اعداد تبدیل میشوند
مدل متن را نمیفهمد، بلکه با اعداد کار میکند. بنابراین هر توکن به یک عدد منحصر به فرد تبدیل میشود، مثل:[20, 5692, 12073, 492, 41, 8329, 6139]
مدل یک بازی پیچیده «چه چیزی بعد میآید؟» را انجام میدهد
بعد از پردازش متن، ChatGPT احتمال هر توکن بعدی ممکن در دایره لغات خود (که شامل صدها هزار گزینه است) را محاسبه میکند.
مثال: اگر تایپ کنید "The capital of France is"، مدل ممکن است محاسبه کند:
"Paris": احتمال ۹۲٪"Lyon": احتمال ۳٪" located": احتمال ۱٪- [هزاران احتمال دیگر با شانس کمتر]
سپس یک توکن را بر اساس این احتمالات انتخاب میکند (معمولاً توکن با احتمال بالا، اما گاهی کمی تصادف برای خلاقیت هم وارد میشود).
این فرایند توکن به توکن تکرار میشود
بعد از انتخاب یک توکن، آن را به متن دیده شده اضافه میکند و احتمالات توکن بعدی را محاسبه میکند. این کار ادامه مییابد تا پاسخ کامل شود.
مثال قابل درک
این فرآیند شبیه حدس زدن آخرین کلمه در جملهی "Mary had a little ___" است. شما احتمالاً میگویید "lamb" چون این الگو را دیدهاید. ChatGPT میلیاردها نمونه متن دیده است، بنابراین میتواند حدس بزند چه چیزی معمولاً در زمینههای مختلف بعد میآید.
خودتان امتحان کنید
میتوانید از توکنایزر تعاملی dqbd استفاده کنید تا ببینید متن چگونه به توکنها تقسیم میشود.

تصور کنید پیشرفتهترین «تکمیل خودکار» دنیا را دارید
ChatGPT در واقع «تفکر» نمیکند؛ بلکه بر اساس الگوهایی که از متنهای گذشته یاد گرفته، پیشبینی میکند که متن بعدی چه باید باشد.
حالا که میدانیم ChatGPT چگونه توکنها را پیشبینی میکند، بیایید فرآیند جذابی را بررسی کنیم که باعث میشود مدل بتواند این پیشبینیها را انجام دهد. چگونه یک مدل یاد میگیرد متن شبیه انسان تولید کند و بفهمد؟
فرآیند سه مرحلهای آموزش

ابتدا، مدل باید یاد بگیرد زبان چگونه کار میکند (و کمی هم دانش پایهای درباره جهان کسب کند). وقتی این مرحله انجام شد، مدل اساساً یک «تکمیل خودکار پیشرفته» است. سپس باید آن را به گونهای تنظیم کنیم که مثل یک دستیار چت مفید رفتار کند. در نهایت، انسانها وارد چرخه میشوند تا مدل را به سمت پاسخهایی که واقعاً میخواهیم سوق دهند و از پاسخهایی که نمیخواهیم دور کنند.
یک تصویر معروف در فضای AI این مفهوم را به شکل طنزآمیز نشان میدهد: مدل قبل از آموزش دقیق (pre-trained) دادههای عظیمی از اینترنت را جذب کرده و میتواند خطرناک یا مضر باشد. «چهره دوستانه» نشان میدهد که با تنظیم دقیق و همسو کردن مدل، این مدل خام به چیزی مفید و ایمن برای تعامل با انسان تبدیل میشود.
۱. پیشآموزش: یادگیری از اینترنت
مدل مقادیر بسیار زیادی از متنهای اینترنتی را دانلود و پردازش میکند. وقتی میگویم «بسیار زیاد» واقعاً منظورم همین است:
- GPT-3 بر روی ۳۰۰ میلیارد توکن آموزش دیده (مثل خواندن میلیونها کتاب!)
- LLaMA بر روی ۱.۴ تریلیون توکن آموزش دیده
- CommonCrawl، یکی از منابع اصلی داده، هر ماه حدود ۳.۱ میلیارد صفحه وب را جمعآوری میکند (با ۱.۰ تا ۱.۴ میلیارد URL جدید هر بار)
در مرحله پیشآموزش چه اتفاقی میافتد؟
- شرکتهایی مانند OpenAI دادههای خام اینترنت را فیلتر میکنند
- اسپم، محتوای بزرگسالان، سایتهای آلوده و غیره حذف میشوند
- متنهای پاکشده به توکن تبدیل میشوند
- مدل یاد میگیرد توکن بعدی در یک دنباله چه خواهد بود
۲. تنظیم دقیق تحت نظارت: یادگیری نقش دستیار
اینجاست که جادو رخ میدهد: تبدیل یک پیشبینیکننده ساده متن به یک دستیار هوشمند. فکر کنید: پس از پیشآموزش، مدل اساساً فقط در تکمیل خودکار بسیار خوب است. میتواند حدس بزند کلمات بعدی چه هستند، اما نمیداند چگونه مکالمه داشته باشد یا مفید باشد.
نقش انسانها در آموزش
- مربیان متخصص هزاران نمونه مکالمه تولید میکنند
- این مربیان معمولاً تحصیلات دانشگاهی دارند (۹۰٪ آنها دارای مدرک دانشگاهی هستند)
- هر مربی باید آزمون سختی را بگذراند
- آنها بین ۱۰،۰۰۰ تا ۱۰۰،۰۰۰ نمونه آموزشی تولید میکنند
نمونهای واقعی از دادههای آموزشی OpenAI
انسان: «Serendipity به معنای وقوع و توسعه رویدادها به صورت تصادفی و خوشایند است. این کلمه را در یک جمله استفاده کن.»
دستیار: «برخورد با مارگارت و آشنا شدن با تام یک نمونه خوشایند از serendipity بود.»
تفاوت پیشآموزش و تنظیم دقیق
فقط پیشآموزش (مرحله ۱):
انسان: میتوانی به من توضیح دهی recursion در برنامهنویسی چیست؟
مدل: recursion زمانی است که یک تابع خودش را فراخوانی میکند. مثال در پایتون:def factorial(n): if n == 0: return 1 return n * factorial(n-1)این تابع فاکتوریل یک عدد را با recursion محاسبه میکند. برای اطلاعات بیشتر، به سایت www.codingsite.com مراجعه کنید یا دوره پیشرفته ۴۹.۹۹ دلاری ما را بخرید!
پس از تنظیم دقیق (مرحله ۲):
انسان: میتوانی به من توضیح دهی recursion در برنامهنویسی چیست؟
دستیار: recursion را به شکلی واضح و مفید توضیح میدهم. recursion زمانی است که یک تابع خودش را برای حل یک مسئله با تقسیم آن به زیرمسائل مشابه فراخوانی میکند. مثال ساده:تصور کنید بین دو آینه به خود نگاه میکنید – نسخههای کوچکتری از خودتان را بینهایت میبینید. در برنامهنویسی هم مشابه است:
- تابع بازگشتی یک حالت ساده را مدیریت میکند (Base Case)
- برای حالتهای بزرگتر، مسئله را تقسیم کرده و خودش را فراخوانی میکند
- این کار تا رسیدن به Base Case ادامه دارد
میخواهید یک مثال عملی در کد هم نشان بدهم؟
تفاوتها
- مدل پیشآموزش فقط بر اساس دادههای اینترنت، توکنهای محتمل بعدی را پیشبینی میکند
- ممکن است تبلیغات یا محتوای نامناسب ارائه دهد
- نمیداند که باید یک دستیار باشد
مدل تنظیمشده:
- میداند یک دستیار هوش مصنوعی است
- لحن حرفهای و کمککننده دارد
- توضیحات واضح ارائه میدهد
- میپرسد کاربر به کمک بیشتری نیاز دارد یا نه
- از محتوای نامناسب و تبلیغات دوری میکند
چیزی که مدل یاد میگیرد
از طریق این مثالها، مدل میآموزد:
- چه زمانی سوالهای تکمیلی بپرسد
- چگونه توضیحات را ساختاربندی کند
- چه لحن و سبک زبانی استفاده کند
- چگونه مفید باشد و در عین حال اخلاقی عمل کند
- چه زمانی بگوید چیزی را نمیداند
نکته مهم: وقتی با ChatGPT صحبت میکنید، با یک هوش مصنوعی جادویی روبرو نیستید بلکه با مدلی تعامل میکنید که از طریق هزاران مکالمه آموزشی دقیق یاد گرفته پاسخهای مفید ارائه دهد. این مدل الگوهایی را دنبال میکند که از آموزشهای انسانی به دست آورده است.

۳. یادگیری تقویتی: یادگیری برای بهبود (بهینهسازی اختیاری)
دو مرحله اول مثل مواد اولیه اصلی آشپزی هستند، بدون آنها نمیتوان غذا را درست کرد. مرحله سوم مانند داشتن یک سرآشپز حرفهای است که طعم غذا را تست و دستور را بهینه میکند. این مرحله الزاماً ضروری نیست، اما کیفیت نتیجه را به شکل قابل توجهی بالا میبرد.
یک مثال ملموس از این بهینهسازی:
انسان: پایتخت فرانسه کجاست؟
پاسخهای احتمالی مدل:
- A: «پایتخت فرانسه پاریس است.»
- B: «پاریس پایتخت فرانسه است. با جمعیتی بیش از ۲ میلیون نفر، این شهر به خاطر برج ایفل، موزه لوور و میراث فرهنگی غنیاش شناخته میشود.»
- C: «اجازه بدهید درباره پایتخت فرانسه برایتان بگویم! 🗼 پاریس شهر بسیار زیبایی است! من خیلی آنجا را دوست دارم، البته چون من یک هوش مصنوعی هستم، هنوز به آنجا نرفتهام 😊 غذاها عالی هستند و…»
سپس رتبهبندی توسط ارزیابان انسانی انجام میشود:
- پاسخ B بالاترین رتبه را میگیرد (اطلاعات مفید و مختصر)
- پاسخ A رتبه متوسط دارد (صحیح اما کوتاه)
- پاسخ C پایینترین رتبه را میگیرد (زیاد گپوگفت دارد و حاوی نظرات شخصی غیرضروری است)
مدل از این ترجیحات یاد میگیرد:
- ارائه اطلاعات مفید اما نه بیش از حد، خوب است
- تمرکز روی سوال مهم است
- اجتناب از تجربههای شخصی جعلی بهتر است
فرآیند آموزش
- مدل پاسخهای مختلفی به همان سؤال ارائه میدهد
- هر پاسخ توسط مدل پاداشدهی (reward model) امتیاز میگیرد
- پاسخهای با امتیاز بالا تقویت میشوند (مثل دادن تشویقی به سگ)
- مدل به تدریج یاد میگیرد چه چیزی انسانها را راضی میکند
یادگیری تقویتی از بازخورد انسانی (RLHF) مثل آموزش مهارتهای اجتماعی به هوش مصنوعی است. مدل پایه دانش لازم را دارد (از پیشآموزش)، اما RLHF به آن میآموزد چگونه این دانش را به شکلی به کار ببرد که برای انسانها مفید باشد.
چرا این مدلها خاص هستند؟
برای فکر کردن به توکنها نیاز دارند
برخلاف انسانها، این مدلها باید محاسبات خود را روی چندین توکن تقسیم کنند. هر توکن تنها مقدار محدودی از محاسبه را میتواند دریافت کند.
آیا تا به حال توجه کردهاید که ChatGPT مسائل را مرحلهبهمرحله حل میکند و فوراً به جواب نمیپرد؟ این فقط برای راحتی شما نیست، بلکه به این دلیل است که:
- مدل تنها میتواند محاسبات محدودی برای هر توکن انجام دهد
- با تقسیم منطق روی چند توکن، مسائل پیچیدهتر را حل میکند
- به همین دلیل درخواست «جواب فوری» اغلب منجر به پاسخ اشتباه میشود
مثال ملموس:
Prompt بد (جواب فوری):
«بدون توضیح، جواب نهایی را بده: هزینه خرید ۷ کتاب هرکدام ۱۲.۹۹ دلار با مالیات ۸.۵٪ چقدر است؟ فقط عدد نهایی.»
این روش بیشتر احتمال خطا دارد، چون امکان تقسیم محاسبات روی توکنها را محدود میکند.
Prompt خوب (اجازه به تفکر توکنی):
«هزینه کل خرید ۷ کتاب هرکدام ۱۲.۹۹ دلار با مالیات ۸.۵٪ را حساب کن. لطفاً مراحل محاسبه را مرحلهبهمرحله نشان بده.»
این اجازه میدهد مدل مسئله را تقسیم کند:
- هزینه پایه: ۷ × ۱۲.۹۹ = ۹۰.۹۳
- مالیات فروش: ۹۰.۹۳ × ۰.۰۸۵ = ۷.۷۳
- هزینه کل: ۹۰.۹۳ + ۷.۷۳ = ۹۸.۶۶ دلار
روش دوم قابل اعتمادتر است، زیرا به مدل اجازه میدهد محاسبات را روی چندین توکن پخش کند و احتمال خطا را کاهش دهد.
Context پادشاه است
آنچه این مدلها میبینند بسیار متفاوت از آن چیزی است که ما میبینیم:
- ما کلمات، جملات و پاراگرافها را میبینیم
- مدلها شناسه توکنها (اعدادی که نماینده قطعات متن هستند) را میبینند
- یک Context Window محدود وجود دارد که مشخص میکند مدل چقدر میتواند همزمان ببیند
وقتی متنی را در ChatGPT میگذارید، مستقیماً وارد این Context Window (حافظه کاری مدل) میشود. به همین دلیل وارد کردن اطلاعات مرتبط بهتر از این است که انتظار داشته باشید مدل چیزی را که آموزش دیده به یاد بیاورد.
مشکل «پنیر سوئیسی»

این مدلها آنچه Andrew Karpathy آن را «تواناییهای پنیر سوئیسی» مینامد دارند یعنی در بسیاری از حوزهها فوقالعادهاند، اما حفرههای غیرمنتظرهای دارند:
- میتوانند مسائل پیچیده ریاضی را حل کنند، اما مقایسه ۹.۱۱ با ۹.۹ را اشتباه انجام دهند
- میتوانند کد پیچیده بنویسند، اما ممکن است تعداد کاراکترها را درست نشمارند
- میتوانند پاسخهای سطح انسانی تولید کنند، اما در مسائل ساده منطقی اشتباه کنند
این اتفاق به دلیل نحوه آموزش و فرایند توکنسازی است. مدلها کاراکترها را مانند ما نمیبینند، آنها توکنها را میبینند، که برخی وظایف را غیرمنتظره سخت میکند.
چگونه از مدلهای زبان بزرگ (LLM) به شکل مؤثر استفاده کنیم
پس از همه تحقیقات، این توصیهها را دارم:
- از آنها به عنوان ابزار استفاده کنید، نه پیشگو: همیشه اطلاعات مهم را بررسی کنید
- به آنها «توکن» بدهید تا فکر کنند: اجازه دهید مرحلهبهمرحله استدلال کنند
- دانش را در Context قرار دهید: اطلاعات مرتبط را وارد کنید، نه اینکه انتظار داشته باشید مدل همه چیز را به خاطر بسپارد
- محدودیتهای آنها را درک کنید: با مشکل «پنیر سوئیسی» آشنا باشید
- از مدلهای استدلالی استفاده کنید: برای مسائل پیچیده، از مدلهایی استفاده کنید که مخصوص استدلال طراحی شدهاند




