۱ خرداد ۱۴۰۵
RAG فارسی در سامانههای سازمانی: از مستند تا پاسخ دقیق
چگونه بازیابی تقویتشده (RAG) را برای پایگاه دانش فارسی، قراردادها و راهنمای کاربری سامانههای ملی پیادهسازی کنیم.
بازدید: ۱۵۸
مدلهای زبانی بزرگ بدون زمینه سازمانی، پاسخهای نادقیق یا توهمآمیز میدهند. RAG (Retrieval-Augmented Generation) با اتصال مدل به مستندات تأییدشده، این مشکل را در سامانههای فارسیزبان کاهش میدهد.
معماری پیشنهادی
- Ingest: استخراج متن از PDF، Word و صفحات راهنما با OCR در صورت نیاز
- Chunking: تقسیم هوشمند با حفظ عنوان بخش و metadata سازمان
- Embedding: مدل چندزبانه با پشتیبانی قوی از فارسی
- Vector Store: جستجوی شباهت با فیلتر tenant و سطح دسترسی
- Generation: پاسخ با citation به پاراگراف منبع
چالشهای بومیسازی
RTL، اعداد فارسی، اصطلاحات حقوقی و نامگذاری سازمانی نیازمند نرمالسازی پیش از embedding است. در پروژههای دوران، لایه پیشپردازش فارسی قبل از ذخیرهسازی بردارها اعمال میشود.
نتیجه عملی
در آزمایش داخلی روی ۱۲۰۰ سند راهنما، دقت پاسخهای RAG نسبت به prompt خام ۴۲٪ بهبود یافت.
نظرات
- هنوز نظری ثبت نشده است.
برای ثبت نظر، لطفاً وارد شوید.
