توسعه قدرتمندترین سیستم ارزیابی مدل‌های زبان فارسی

طی یک نمونه همکاری موفق میان صنعت و دانشگاه، متخصصان مرکز تحقیقات هوش مصنوعی یکی از شرکت‌های دانش‌بنیان و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر، جامع‌‎ترین و قدرتمندترین سیستم ارزیابی مدل‌های زبانی فارسی (Open Persian LLM Leaderboard) را توسعه دادند. در این تحقیق، گروهی از متخصصان هوش مصنوعی دانشگاه صنعتی امیرکبیر موفق شدند قدرتمندترین و جامع‌ترین سیستم ارزیابی مدل‌های زبان فارسی را توسعه دهند که با این اقدام زیست بوم هوش مصنوعی کشور مجهز به یک سنجه دقیق و یکپارچه برای ارزیابی LLMهای فارسی شد.
این سیستم ارزیابی شامل بیش از ۴۰ هزار نمونه است که بخشی از آن‌ها از چندین بنچ‌مارک معتبر جهانی به فارسی برگردانده شده و بخشی دیگر در داخل کشور از پایه تهیه و برچسب‌زنی شده‌اند. دادگان ارزیابی برای این سیستم در حال افزایش و به‌روزرسانی است تا ضریب دقت در ارزیابی‌ها بهبود یابد. مدل ارائه شده در این پروژه، در کنار برترین بنچ‌مارک‌های جهانی قرار می‌گیرد، ضمن این که بخشی از دادگان این سیستم ارزیابی (بنچ‌مارک) هم اکنون به صورت متن باز در دسترس عموم قرار گرفته است.

http://shahrvand-newspaper.ir/News/Main/257546/توسعه-قدرتمندترین-سیستم-ارزیابی-مدل‌های-زبان-فارسی