طی یک نمونه همکاری موفق میان صنعت و دانشگاه، متخصصان مرکز تحقیقات هوش مصنوعی یکی از شرکتهای دانشبنیان و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر، جامعترین و قدرتمندترین سیستم ارزیابی مدلهای زبانی فارسی (Open Persian LLM Leaderboard) را توسعه دادند. در این تحقیق، گروهی از متخصصان هوش مصنوعی دانشگاه صنعتی امیرکبیر موفق شدند قدرتمندترین و جامعترین سیستم ارزیابی مدلهای زبان فارسی را توسعه دهند که با این اقدام زیست بوم هوش مصنوعی کشور مجهز به یک سنجه دقیق و یکپارچه برای ارزیابی LLMهای فارسی شد.
این سیستم ارزیابی شامل بیش از ۴۰ هزار نمونه است که بخشی از آنها از چندین بنچمارک معتبر جهانی به فارسی برگردانده شده و بخشی دیگر در داخل کشور از پایه تهیه و برچسبزنی شدهاند. دادگان ارزیابی برای این سیستم در حال افزایش و بهروزرسانی است تا ضریب دقت در ارزیابیها بهبود یابد. مدل ارائه شده در این پروژه، در کنار برترین بنچمارکهای جهانی قرار میگیرد، ضمن این که بخشی از دادگان این سیستم ارزیابی (بنچمارک) هم اکنون به صورت متن باز در دسترس عموم قرار گرفته است.