MMLU (Massive Multitask Language Understanding) évalue les compétences linguistiques générales, MATH teste précisément les capacités de raisonnement mathématique, MathVista mesure la compréhension ...