Назад
723

Большой обзор LLM-бенчмарков

723
Картинка для привлечения внимания

Введение

Небольшое замечание
  • Этот пост не претендует на полный обзор всех существующих LLM-бенчмарков и методов оценки языковых моделей. Здесь собран подробный разбор популярных бенчмарков, которыми пользуются исследователи и ML-инженеры. Некоторые из них уже не так актуальны, тем не менее, они сыграли ключевую роль в развитии LLM и формировании стандартов оценки. Поэтому о них мы расскажем тоже 😊 Данные актуальны на май 2025 года.

Давайте представим следующую ситуацию: IT-специалист Миша, услышав о возможностях современных LLM в контексте работы с текстами, решил воплотить в реальность свою давнюю мечту — написать небольшую коллекцию фантастических рассказов или даже целый роман. Однако Миша не просто так откладывал свою мечту. Во-первых, несмотря на некоторые наработки сюжета, он всё ещё нуждается в полировке, особенно — конец. Во-вторых, к сожалению, написание диалогов Мише даётся довольно тяжело. В-третьих, даже если сюжет будет хорошо проработан, а диалоги детально прописаны, то остаётся другая важная задача — редактура, которая позволит большему количеству людей дочитать книгу до конца.

Итак, представив будущий литературный успех, Миша пробует одну модель и замечает, что она отлично генерирует идеи, но диалоги представляют собой краткое содержание рабочих митов (а Миша работает в банке). Другая модель, наоборот, пишет живо и с юмором, но часто уходит в абсурд или повторяется, как трилогия «Звездных войн» от Дисней. Третья модель хорошо редактирует тексты, но не предлагает интересных сюжетных поворотов.

И в итоге Миша начинает задаваться вопросом: «Как же понять, какая модель лучше всего подходит для моей творческой задачи?».

Оценка качества работы LLM с помощью бенчмарков

После небольшого творческого отпуска Миша находит решение задачи:

  • выписывает важные критерии: оригинальность идей, качество диалогов, грамотность правок и стиль;
  • составляет небольшой набор тестовых заданий на проверку каждого критерия выше: сгенерировать идею рассказа, придумать диалог между двумя персонажами, отредактировать абзац и написать отрывок в определённом авторском стиле (некоторые подобные вещи становятся культовыми даже не будучи реализованными);
  • сравнивает результаты разных моделей по этим заданиям, отмечая, где каждая из них справилась лучше;
  • после проставления всех оценок находит лучшего кандидата — им оказалась модель от ClosedAI, которая теперь будет помогать ему в творчестве.

Таким образом, Миша создал мини-бенчмарк для оценки модели. Выделим основные шаги:

  1. Определиться с ключевой задачей / доменом для тестирования. Некоторые бенчмарки включают целый набор разных задач для всеобъемлющей оценки моделей.
  2. Отобрать релевантные задачи, данные и ответы к ним.
  3. Определить универсальный способ передачи входных данных в модель и получение выходных данных.
  4. Выбрать метрику для оценки качества (например, accuracy — доля правильных ответов) или другой способ скоринга (такой, как Рейтинг Эло в ChatBot Arena).
  5. Составить таблицу с проранжированными оценками всех моделей (leaderboard).
Рисунок 1. Типовая архитектура бенчмарка

Конечно, Миша был не первым, кто придумал оценивать модели с помощью бенчмарков. Развитие больших языковых моделей (LLM) потребовало создания инструментов оценки их качества работы и измерения границ применимости. Бенчмарки трансформировались от простых тестов на распознавание эмоций до сложных систем оценки креативности, этики, логики, отражая прогресс в области NLP.

Важный момент: использование бенчмарков позволяет сравнивать разные модели согласовано и единообразно.

Теперь давайте дадим определение бенчмаркам в контексте Deep Learning.

Бенчмарки — это стандартизированные наборы тестов, процедур и/или данных, предназначенные для объективной оценки и сравнения производительности нейросетевых моделей. LLM-бенчмарки позволяют оценить качество работы LLM на различных задачах: понимание языка, умение правильно отвечать на вопросы по тексту, решение математических задач или задач по программированию. По сути это такие же бенчмарки, как известные в CV ImageNet и COCO, только с другими данными и разметкой.

Важный момент: бенчмарки проверяют модель на определённых задачах, при этом они не учитывают такие важные особенности моделей, как релевантность или правдивость ответов, влияние промптинга на итоговый результат. В этом посте мы не будем касаться этих тем, а сфокусируемся только на бенчмарках.

Бенчмарки: домены

Итак, на примере с Мишей мы увидели, что хорошим способом оценки качества моделей является их тестирование на конкретных задачах. Если мы хотим, чтобы модель хорошо писала диалоги, — давайте будем проверять её именно на этом.

Например, в школе для понимания, насколько хорошо выпускник усвоил материал, ему необходимо сдать экзамен. Экзамен — набор заданий по разным темам: математика, литература, история и др. Каждый выпускник решает одни и те же задачи, и по их результатам можно объективно сравнить уровень знаний у разных учеников. Экзамен — стандарт, по которому оценивают всех.

С языковыми моделями всё схоже. Только вместо людей «экзамен» проходит сама модель. С этой целью и используются бенчмарки.

Для удобства разобьём оценку моделей на несколько ключевых направлений:

  1. Language Understanding — умение понимать естественный язык и работать с ним.
  2. Reasoning — способность модели рассуждать и делать сложные выводы на основе вводных данных.
  3. Math — решение математических задач разного уровня сложности.
  4. Coding — выполнение задач по программированию.

Важный момент: это условное деление. Скажем, датасет Math содержит непростые задачи по математике, и для его успешного прохождения модели необходимы не только знания по математике, но и умение делать на их основе выводы (то есть Reasoning).

Далее для каждого бенчмарка будут представлены описания по следующей схеме:

  1. Intro — краткая информация о том, что из себя представляет бенчмарк и какой был контекст его появления;
  2. Design — особенности и устройство набора задач;
  3. Performance — сравнение результатов человека и современных LLM на этом бенчмарке;
  4. Family — часто по мере своего решения (то есть достижения человеческого уровня решения моделями) бенчмарк обрастает своими модификациями, призванными как исправить его недостатки (утечки данных из Интернета, некорректные формулировки, неправильные ответы), так и усложнить его для актуализации. Таким образом, из одного бенчмарка появляется целое «эволюционное» семейство;
  5. State — актуальное состояние бенчмарка и его вклад в развитие LLM.

Модели на бенчмарках оцениваются в баллах. Как правило, это какая-то метрика, приведённая к 100-бальной шкале, которая получается усреднением баллов по каждой из задач в бенчмарке. Обратите внимание, бенчмарк может содержать задачи разной сложности. Поэтому при простом усреднении общая метрика может искажаться. Для этого самые сложные задачи выделяют в новый бенчмарк.

Language Understanding

GLUE (General Language Understanding Evaluation) + SuperGLUE, DeepMind

Рисунок 2. Примеры задач из SuperGLUE

Intro

GLUE был представлен в 2018 году (один из пионеров бенчмарков для LLM) как набор из девяти задач для оценки понимания естественного языка моделями искусственного интеллекта. Основная цель создания GLUE — разработка стандартизированного фреймворка, который позволил бы объективно сравнивать и анализировать различные NLP-модели на единой платформе.

Разработчики стремились создать инструмент, который бы стимулировал исследования в области построения универсальных и надёжных систем понимания языка. Особое внимание уделялось тому, чтобы бенчмарк поощрял модели, способные эффективно переносить знания между разными задачами и доменами, а не просто запоминать решения для отдельных случаев.

Вскоре после появления GLUE ведущие модели начали показывать результаты, сравнимые с человеческим уровнем. Это стало толчком к созданию более сложного бенчмарка — SuperGLUE, который был представлен в 2019 году и стал новым ориентиром для оценки прогресса в области NLP.

Design

Для разных задач GLUE используются различные метрики: accuracy, F1 score, Pearson / Spearman correlation, Matthews correlation (потом всё приводится к 100-бальной шкале и усредняется). Рассмотрим их описания и примеры:

ЗадачаОписаниеПримеры
CoLA (Corpus of Linguistic Acceptability)Оценка грамматической правильности предложения. Модель должна определить, приемлема ли фраза с точки зрения носителя языка.«The boy is playing in the garden» (приемлемо).

«The boy playing is in the garden» (неприемлемо).
SST-2 (Stanford Sentiment Treebank)Классификация тональности предложения (положительная / отрицательная).«A touching and insightful film» (положительная).

«A dull and lifeless story» (отрицательная).
MRPC (Microsoft Research Paraphrase Corpus)Определение, являются ли два предложения перифразами друг друга.«The company released a new product».

«A new product was launched by the company» (перифраза).
QQP (Quora Question Pairs)Оценка степени смысловой близости между двумя предложениями по шкале от 0 до 5.«A man is playing a guitar».

«A person is playing an instrument» (высокая близость).
STS-B (Semantic Textual Similarity Benchmark)Определение, задают ли две разные формулировки один и тот же вопрос.«How can I lose weight quickly?».

«What are the fastest ways to lose weight?» (одинаковый смысл).
MNLI (Multi-Genre Natural Language Inference)Логический вывод: следует ли одно предложение из другого, противоречит ли оно ему или не связано с ним.«A woman is reading».

«Someone is reading a book» (entailment — следует).
QNLI (Question Natural Language Inference)Определение, содержит ли текст ответ на заданный вопрос.Вопрос: «Where was the Declaration of Independence signed?».

Текст: «The Declaration was signed in Philadelphia» (содержит ответ).
RTE (Recognizing Textual Entailment)Классификация: следует ли гипотеза из текста или нет.Текст: «All dogs bark».

Гипотеза: «My dog barks» (следует).
WNLI (Winograd Schema NLI)Решение задачи на разрешение анафоры (к какому существительному относится местоимение).«The city councilmen refused the demonstrators a permit because they feared violence» («they» = «city councilmen»).

SuperGLUE сохраняет основную концепцию GLUE, но имеет ряд важных улучшений:

  • включает новые типы заданий, требующие не только базового понимания текста, но и сложных рассуждений, логического вывода, работы с контекстом и здравого смысла. Это делает бенчмарк существенно труднее для моделей по сравнению с GLUE;
  • сопровождается открытым leaderboard и программным инструментарием для удобной оценки и сравнения моделей, что способствует прозрачности и ускорению развития исследований.

Задачи SuperGLUE

ЗадачаОписаниеПримеры
BoolQ (Boolean Questions)Ответить «да» или «нет» на вопрос по короткому тексту.Текст: «The Amazon River is the largest river by discharge volume of water in the world».
Вопрос: «Is the Amazon River the largest river in the world by discharge volume?».
Ответ: «Yes».
CB (CommitmentBank)Оценить степень уверенности автора в утверждении (entailment, contradiction, neutral).Текст: «If it rains, the picnic will be cancelled».
Гипотеза: «The picnic will be cancelled».
Ответ: «Neutral».
COPA (Choice of Plausible Alternatives)Выбрать наиболее логичную причину или следствие из двух вариантов.Ситуация: «The ground was wet».
Вопрос: «What was the cause?».
Варианты: (a) It rained last night.
(b) The sun was shining.
Ответ: (a) It rained last night.
MultiRC (Multi-Sentence Reading Comprehension)Ответить на вопросы с несколькими вариантами ответов, где правильных может быть несколько.Текст: «Dogs are mammals. They have fur and are often kept as pets. Some dogs are trained to help people».
Вопрос: «Which of the following are true about dogs?».
Варианты: (a) Dogs are reptiles.(b) Dogs have fur.
(c) Dogs can help people.
Ответ: (b) и (c).
ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset)Заполнить пропуск в тексте, используя знания и здравый смысл.Текст: «John went to the bank to deposit his paycheck. When he arrived, the ___ was closed».
Варианты: (a) river
(b) bank
Ответ: (b) bank.
RTE (Recognizing Textual Entailment)Классификация: следует ли гипотеза из текста или нет.Текст: «All mammals have hearts».
Гипотеза: «A dog has a heart».
Ответ: «Entailment»
WiC (Word-in-Context)Определить, одинаково ли используется слово в двух предложениях.1. «He caught the ball».
2. «He caught a cold».
Ответ: «Нет» (разные значения)
WSC (Winograd Schema Challenge)Решение задачи на разрешение анафоры (к какому существительному относится местоимение).«The city councilmen refused the demonstrators a permit because they feared violence» («they» = «city councilmen»).

Performance

На момент публикации исследований средний результат человека на GLUE составлял 87.1 баллов. Для сравнения, ведущие модели показывали такие результаты:

  • BERT: 80.5;
  • BigBird: 82.9.

Результат человека был выше, но разрыв постепенно сокращался благодаря развитию архитектур и увеличению объёма данных для обучения.

В январе 2021 года Microsoft объявили, что их модель DeBERTa впервые превзошла человека на SuperGLUE, набрав 89.9 баллов против 89.8 у человека. Более того, ансамбль моделей DeBERTa поднял планку ещё выше — до 90.3 баллов. Для сравнения, DeBERTa также занимает лидирующие позиции на GLUE с результатом 90.8.

State

GLUE стал революционным эталоном, объединив девять разнородных задач (классификация текста, парафраз, логический вывод), чтобы оценить общее понимание языка моделями. Однако при этом он не был лишен ряда ограничений. Задачи в рамках GLUE, хотя и были всеобъемлющими, подвергались критике за то, что не полностью отражали тонкости понимания языка. Модели, получившие высокие баллы по GLUE, не всегда демонстрировали надёжную производительность в реальных приложениях или задачах с более глубоким контекстуальным пониманием.

Тот факт, что современные модели уже превзошли человеческий уровень производительности на этих бенчмарках, демонстрирует впечатляющий прогресс в области искусственного интеллекта, хотя и указывает на необходимость разработки более сложных тестов для оценки языковых моделей в будущем.

Massive Multitask Language Understanding (MMLU)

Рисунок 3. Пример теста из MMLU бенчмарка в области микроэкономики

Intro

MMLU был представлен в 2020 году группой исследователей под руководством Дэна Хендрикса из Калифорнийского университета в Беркли. Цель команды — сделать новый стандарт для оценки языковых моделей, поскольку прежние тесты вроде GLUE и SuperGLUE уже не представляли серьёзного вызова для современных LLM.

В отличие от предыдущих бенчмарков, MMLU охватывает 57 различных дисциплин: от сложных STEM-наук и международного права до питания и религии. В тесте используется 15 908 вопросов с несколькими вариантами ответов, что позволяет комплексно проверить широту и глубину знаний модели. Такой подход позволяет оценивать не только базовые языковые навыки, но и способность моделей рассуждать, оперировать фактами и применять знания в разных областях.

Design

Основные компоненты архитектуры MMLU:

  • Широкий охват предметов: MMLU включает 57 различных дисциплин, охватывающих STEM-науки, гуманитарные, социальные и профессиональные области. Это позволяет оценивать универсальность и адаптивность моделей, имитируя реальные сценарии, где требуется переход между разными темами.
  • Многоуровневая сложность: вопросы варьируются от школьного уровня до профессионального, включая базовые концепции, задачи на критическое мышление, профессиональные кейсы (медицина, право, инженерия) и вопросы, требующие глубокого понимания предмета.
  • Формат заданий: все задания представлены в виде вопросов с несколькими вариантами ответов (обычно четыре), что позволяет стандартизировать оценку и минимизировать влияние случайно правильных ответов. В новых версиях, например, MMLU-Pro, количество вариантов ответа увеличено до десяти для повышения сложности.
  • Методика оценки: MMLU тестирует модели в двух режимах.
    • Zero-shot: модель отвечает на вопросы без предварительных примеров, что проверяет её способность применять знания из предобучения.
    • Few-shot: модели предоставляют несколько (обычно пять) примеров перед тестированием, что позволяет оценить способность к быстрому обучению на ограниченных данных.
  • Источник и структура вопросов: вопросы отбираются из авторитетных академических и профессиональных источников, а также специально разрабатываются для оценки не только фактических знаний, но и навыков рассуждения и анализа.
  • Система баллов: итоговая оценка — среднее значение точности по всем предметным областям для объективного сравнения разных моделей.
  • Моделирование реальных вызовов: в отличие от GLUE и SuperGLUE, фокусирующихся на узких задачах, MMLU моделирует реальные вызовы, с которыми сталкиваются универсальные языковые модели.

Performance

На момент появления MMLU большинство языковых моделей показывали результаты, близкие к случайному угадыванию (около 25%). Даже GPT-3 с 175 миллиардами параметров набирал лишь 43.9% точности, тогда как эксперты-люди достигали почти 90% (89.8 %). По мере развития LLM, MMLU стал одним из главных инструментов для сравнения их возможностей, а к 2024 году топовые модели вплотную приблизились к человеческому уровню, стабильно набирая уже около 87%.

Family

MMLU-Pro:

  • 10 вариантов ответа вместо 4-х (вероятность случайного угадывания снижена с 25% до 10%);
  • вопросы на многоэтапное рассуждение (например, анализ научных гипотез или юридических казусов);
  • удаление тривиальных вопросов — 23% оригинальных заданий исключены как слишком простые;
  • стабильность к промптам — вариативность результатов при смене формулировок снижена с 4-5% до 2%;
  • точность моделей падает на 16-33% по сравнению с MMLU;
  • Chain-of-Thought (CoT) методы дают прирост +20%, подтверждая сложность задач.

Другие вариации:

  • MMLU-Pro+ — усложнённая версия MMLU-Pro:
    • включает задания, где может быть более одного правильного ответа;
    • вопросы построены так, чтобы минимизировать возможность «угадывания» или использования поверхностных паттернов.
  • MMLU-ProX мультиязычный и культурно разнообразный контекст.
  • MMLU-SR — проверка истинного понимания через замену терминов:
    • ключевые термины в вопросах заменяются на искусственные слова с определениями (например, «квант» → «зооп» + пояснение).

State

К 2025 году MMLU остался ключевым инструментом оценки языковых моделей, но его роль трансформировалась: из эталона для сравнения он превратился в базис для более сложных тестов, как MMLU-Pro и MMLU-Pro+.

Reasoning

BIG-bench

Рисунок 4. Разнообразие и масштаб бенчмарка BigBench. (a) Облако названий тасок; (b) Диаграмма распределения тасок в разрезе количества примеров (X — количество примеров в таске, Н — количество тасок)

Intro

BIG-bench (Beyond the Imitation Game) — результат беспрецедентного совместного усилия более 450 исследователей из 132 учреждений. Разработка проходила открыто на платформе GitHub, где авторы предлагали задачи через пул-реквесты, а рецензирование проводилось путём открытого обсуждения этих предложений.

Ключевая философия BIG-bench отражена в его названии: «За пределами игры в имитацию». В отличие от теста Тьюринга, который фокусируется лишь на бинарном решении «отличия модели от человека», авторы BIG-bench стремились глубже понять и измерить конкретные способности языковых моделей и их потенциал в перспективе.

Design

Архитектурно бенчмарк состоит из двух основных типов задач:

  1. JSON-задачи — упрощённые задачи, определённые в формате JSON-файлов;
  2. Программные задачи — более сложные задачи, способные интерактивно взаимодействовать с языковыми моделями.

Центральный элемент бенчмарка — BIG-bench API, определяющий взаимодействие между задачами и моделями. Этот интерфейс обеспечивает унифицированный способ оценки различных моделей на одних и тех же задачах.

BIG-bench отличается исключительным разнообразием задач, охватывающих широкий спектр областей знаний и когнитивных способностей. Задачи включают проблемы из лингвистики, детского развития, математики, здравого смысла, биологии, физики, исследования социальных предубеждений, разработки программного обеспечения и многих других областей.

Несколько примеров задач из BIG-bench:

  1. auto_debugging — задачи по автоматической отладке кода;
  2. emoji_movie — угадывание фильмов по эмодзи;
  3. formal_fallacies_syllogisms_negation — выявление логических ошибок в силлогизмах;
  4. hindu_knowledge — оценка знаний об индуистской культуре и религии;
  5. logical_deduction — задачи на логический вывод;
  6. strategyqa — ответы на вопросы, требующие стратегического мышления;
  7. symbol_interpretation — интерпретация символов;
  8. winowhy — распознавание референций с объяснением выбора.

Каждая задача имеет уникальную метрику оценки, при этом они нормализуются к шкале от 0 до 100 для возможности агрегирования и подсчёта результатов.

Performance

Для создания надёжного базового уровня производительности команда экспертов-оценщиков выполнила все задачи бенчмарка. Примечательно, что им было разрешено использовать любые доступные ресурсы, включая интернет-поиск, чтобы обеспечить максимально высокий базовый уровень.

Лучшие оценщики-люди набирают в среднем около 80 баллов из 100 возможных по всем задачам. Обычный человек (не эксперт) показывает результат около 45 баллов. Даже самые опытные оценщики-люди смогли набрать 100% только в 12 из 24 задач BIG-bench Lite, что подчёркивает их сложность.

Что касается качества работы моделей, то у BIG-bench нет официального leaderboard (при этом современные модели (май 2025 года) превосходят средние человеческие результаты на BIG-bench, но уступают людям-экспертам). Но он есть у модификации BIG-bench — BIG-bench Extra Hard (ссылка). Современная модель o3-high (май 2025 года) набирает 44.8 балла (данных о человеческом уровне качества нет).

Family

  • BIG-bench Lite (BBL)
    • Осознавая вычислительную сложность полной оценки на всём наборе задач, разработчики создали облегчённую версию — BIG-bench Lite. Она включает тщательно отобранные 24 разнообразные задачи из JSON-набора, покрывающие 12 категорий: лингвистика, логика, культурные знания и др.
  • BIG-bench Hard (BBH)
    • Исследователи, наоборот, отобрали задачи, где модели отстают от людей, сделав его сложнее. Сюда вошли «продвинутые» для LLM таски: многошаговые рассуждения, контекстно-зависимые выводы, абстрактные аналогии.
  • BIG-bench Extra Hard (BBEH)
    • Отличия от BBH:
      • Устранены «короткие пути» (способы, с помощью которых модель находит правильный ответ, используя простые, часто неочевидные для человека корреляции или шаблоны в данных, а не настоящее понимание задачи или логическое рассуждение) для решения задач;
      • Увеличена длина контекста (макро-среднее: ~4200 символов против 700 в BBH);
      • Требуется больше шагов рассуждений (подтверждено анализом длины ответов моделей).

State

BIG-bench представляет собой значительный шаг вперёд в подходе к оценке языковых моделей. Его основная цель — не просто предоставить численное измерение производительности, но помочь предсказать будущие возможности LLM и понять, как масштабирование влияет на их способности.

GPQA (Graduate-Level Google-Proof Q&A Benchmark), Cohere & Anthropic

Рисунок 5. Примеры вопросов из GPQA

Intro

GPQA представляет собой один из наиболее сложных и амбициозных бенчмарков для оценки возможностей больших языковых моделей (на май 2025 года).

Команда из Нью-Йоркского университета, Cohere и Anthropic, создала этот бенчмарк для ответа на вопрос: «Может ли ИИ решать задачи уровня передовых научных исследований?». Идея следующая: если мы хотим доверить моделям открытие новых законов физики или разработку лекарств, им нужно уметь работать с экспертными знаниями, а не просто запоминать факты.

Для этого авторы бенчмарка взяли вопросы уровня PhD в области физики, химии и биологии, которые:

  • не решаются простым поиском в Google, а требуют составления сложных выводов по входным данным;
  • аспиранты и PhD набирают всего 65 % правильных ответов в своей предметной области, то есть вопросы задизайнены на то, чтобы эксперт «среднего» уровня не смог их решить.

Design

Рисунок 6. Схема составления задач для бенчмарка GPQA. Отметим, что вопросы, которые были одобрены двумя экспертами-валидаторами и на которые не-эксперты давали правильный ответ, меньше, чем в 33 % случаев попадали в GPQA Diamond бенчмарк

Процесс создания бенчмарка тщательно продуман:

  1. Сначала исследователи наняли экспертов (имеющих PhD или находящихся в процессе его получения) в биологии, физике и химии для составления сложных вопросов с множественным выбором (4 варианта ответа).
  2. Затем каждый вопрос проходил валидацию последовательно двумя другими экспертами-валидаторами, чтобы убедиться в его корректности и объективности.
  3. Дополнительно вопросы тестировались «не-экспертами» — людьми с PhD, но в других областях. Они имели неограниченный доступ к интернету и в среднем тратили более 30 минут на попытку ответить на каждый вопрос.

Такой подход позволил создать действительно «Google-устойчивый» набор вопросов, на которые нельзя найти легко ответ в интернете без глубокого понимания предметной области.

Performance

  • Люди-эксперты (с PHD в физике, химии или биологии):
    • эксперты в соответствующих доменах достигают точности 65%;
    • при исключении явных ошибок, которые эксперты идентифицировали постфактум (то есть после прохождения теста), точность возрастает до 74%.
  • Люди с PhD в других областях:
    • несмотря на неограниченный доступ к интернету и в среднем более 30 минут на вопрос, не-эксперты достигли только 34% точности.
  • Языковые модели:
    • на момент публикации исследования в 2023 году самая сильная модель GPT-4 с доступом к интернету достигала 39% точности;
    • к 2025 году новые модели показали значительный прогресс:
      • Claude 3.7 Sonnet — 84.8%;
      • Grok-3 — 75.4%;
      • GPT-4.5 — 71.4%;
      • Gemini 2.0 — 62.1%;
      • Llama 3.1 405B — 51.1%.

Family

GPQA представлен в трёх версиях с различным уровнем сложности:

  1. Extended Set: содержит 546 вопросов.
  2. Main Set: включает 448 вопросов, что делает его часто используемой версией бенчмарка.
  3. Diamond Set: наиболее сложное подмножество из 198 вопросов.

State

Сегодня GPQA — ключевой ориентир в эволюции бенчмарков. В отличие от предшественников, он проверяет не просто эрудицию моделей, а их способность решать задачи уровня научных открытий — те, с которыми справляются лишь эксперты с PhD. Это как экзамен для ИИ на звание «младшего научного сотрудника», где нужно не вспомнить факты, а выстроить логику, проанализировать данные и сделать нетривиальные выводы.

Прогресс моделей на этом бенчмарке за последние годы впечатляет и демонстрирует, как современные LLM превосходят экспертов-людей в узкоспециализированных областях знаний. Это открывает новые возможности для использования ИИ в научных исследованиях, но также ставит важные вопросы о том, как ученые могут эффективно контролировать и использовать эти возможности.

Домен: Math

GSM8K, OpenAI

Рисунок 7. Примеры вопросов из GSM8K

Intro

GSM8K (Grade School Math 8K) был разработан исследователями OpenAI в сотрудничестве с командой Reinforcement Learning в 2021 году. Он создан для оценки способности языковых моделей решать математические задачи, сформулированные на естественном языке, и проверки их умения рассуждать пошагово.

В основе GSM8K лежит коллекция из 8 500 составленных текстовых задач по математике для начальной школы, охватывающих широкий спектр тем и формулировок. Каждая задача требует от модели выполнения от двух до восьми арифметических операций, что делает бенчмарк инструментом для тестирования навыков многоэтапного математического мышления у современных языковых моделей. Несмотря на кажущуюся простоту, разнообразие и лингвистическая сложность задач GSM8K представляют серьёзный вызов даже для самых передовых ИИ-систем.

Design

Создатели GSM8K руководствовались тремя ключевыми принципами при разработке датасета:

  1. Высокое качество: команда избегала ненадёжных методов скрапинга и вместо этого полагалась на работу людей-авторов для создания задач. После проведения обширного контроля качества и согласованности ответов исследователи оценили, что менее 2% задач содержат критические ошибки.
  2. Высокое разнообразие: авторы активно избегали задач, построенных на одном и том же лингвистическом шаблоне или отличающихся только поверхностными деталями, что является распространённой проблемой во многих других датасетах. Создавая каждую задачу уникальной, они обеспечили становление тестирования на отложенной выборке в качестве более значимой метрики.
  3. Умеренная сложность: распределение задач было выбрано таким образом, чтобы они были сложными для современных языковых моделей, но не полностью не решаемы. Предполагалось, что любую задачу из датасета может решить способный ученик средней школы.

Другие детали:

  • Задача формулируется на естественном языке (например: «У Пети было 12 яблок, он дал другу 5. Сколько яблок осталось у Пети?»);
  • Ожидается точный числовой ответ, а для оценки используется строгий exact match — ответ засчитывается только при полном совпадении с эталонным решением;
  • В тестах можно задавать количество примеров решений (few-shot learning), которые модель видит перед решением новой задачи. Обычно используется 0–3 примера, по умолчанию — 3.

Performance

Люди демонстрируют впечатляющую точность решения задач GSM8K, достигая примерно 96.77% верных ответов. Это неудивительно, поскольку задачи разрабатывались для уровня начальной и средней школы.

За последние годы наблюдается значительный прогресс в производительности LLM на GSM8K:

  • GPT-4 достигает примерно 93.25 % точности, что приближается к уровню человека;
  • GPT-3.5-Turbo показывает около 73.62 % точности;
  • Mistral-7B — 39.58 %;
  • LLaMA-2-7B — 13.42 %.

Кстати, за последние годы лучшие открытые модели достигли точности более 80 %, что говорит о быстром прогрессе в области математического мышления LLM.

Family

  • GSM-Plus — расширение оригинального GSM8K, включающее задачи с разнообразными математическими «возмущениями» (perturbations):
    • включает вариации исходных задач — добавление новых условий, изменение вопроса, перестановку данных;
    • позволяет выявить, действительно ли модель понимает задачу или просто запоминает шаблоны.
  • MR-GSM8K — бенчмарк, в котором модели не только решают задачи, но и оценивают корректность чужих решений, объясняют ошибки и предлагают исправления:
    • модели становятся «учителями» — проверяют решения, находят ошибки, объясняют их природу;
    • требует более глубокого понимания процесса решения в сравнении с вычислением ответа.

State

GSM8K стал «золотым стандартом» для проверки способности LLM к пошаговому рассуждению и решению арифметических задач на естественном языке. Он стимулировал развитие методов chain-of-thought prompting и других техник, повышающих интерпретируемость решений. Массовое использование GSM8K позволило выявить, что современные LLM часто не обладают настоящим логическим мышлением, а лишь воспроизводят шаблоны из обучающихся данных.

Тем не менее, за последние годы в развитии моделей наметился эффект «плато»: точность ведущих LLM стабилизировалась на уровне 95%. Многие новые флагманские модели (например, o1 и Claude 3.7 Sonnet) уже не используют GSM8K как основной показатель, переходя к более сложным тестам.

MATH

Рисунок 8. Пример задачи из MATH, раздел «теория вероятностей»

Intro

MATH (не аббревиатура, а прямое указание на математику) — революционный бенчмарк, созданный для оценки способности языковых моделей к глубоким логическим рассуждениям. Разработанный Дэном Хендриксом и соавторами в 2021 году, он стал ответом на ограничения предыдущих тестов, которые не учитывали сложность олимпиадных задач и необходимость многошагового анализа.

В отличие от GSM8K, MATH включает в себя олимпиадные задачи широкого спектра с подробными пошаговыми решениями, что позволяет моделям не только находить правильный ответ, но и объяснять ход рассуждений.

Design

Этот тест состоит из 12 500 задач, собранных из архивов AMC 10 (American Mathematics Competitions), AMC 12, AIME (American Invitational Mathematics Examination) и других престижных математических соревнований. Включает в себя следующие разделы математики: алгебра, теория чисел, геометрия, комбинаторика, теория вероятностей, математический анализ, логика.

Особенность этих задач в том, что они не могут быть решены простым применением стандартных математических инструментов и формул школьного уровня. Для их решения требуется применение специальных методов и эвристик, что делает этот бенчмарк особенно сложным для современных языковых моделей.

Performance

Исследователи провели эксперимент для оценки уровня сложности MATH для людей. Участниками случайным образом были выбраны 20 задач из тестового набора, на решение которых отводился 1 час с возможностью выполнять вычисления вручную. Результаты были следующими:

  • участник, который не любит математику, набрал 40% правильных ответов (8 / 20);
  • участник, равнодушный к математике, — 65% (13 / 20);
  • участники, любящие математику, — 70-75% (14-15 / 20);
  • участник с идеальным баллом AMC 10 и опытом участия в USAMO — 90% (18 / 20);
  • трёхкратный золотой медалист IMO — 90% (18 / 20).

Сначала LLM набирали очень мало баллов на этом бенчмарке. Сейчас o3-mini набирает 97.9 пунктов, что превышает результаты трёхкратного золотого медалиста IMO.

Family

  • Omni-MATH (2024) — универсальный бенчмарк олимпиадного уровня с задачами из IMO, Putnam и других соревнований.
  • HARP (2024) — 5,409 задач из US национальных математических конкурсов (AMC, AIME, USA(J)MO).
  • USAMO 2025 Evaluation — первый тест с экспертным анализом полных решений вместо проверки финального ответа.

State

Современное состояние бенчмарка MATH отражает парадоксальную ситуацию: с одной стороны, ведущие языковые модели достигли впечатляющих результатов на этом тесте, с другой — их фундаментальные ограничения в математических рассуждениях становятся всё очевиднее (изменение числовых значений в задаче снижает точность ответов, добавление лишних условий (даже не влияющих на решение) может ухудшать производительность, сложности с генерацией новых математических концепций).

  • Рекордные показатели: к концу 2024 года модели OpenAI o1-mini и Gemini 1.5 Pro демонстрировали точность 90% и 86.5% соответственно на стандартных задачах MATH. Это свидетельствует о практическом насыщении бенчмарка.
  • Причины успеха:
    • масштабирование моделей до триллионов параметров;
    • специализированное обучение на математических корпусах;
    • техники типа chain-of-thought reasoning.
  • Ограниченная сложность MATH: бенчмарк перестал быть адекватным мерилом для передовых моделей. Как отмечают исследователи, «тесты вроде GSM8K или MATH теперь решаются с высокой точностью».

Современное состояние MATH демонстрирует, что языковые модели преодолели «школьный уровень» математики, но остались беспомощными перед задачами, требующими подлинного творчества и строгих доказательств. Это указывает на необходимость принципиально новых подходов в области машинного математического мышления.

Домен: Coding

HumanEval, OpenAI

Рисунок 9. Пример задач из HumanEval

Intro

HumanEval — бенчмарк, разработанный OpenAI в 2021 году для объективной оценки способности больших языковых моделей (LLM) генерировать работоспособный код. В отличие от многих предыдущих тестов, HumanEval делает акцент не на текстовом сходстве с эталонным решением, а на функциональной корректности: сгенерированный код должен успешно проходить набор юнит-тестов, подтверждающих его работоспособность.

Design

Ключевые особенности архитектуры HumanEval:

  • состоит из 164 задач на программирование (Python), каждая из которых содержит сигнатуру функции (имя, параметры, ожидаемый тип возвращаемого значения), подробный docstring и несколько (в среднем 7–8) юнит-тестов;
  • задачи охватывают базовые алгоритмы, работу с числами и строками, а также простые задачи на логику — уровень технического собеседования для начинающих разработчиков;
  • подробный docstring на естественном языке служит единственным источником информации для модели о сути задачи;
  • код считается успешным, если он проходит все юнит-тесты;
  • задачи были написаны вручную, что критически важно для предотвращения «утечки данных», поскольку модели обычно обучаются на значительной части кода GitHub;
  • ключевая особенность бенчмарка — использование метрики pass@k: она показывает вероятность того, что хотя бы одна из k сгенерированных моделью версий решения пройдёт все тесты. Такой подход имитирует реальную работу программиста, который пробует несколько вариантов кода для корректного результата.

Performance

При запуске HumanEval в 2021 году модель OpenAI Codex (на базе GPT-3, дообученная на коде) показывала pass@1 (правильное решение с первой попытки) на уровне 28.8% задач. При увеличении числа попыток до 100 (pass@100) точность возрастала до 70.2%.

При этом прогресс в области генерации кода оказался впечатляющим, и уже к 2025 году мы имеем следующие цифры:

  • GPT-4o — pass@1: 90.2 %;
  • Claude 3.7 Sonnet — pass@1: ~87–89 % (по открытым данным);
  • Mistral-9B (tree-of-thought prompting) — pass@1: ~85 %.

Точных формальных замеров pass@1 для людей на HumanEval нет, но задачи бенчмарка сопоставимы по сложности с заданиями технических собеседований для junior / middle-разработчиков. Оценки экспертов показывают, что опытный программист способен решить 95–99% задач с первой попытки, если не учитывать опечатки и невнимательность. Это по-прежнему немного выше, чем у лучших LLM, но разрыв быстро сокращается.

State

LLM за несколько лет приблизились к уровню человека: если Codex решал лишь треть задач с первой попытки, то современные модели (GPT-4o, Claude 3.7) успешно справляются с 85–90% задач HumanEval с первой генерации кода.

Человеческий уровень пока остаётся эталоном, но лучшие языковые модели уже вплотную приблизились к нему по функциональной корректности на типовых задачах программирования.

SWE-bench, Princeton University

Рисунок 10. SWE-bench содержит задачи из реальных Python-репозиториев. Модели получают текст задачи и часть кодовой базы, после чего генерируют исправление, которое проверяется на реальных тестах

Intro

SWE-bench был разработан исследователями преимущественно из Принстонского и Стэнфордского университетов. Ключевая идея — тестирование способности языковых моделей решать реальные проблемы разработки программного обеспечения.

Benchmark Design

Авторы SWE-bench отметили, что существующие бенчмарки часто не отражают реальной сложности задач, с которыми сталкиваются программисты. Традиционные тесты типа HumanEval ограничиваются отдельными функциями и не требуют понимания сложных кодовых баз. Вместо этого SWE-bench строится на реальных GitHub-задачах (issues) и соответствующих решениях (pull requests) из популярных открытых репозиториев.

Каждый пример в бенчмарке включает:

  1. Описание проблемы (GitHub issue).
  2. Состояние репозитория на момент создания проблемы.
  3. Pull request с решением, содержащий:
    • изменения кода (patch);
    • изменения тестов (test_patch);
    • юнит-тесты типа «fail to pass» (не проходящие до исправления и проходящие после).

Процесс тестирования модели в SWE-bench выглядит следующим образом:

  1. Модели предоставляется описание проблемы и доступ к кодовой базе;
  2. Модель должна сгенерировать патч (изменение кода), решающий проблему;
  3. Патч считается успешным, если после его применения все юнит-тесты проходят успешно.

В бенчмарке два режима:

  • «Assisted» (с помощью) — для модели указывается, какие файлы нужно отредактировать;
  • «Unassisted» (без помощи) — модель сама определяет, какие файлы требуют изменений.

Performance

Какая верхняя граница производительности для людей на этом бенчмарке? Этот вопрос активно обсуждался в сообществе. Было отмечено, что некоторые задачи в оригинальном SWE-bench могут быть невозможны для решения даже опытными разработчиками без дополнительного контекста, поскольку тесты часто проверяют специфичные для репозитория детали реализации, не указанные явно в описании задачи.

Для решения проблемы была создана версия SWE-bench Verified — подмножество задач, проверенных людьми для гарантии их разрешимости. Для этой версии теоретический верхний предел опытного разработчика должен быть близок к 100 %.

Прогресс моделей на этом бенчмарке впечатляет:

  • Devin от Cognition AI успешно решал 13.86% задач в SWE-bench, что значительно превосходило предыдущий лучший неассистированный результат в 1.96 %;
  • В режиме «Assisted» лучшие предыдущие модели решали только 4.80 % задач;
  • На SWE-bench Verified более современные модели показывают результаты:
    • Claude 3.5 Sonnet (обновлённая версия) достиг 49 %;
    • предыдущий SOTA был 45 %;
    • старая версия Claude 3.5 Sonnet — 33 %;
    • Claude 3 Opus — 22 %.

Производительность на SWE-bench часто зависит не только от самой модели, но и от «агента» — системы вокруг модели, которая управляет процессом решения задачи.

Family

SWE-bench имеет несколько версий с различным количеством и типами задач (в оригинальном бенчмарке они все на Python, далее список поддерживаемых языков расширялся).

  • SWE-bench (основной): 2,294 пары проблема — пул-реквест из 12 популярных репозиториев Python;
  • SWE-bench Verified: подмножество из 500 проблем, проверенных людьми для гарантии их разрешимости;
  • SWE-bench Multimodal (SWE-bench M): версия для оценки систем на их способность решать ошибки в визуальном JavaScript-коде. Она включает задачи с изображениями в описании проблемы или юнит-тестах.
  • SWE-bench+: улучшенный набор данных, созданный для решения проблем с качеством данных в оригинальном SWE-bench.
  • Multi-SWE-bench: многоязыковая версия SWE-bench, охватывающая семь языков программирования помимо Python.

Таблица бенчмарков

Давайте подведём итоги и соберём всю важную информацию о бенчмарках в одну таблицу.

Название бенчмаркаГодДоменКол-во тестовДизайн бенчмаркаHuman levelbest AI score, May 2025Link to leaderboard
GLUE2018Language Understanding955 334Набор из 9 задач понимания естественного языка87.191.3https://gluebenchmark.com/leaderboard
SuperGLUE2019Language Understanding158 272Набор из 8 задач понимания естественного языка89.891.4https://super.gluebenchmark.com/leaderboard/
MMLU2020Language Understanding15 908Вопросы с 4 вариантами ответов охватывают 57 различных предметов: от основ математики до профессионального права89.887.3https://crfm.stanford.edu/helm/mmlu/latest/#/leaderboard
BigBench2021Reasoning204Набор задач широкого спектра: от базовой арифметики и логики до сложных вопросов на понимание текста, рассуждение и творчество.в среднем по всем задачам:
~80 (эксперты)
~45 (не эксперты)
BigBench и BigBench-Lite — нет официальных leaderboards

BigBenchHard
BBEH — https://github.com/google-deepmind/bbeh/blob/main/leaderboard.md
GPQA2023Reasoning (Graduate-level)448Задачи уровня PHD в области физики, химии и биологии65 % (74 %, если учесть явные ошибки постфактум) — эксперты
34 % — не-эксперты
84.8https://llm-stats.com/#:~:text=100-,GPQA Leaderboard,-448 «Google-proof
GSM8K2021Math7 500 — тренировочная выборка
1 000 — тестовая выборка
Высококачественные задачи по математике уровня начальной школы96.77 %97.72https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k
MATH2021Math12 500Олимпиадные задачи по математике из разных сфер90 (максимум)97.9https://llm-stats.com/#:~:text=100-,MATH Leaderboard,-Performance on high
HumanEval2021Coding164Упрощённые алгоритмические вопросы с технических собеседований разработчиковpass@1k — 95-99pass1k — 99.4https://paperswithcode.com/sota/code-generation-on-humaneval
SWE-bench2023Coding2 294Пары проблема —пул-реквест из 12 популярных репозиториев PythonNone (SWE-bench)
~ 100 % (SWE-bench verified)
33.8 (SWE-bench)
68.2 (SWE-bench verified)
https://www.swebench.com/

Заключение

Бенчмарки позволяют объективно оценивать новые модели, а также развивают AI-индустрию: новые тесты позволяют выявлять сильные и слабые стороны модели, что критически важно для появления методов решения задач. Увеличение контекста моделей, Chain of Thoughts и другие методы появились в ответ на проблемы LLM.

К сравнениям LLM (как и любых других моделей) нужно относиться критически, внимательно их анализируя:

  • Некоторые лаборатории и компании специально тюнятся на определённые бенчмарки, чтобы выжать там максимальный скор, хотя фактически модель не становится лучше, а иногда она в целом становится даже хуже. Недавний скандал с манипуляцией на бенчмарках Llama 4 тому в подтверждение.
  • Обучать LLM — дорого, поэтому если данные протекли из test в train разработчики не переобучают на правильном сплите, а просто ставят звёздочки и пишут, что на такой-то подвыборке бенчмарка были проведены замеры.

В этой статье мы рассмотрели несколько бенчмарков из каждого домена, но тема этим не исчерпывается. Также можно изучить далее:

  • ограничения бенчмарков и способы их преодоления;
  • ChatBotArena, или как оценивать диалоговые способности LLM;
  • новые крутые (и сложные) бенчмарки.

Если вам был полезен пост — поставьте реакцию и / или напишите комментарий! Так вы поддержите (и ускорите) выпуск второй части 😊. Stay tuned!

LLM

Если хотите обучать, запускать и оптимизировать LLM, то приходите на наш курс! За 4 месяца вы разберётесь в агентах, RAG, промптинге и не только. Изучайте подробности на сайте и записывайтесь на ближайший поток.

Старт — в июне

Телеграм-канал

DeepSchool

Короткие посты по теории ML/DL, полезные
библиотеки и фреймворки, вопросы с собеседований
и советы, которые помогут в работе

Открыть Телеграм

Увидели ошибку?

Напишите нам в Telegram!