Как измерить знания честно. Метод математика Георга Раша

Представьте: учитель провёл тест. Один ученик набрал 8 баллов из 10. Другой — 4 из 10. Кажется, всё понятно. Но подождите. Первый получил лёгкий вариант, второй — сложный. Первый несколько раз угадал. А второй попался на каверзные формулировки. Что именно мы измерили? Знания — или удачу?

Именно этим вопросом занялся датский математик Георг Раш в начале 1950-х годов.

Проблема обычных тестов

Раш работал с призывниками датской армии — оценивал их интеллектуальные способности. Повсюду использовались задания с выбором одного правильного ответа из нескольких. И он сразу увидел фундаментальный изъян: если ответов четыре, слабый студент угадает правильный в 25% случаев. Это не знание — это шум, который портит любое измерение. Раш отказался от таких заданий и начал думать иначе.

Поединок ученика с заданием

Он предложил красивую метафору. Каждый раз, когда ученик встречается с заданием, происходит поединок. Подготовлен лучше, чем сложность задания — скорее всего победит, даст правильный ответ. Задание сложнее его уровня — победит задание. Из этой метафоры выросла математическая формула. Вероятность правильного ответа зависит ровно от двух вещей: уровня подготовленности ученика и уровня трудности задания. Больше ничего.

Главное открытие: независимость измерения

В обычных тестах трудность задания меняется в зависимости от аудитории. Дайте одно и то же задание сильному классу — оно покажется лёгким. Слабому — трудным. Получается, мы каждый раз измеряем что-то разное. Раш решил эту проблему. В его системе трудность задания не зависит от того, кто отвечает. А уровень подготовленности ученика не зависит от того, какой конкретно вариант ему достался.

Исходные баллы преобразуются в логарифмическую шкалу — логиты — и только тогда становятся настоящим измерением, сопоставимым между разными группами и разными вариантами теста. Как это работает математически, показывает график вероятности правильного ответа.

График зависимости вероятности правильного ответа от разности между уровнем подготовленности испытуемого и уровнем трудности задания. Когда знания ученика превышают сложность задания (разность положительная), вероятность правильного ответа становится выше 0,5. Если задание сложнее — вероятность падает.

Тест — это не набор вопросов, а система

Раш настаивал: качественный тест — это система заданий равномерно возрастающей трудности. Если между лёгкими и сложными заданиями образуется «провал», шкала ломается. Представьте линейку, у которой между пятью и десятью сантиметрами нет делений. Измерить что-то в этом диапазоне невозможно. С тестом — то же самое.

Парадокс: лучшее задание могут выбросить

Самое неожиданное в методе Раша — все задания теста должны одинаково хорошо различать сильных и слабых учеников. Если какое-то задание делает это слишком хорошо — оно не вписывается в модель и подлежит удалению. Парадокс: чем лучше задание в классическом смысле, тем хуже оно для системы Раша. Это не ошибка — это осознанное ограничение ради целостности шкалы. Раш пожертвовал «лучшими» заданиями ради единого измерения. И модель оказалась рабочей.

Почему в России это почти не применяется

Метод позволяет ответить на простой и важный вопрос: что именно знает ученик — независимо от того, сильный класс или слабый, лёгкий вариант или сложный. Метод Раша давно стал мировым стандартом в педагогике, медицине и социологии. В России — почти нет. Причина одна. По соображениям безопасности ее пока называть нельзя.

«TRON в зоне RUбля»