Преимущество использования двух показателей

Преимущество использования двух показателей

Преимущество использования двух показателей заключается в том, что во многих ситуациях один из них оказывается важнее другого. Типичные пользователи веба хотели бы, чтобы все результаты, выведенные на первой странице, были релевантными (высокая точность), но не хотят иметь представления обо всех релевантных документах, тем более просматривать их В противоположность этому профессиональные пользователи, занимающиеся поиском в вебе, например помощники адвокатов и работники спецслужб, очень заинтересованы в том, чтобы полнота поиска была как можно более высокой, и готовы мириться с низкой точностью. Люди, которые ищут информацию на своих жестких дисках, также часто заинтересованы в высокой полноте поиска. Тем не менее точность и полнота поиска очевидным образом противоречат друг другу: полноту всегда можно повысить до единицы (при очень низкой точности), возвращая все документы на все запросы! Полнота не убывает при увеличении количества найденных документов. С другой стороны, в хороших системах при увеличении количества найденных документов точность обычно снижается. В целом хотелось бы достичь определенной полноты поиска при небольшом уровне ложно положительных.

Показатель, позволяющий найти баланс между точностью и полнотой поиска, называется F-мерой (F measure) и представляет собой их среднее гармоническое взвешенное.

Однако равные веса не являются единственно возможным вариантом. Значения р 1 — полноте. Например, значения р = 3 или р = 5 можно использовать, если для пользователя важнее полнота поиска. Точность, полнота и F-мера лежат в отрезке от нуля до единицы, но иногда выражаются в процентах по шкале от нуля до ста.

Почему в качестве F-меры используется среднее гармоническое, а не арифметическое? Напомним, что, возвращая все документы, мы обеспечиваем 100%-ную полноту, следовательно, мы всегда можем добиться, чтобы среднее арифметическое было равным 50%. Это значит, что среднее арифметическое не подходит для оценки. И наоборот, если предположить, что только один документ из десяти тысяч является релевантным запросу, то среднее гармоническое этой стратегии будет равно 0, 02%. Среднее гармоническое никогда не превышает ни среднее арифметическое, ни среднее геометрическое. Если эти два средних значительно отличаются друг от друга, то среднее гармоническое ближе к их минимуму, чем к их среднему арифметическому.