Не кинокритик. Не палеонтолог. (plakhov) wrote,
Не кинокритик. Не палеонтолог.
plakhov

Categories:

How to lie with a log-log plot

Книге "How to lie with statistics" уже 65 лет. Приёмы, о которых рассказывал её автор, сейчас выглядят довольно примитивно, в XXI веке каждый* знает, что такое selection bias, чем среднее отличается от медианы и почему корреляция ваще ничего не значит**.

*то есть я и мои друзья
**нет, серьезно, it doesn't imply causation, but only until it kinda does

Искусство показывать на корректных цифрах несуществующие тренды и зависимости за три поколения шагнуло далеко вперёд. vashu11 показал мне в комментах потрясающий пример: "Полезность от экспоненциальной модели можно видеть хотя бы по графикам https://aatishb.com/covidtrends/"

По ссылке виден красивый график, на котором точки, соответствующие разным странам, как обычно на графиках про коронавирус, бегут со временем куда-то вверх и вправо, сначала очень решительно, потом более задумчиво. Эта визуализация отличается от прочих двумя особенностями: во-первых, траектории разных стран в начале эпидемии выглядят очень ровными и похожими друг на друга. Во-вторых, они очень близки к устрашающей линии, названной "2 Day Doubling Time of Confirmed Cases". Всё это визуально очень убедительно и красиво. Окончательно помогает определиться плашка "Notice that almost all countries follow a very similar path of exponential growth. We're all in this together".

Бей сосули лазером

Хорошая визуализация иногда бывает именно такой, отсекая всё лишнее и оставляя то, что действительно важно, после чего суть происходящего оказывается очевидной. Но здесь всё слишком уж красиво. Эпидемия в Китае, Южной Корее, Италии и США развивалась по четырём совершенно разным сценариям. Исходные цифры выявленных зараженных, по которым строятся эти графики, очень шумные, зависят от того, с какой скоростью в разных странах разворачивали тестирование, кого именно тестировали и как работало отслеживание контактов; за последние месяцы все эти факторы сильно поменялись. Наконец, настораживает "удвоение каждые два дня", такую цифру про коронавирус я видел редко и никогда как "типичную". Но ведь вот же, всё на графике!

Этот фокус неподготовленный человек так с ходу и не разгадает. Если бы у нас не было более приличных визуализаций тех же процессов (моя любимая инфографика https://ft.com/coronavirus-latest, но и более распространенный и полный https://www.worldometers.info/coronavirus тоже сойдёт), я бы сам принял его за чистую монету.

Первое подозрение, конечно, вызывает то, что это log-log plot. На лог-лог шкале любая степенная зависимость начинает выглядеть как прямая линия, но обратное неверно, об этом написано даже в википедии.

...going in the other direction – observing that data appears as an approximate line on a log–log scale and concluding that the data follows a power law – is invalid.

In fact, many other functional forms appear approximately linear on the log–log scale, and simply evaluating the goodness of fit of a linear regression on logged data using the coefficient of determination may be invalid


Короче, если вы видите log-log plot, визуально "доказывающий" гипотезу о характере зависимости, будьте осторожны, возможно, авторы хотят вас обмануть (или себя).

Давайте нанесём на график ещё одну прямую, соответствующую увеличению на 10% в неделю. Согласитесь, такая ситуация радикально отличается от удвоения каждые двое суток, изображенного пунктиром.

ok google, как в Paint вставить текст под углом?

По-моему, тот факт, что все траектории проводят некоторое время в узкой зоне между двумя этими прямыми, после этого становится заметно менее впечатляющим.

Но всё ещё хуже!

Перед нами не просто log-log plot двух величин, это даже не log-log plot значения величины и её производной. Это log-log plot текущего значения величины и её прироста за прошлую неделю.

Например, именно из-за этого в верхней левой половине графика ничего нет: случаев, выявленных за последнюю неделю, не может быть больше, чем случаев всего. И именно поэтому траектория Южной Кореи на нём в течение двух недель выглядит так же, как выглядела бы экспоненциальная, хотя реальный прирост выявленных случаев там был связан с сектами и суперразносчиками и выглядел, хоть и устрашающе, но довольно хаотически:

Приз тому, кто найдёт экспоненту

Так что на самом деле нарисовано на графике aatishb.com/covidtrends?

Сразу в нескольких странах большая часть среди первых 1000-5000 случаев была выявлена в течение одной недели.

Вы можете проверить самостоятельно, что выполнение этого условия необходимо и достаточно, чтобы нарисовать именно ту траекторию, которая в оригинале сопровождается словами

Notice that almost all countries follow a very similar path of exponential growth. We're all in this together

В конце подобной записи по традиции должны следовать неловкие уверения, что автор блога не является денайером и верит в то, что коронавирус существует, руки мыть нужно, а земля геоид. А вот и они.
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 12 comments