Category: коронавирус

Category was added automatically. Read all entries about "коронавирус".

любопытно

How to lie with a log-log plot

Книге "How to lie with statistics" уже 65 лет. Приёмы, о которых рассказывал её автор, сейчас выглядят довольно примитивно, в XXI веке каждый* знает, что такое selection bias, чем среднее отличается от медианы и почему корреляция ваще ничего не значит**.

*то есть я и мои друзья
**нет, серьезно, it doesn't imply causation, but only until it kinda does

Искусство показывать на корректных цифрах несуществующие тренды и зависимости за три поколения шагнуло далеко вперёд. vashu11 показал мне в комментах потрясающий пример: "Полезность от экспоненциальной модели можно видеть хотя бы по графикам https://aatishb.com/covidtrends/"

По ссылке виден красивый график, на котором точки, соответствующие разным странам, как обычно на графиках про коронавирус, бегут со временем куда-то вверх и вправо, сначала очень решительно, потом более задумчиво. Эта визуализация отличается от прочих двумя особенностями: во-первых, траектории разных стран в начале эпидемии выглядят очень ровными и похожими друг на друга. Во-вторых, они очень близки к устрашающей линии, названной "2 Day Doubling Time of Confirmed Cases". Всё это визуально очень убедительно и красиво. Окончательно помогает определиться плашка "Notice that almost all countries follow a very similar path of exponential growth. We're all in this together".

Бей сосули лазером

Хорошая визуализация иногда бывает именно такой, отсекая всё лишнее и оставляя то, что действительно важно, после чего суть происходящего оказывается очевидной. Но здесь всё слишком уж красиво. Эпидемия в Китае, Южной Корее, Италии и США развивалась по четырём совершенно разным сценариям. Исходные цифры выявленных зараженных, по которым строятся эти графики, очень шумные, зависят от того, с какой скоростью в разных странах разворачивали тестирование, кого именно тестировали и как работало отслеживание контактов; за последние месяцы все эти факторы сильно поменялись. Наконец, настораживает "удвоение каждые два дня", такую цифру про коронавирус я видел редко и никогда как "типичную". Но ведь вот же, всё на графике!

Этот фокус неподготовленный человек так с ходу и не разгадает. Если бы у нас не было более приличных визуализаций тех же процессов (моя любимая инфографика https://ft.com/coronavirus-latest, но и более распространенный и полный https://www.worldometers.info/coronavirus тоже сойдёт), я бы сам принял его за чистую монету.

Первое подозрение, конечно, вызывает то, что это log-log plot. На лог-лог шкале любая степенная зависимость начинает выглядеть как прямая линия, но обратное неверно, об этом написано даже в википедии.

...going in the other direction – observing that data appears as an approximate line on a log–log scale and concluding that the data follows a power law – is invalid.

In fact, many other functional forms appear approximately linear on the log–log scale, and simply evaluating the goodness of fit of a linear regression on logged data using the coefficient of determination may be invalid


Короче, если вы видите log-log plot, визуально "доказывающий" гипотезу о характере зависимости, будьте осторожны, возможно, авторы хотят вас обмануть (или себя).

Давайте нанесём на график ещё одну прямую, соответствующую увеличению на 10% в неделю. Согласитесь, такая ситуация радикально отличается от удвоения каждые двое суток, изображенного пунктиром.

ok google, как в Paint вставить текст под углом?

По-моему, тот факт, что все траектории проводят некоторое время в узкой зоне между двумя этими прямыми, после этого становится заметно менее впечатляющим.

Но всё ещё хуже!

Перед нами не просто log-log plot двух величин, это даже не log-log plot значения величины и её производной. Это log-log plot текущего значения величины и её прироста за прошлую неделю.

Например, именно из-за этого в верхней левой половине графика ничего нет: случаев, выявленных за последнюю неделю, не может быть больше, чем случаев всего. И именно поэтому траектория Южной Кореи на нём в течение двух недель выглядит так же, как выглядела бы экспоненциальная, хотя реальный прирост выявленных случаев там был связан с сектами и суперразносчиками и выглядел, хоть и устрашающе, но довольно хаотически:

Приз тому, кто найдёт экспоненту

Так что на самом деле нарисовано на графике aatishb.com/covidtrends?

Сразу в нескольких странах большая часть среди первых 1000-5000 случаев была выявлена в течение одной недели.

Вы можете проверить самостоятельно, что выполнение этого условия необходимо и достаточно, чтобы нарисовать именно ту траекторию, которая в оригинале сопровождается словами

Notice that almost all countries follow a very similar path of exponential growth. We're all in this together

В конце подобной записи по традиции должны следовать неловкие уверения, что автор блога не является денайером и верит в то, что коронавирус существует, руки мыть нужно, а земля геоид. А вот и они.
любопытно

Где как справляются с пандемией

Аналитики из Financial Times собрали данные по смертности от всех причин по странам и регионам в одну табличку на Гитхабе. Для интересующихся вопросом "как оно на самом деле" это бесценно. Теперь все, кому не лень, могут составить по ней собственное мнение, а не слушать платных пропагандистов.

Например, я. Смотреть будем на разницу между реальным числом смертей за период и средним числом смертей за тот же период по данным прошлых лет. Назовём это число "избыточная смертность".

В отличие от "числа смертей от коронавируса" (а тем более от "числа заразившихся", которое на самом деле "число проведенных тестов с положительным результатом"), избыточная смертность практически не зависит от особенностей подсчёта. Человек или умер, или нет. Дома, в больнице, в доме престарелых. От ковида или от инфаркта или даже от "неведомой пневмонии". Если к человеку не приехала скорая, потому что скорая ездит только к коронавирусным больным, а у него что-то другое, он тоже попадёт в цифры сверхсмертности, и это правильно. Даже бездомные, с которыми почти в любой статистике проблемы, оказываются подсчитаны (т.к. трупы на улицах не остаются, а с точки зрения морга это такая же учётная единица). Так что цифры избыточной смертности отражают реальность в гораздо большей степени, чем все остальные, доступные интересующимся.

Пара особенностей всё же есть: данные для каких-то регионов публикуются по месяцам, а для каких-то по неделям, и поступают с разной задержкой. Это не мешает их сравнивать, нужно просто не забывать эти особенности учитывать.

Ниже мои выжимки по самым интересным городам. К сожалению, нет данных по Китаю, Украине и Беларуси, а было бы интересно посмотреть.


Москва
К данным FT я добавил предварительные данные за май, взятые отсюда, т.к. у FT в табличке пока только апрель.
Всего в год в Москве происходит ~121000 смертей (здесь и далее я буду приводить эту цифру для понимания масштабов мегаполиса, в случае больших агломераций важно понимать, кого именно засчитывают в "город")
Избыточная смертность в апреле и мае ~7500 (+6.2% годовой)
Официально смертей от ковида за тот же период ~2500

New York City
Всего в год ~52500 смертей. Сравнив с московскими, делаем вывод, что речь о центре города, "собственно Нью-Йорк", около 5 млн жителей.
Избыточная смертность до 16 мая ~25000 человек (+50% годовой)
Официально смертей от ковида за тот же период я нашёл только для всего штата, примерно 28000 (https://www.worldometers.info/coronavirus/usa/new-york/ смотреть на график "cumulative deaths" за 16 мая)

Лондон
Всего в год ~47000 смертей. Аналогично, речь о городе без "Большого Лондона", 4-5 миллионов.
Избыточная смертность ~10000 (+21.3% годовой)
Официально смертей от ковида за тот же период ~6000
(данные отсюда https://data.london.gov.uk/dataset/coronavirus--covid-19--deaths). NB: из источника непонятно, это тот же самый Лондон, или "большой". Если второе, то различие между двумя цифрами окажется гораздо выше, примерно как в Москве

Ile-de-France (то есть Париж и окрестности)
Всего в год ~73500 смертей.
Избыточная смертность ~11500 (+15.6% годовой)
Официально смертей от ковида ~24000. Непонятный результат: официальная смертность вдвое больше избыточной. Возможно, из Парижа многие разъехались и умирали от естественных причин где-то ещё (а если бы не эпидемия, умирали бы в Париже), но непонятно, почему на другие города этот эффект так не влияет. В исходной версии я ошибся, взяв число из Википедии, где указаны не смерти.
Официально смертей от ковида на эту же дату 6900 (прямой ссылки нет, нужно кликнуть на Ile-de-France и выбрать в левой колонке график décès à l’hôpital).

В Германии, к сожалению, нет данных по отдельным городам, данные в среднем по стране сложно сравнивать с мегаполисами. Данные заканчивается 10 мая.
Избыточная смертность по стране ~8000, официально смертей от ковида ~7500, на графике всё это еле-еле получается разглядеть.

В Израиле избыточной смертности нет, официально ~300 умерших.

Север Италии, Мадрид и Стокгольм остаются в качестве упражнения пытливому читателю.

Мои личные выводы:

  • Идеально с эпидемией справились в Германии и в Израиле. Слава тамошней медицины оправдана

  • В Москве с эпидемией справились намного лучше, чем в большинстве мегаполисов, затронутых эпидемией

  • Никаких сверхъестественных эффектов для этого приплетать не нужно. Разница не в десятки раз, а в разы, и может ещё сократиться, т.к. эпидемия в России отстаёт на пару недель от общемировой. Разница вполне объясняется более ранними карантинными мерами, бесплатной госпитализацией и широким тестированием

  • При этом в Москве то ли решили прихвастнуть, что справились ещё намного-намного лучше, чем в реальности (что крайне тупо), то ли перекинули слишком много медицинских ресурсов на ковид в ущерб всему остальному. Я думаю, что и тот, и тот эффект сыграли свою роль. Чёткий KPI дело такое

  • Каких-то сверхужасов в Швеции не заметно

Also, я перестал уважать г-на Леонида Волкова. У нас с ним много общих знакомых через одно рукопожатие, он умный дядька, но увы. Человек с таким аналитическим бэкграундом, как у него, не может из доступных данных искренне делать те выводы, которые делает он. Я думаю, лишнее слово здесь "искренне", просто работа такая.

В целом, честные выводы не выглядят особенно "ватническими" или "либерастическими", поэтому вряд ли станут очень популярными.

Что может на них существенно повлиять: открытие, что в статистике смертности между странами тоже есть серьезные систематические отличия, или что где-то она серьезно сфальсифицирована. Свидетельств в пользу этого я не видел. Мне непонятно, как второе должно быть технически устроено, разве что сломать ради этого всю систему "записи актов гражданского состояния" целиком. Перестать публиковать было бы намного проще.

Напоследок вот вам графики смертности ожидаемой и фактической. На них, кроме очень наглядного ковида, интересно выглядят другие изменения смертности: убийственная (в прямом смысле) московская жара 2010 года, влияние суровой (или мягкой) зимы, супергриппы, вот это всё. Да и просто размер эффекта становится гораздо более наглядным.