Category: фантастика

Category was added automatically. Read all entries about "фантастика".

любопытно

У нас есть ТАКИЕ приборы \\ Но мы вам о них не расскажем

Неожиданно для себя обнаружил, что могу оставить нетривиальный комментарий о скандале с панамскими оффшорами, хотя не разбираюсь в сути вопроса примерно ни на бит.

https://www.reddit.com/r/MachineLearning/comments/4d7t1h/panama_papers_dataset/

Q: I'm looking hard online, and I can't find the panama papers for download. But journalists across the world have access to it. Anyone have any idea how to obtain it?

It's a few terabytes, which seems intimidating, but it takes about a day to process petabytes on AWS. To find the names of people involved, we would need to run a PoS tagger in a map job. Might not take all that long to find names in 11.6mil files.

It's also possible to dump it all into AWS elastic search, and make it more easily searchable.

It feels to me like this is the kind of problem big data was made to solve... and something like this is too precious to be left to journalists alone.

A: Data is likely not going to be released unmodified


Там есть обсуждение, чем это может быть вызвано, но, так или иначе, фактическая сторона дела простая: на данные посмотреть нельзя, к ним есть доступ только у выделенных журналистов, в свою очередь, получивших их из неизвестного им источника. Данные не структурированные, поэтому работа с ними требует нетривиальной софтверной обработки (как минимум, OCR и named entity recognition) и анализа, качество проведения и того, и другого проверить извне невозможно. Такое положение дел, скорее всего, навсегда.

Я сейчас очень постараюсь сформулировать свои выводы политически нейтрально, не поддаваясь предубеждениям.
Так вот, из всего этого следует вот что:
1) любое позитивное утверждение об этом скандале (например: такие-то люди контролируют такие-то деньги таким-то способом) можно рассматривать как повод начать независимую проверку этого утверждения, и как источник информации о том, куда стоило бы при этом смотреть. Я не могу представить себе доводов, согласно которым расследованию на основе данных, имеющих такую природу, следовало бы доверять как есть. Даже если принять, что мы абсолютно верим сотрудникам СМИ, их производившим. Можно также делать какие-то выводы из того факта, что проверка после некоторого подобного позитивного утверждения не начинается.
2) негативные утверждения об этом скандале (например: о таких-то людях в связи с этим скандалом не упоминают) можно интерпретировать таким количеством способов, что они почти лишены смысла.

Ещё можно сделать один нетривиальный мини-вывод: если известный человек обладает распространенной фамилией, например, Джонсон, Иванов, О'Брайен или Санчес, то шансы, что мы узнаем о нём что-то благодаря этому сливу, очень малы.

любопытно

Люди Икс (зарисовка)

Рассмотрим 0,001% квантиль "самых умных людей".

Возьмём случайным образом тысячу человек (примерно столько, с точностью до порядка, у вас было шапочных знакомых за всю вашу жизнь). Выберем из них самого умного (здесь и далее предполагается, что g factor объективно существует, имеется в виду именно он). Повторим процедуру сто раз, и среди избранных опять выберем самого умного. Это один из интересующих нас людей Икс.

Приблизительно, на пальцах, давайте поймём, насколько люди Икс уникальны. В десятимиллионном мегаполисе таких всего-то порядка сотни человек. Скорее всего, больше ста, так как есть причины считать, что в мегаполисах они оседают чаще, чем в провинции, но вряд ли больше на порядок. Большинство членов любого, сколь угодно "элитного", сообщества (академики, топ-менеджеры, мультимиллионеры) объективно глупее людей Икс. Когда человек Икс учился в школе, он, скорее всего, был лучшим учеником на территории, на которой проживает несколько миллионов человек.

Мне кажется очевидным, что судьбы мира зависят от людей Икс в значительной степени. Это подтверждается знакомством с несколькими людьми, которых я подозреваю в том, что они, возможно, являются представителями этой квантили, и их достижениями. При этом мы ничего о них не знаем, и изучать их какими-либо социологическими методами, думаю, невозможно, т.к. 0,001% квантиль за гранью чувствительности любых статистик. Мы не знаем, например, как они распределены между полами или странами, и экстраполировать для ответа на этот вопрос как шовинизм/расизм, так и феминизм/мультикультурализм можно только в рамках собственной веры, никакого другого основания для такой операции нет. Впрочем, мне кажется, что почти любой читатель, вне зависимости от предустановок, немного подумав, согласится, что, скажем, самая умная женщина стомиллионной Нигерии, скорее всего, превосходит этого читателя интеллектом ("ну и что!")

Моя личная вера состоит в том, что все качества, не связанные явным образом с интеллектом, с ним коррелируют не настолько, чтобы это имело значение. Например, примерно настолько же часто люди Икс бывают высокорослыми, насколько и все прочие, и примерно настолько же часто низкорослыми. Так же, как и по всей популяции, распространены среди них красавицы и уроды, блондины и брюнеты. Экстраверты и интроверты. Садисты и другие парафилы. Злодеи и святые.

В мире живёт 70 тысяч людей Икс. Многие из них ещё маленькие или уже слишком стары, многие родились в слишком уж неудачном месте, или сошли с ума, или отгородились от мира, или по какой-то другой причине не влияют на него, но значительная часть - десятки тысяч - активно мир меняют. Примерно половина из них склонна к злу.

Человек Икс, если вы случайно попадётесь на его пути, всегда убедит вас в том, в чём ему нужно будет вас убедить, обыграет в любые игры и победит в любом виде деятельности, в котором успех не определяется случайностью. Всё, что вы при этом о нём будете знать - "это один из самых крутых чуваков, что я видел в своей жизни". Вы не будете знать, "хороший" он или "плохой". Я прошу прощения за столь детские определения, но мне кажется, что они тут уместны.

Эту пугающую картину я осознал где-то год назад, и она меня не отпускает.
любопытно

Накопившееся

Про Спутник aka национальный поисковик
Collapse )

Про "редизайн" ЖЖ
Collapse )

Про политику
Если вы участвовали за последние три-четыре месяца в хохлосрачах политических дискуссиях, попробуйте проделать следующую операцию: перечитать, что вы писали на эти темы больше месяца назад (можно применить http://blogs.yandex.ru/advanced.xml или что-нибудь аналогичное). Я почитал, в паре мест просто упал под стол, хотя в целом там и лучше, чем я опасался. Очень лечит от синдрома "не помню, что я писал конкретно, но что-то разумное, ведь точно помню, что в целом был прав". Может быть, кого-то эта операция способна будет даже заставить задуматься о том, как же так получается, и что такими темпами будет ещё через месяц, и тем самым привести в чувство. Хотя вряд ли, конечно.
любопытно

О вечном

Самое время поговорить о вечном, поскольку мир вокруг идёт коту под хвост, как это с ним вообще непрерывно происходит. Недостойному мне вдруг показалось, что этическую систему, которая я считаю лучшей, можно попытаться пересказать в нескольких абзацах.

"Лучшей" она является вот в каком смысле. Во-первых, она позволяет расти над собой, что до знакомства с ней казалось мне фундаментально невозможным, чем-то вроде вытягивания себя из болота за волосы. Во-вторых, коллектив, в котором большинство участников следуют принципам этой системы, постепенно "входит в резонанс" и может начать выдавать неожиданно хорошие результаты. Иногда понятные, но ранее для этого коллектива считавшиеся невозможными. Чаще же они оказываются чем-то из категории unknown unknowns: мы вообще не знали, что так бывает, поэтому такого рода результаты никак не детектировали и измерять не умеем, но всем ясно, что Это Хорошо.

Вот принципы этой этической системы.

Collapse )
любопытно

Диалектическое

А вот в детстве была такая лженаука, учившая, что есть два приема познания: анализ и синтез.
И вот она частично шагнула в жизнь, и вокруг очень много людей, называющих себя аналитиками. Некоторых я очень уважаю, некоторых не очень, но занимаются они в целом одним и тем же.

Возьмут некоторое явление (концепцию, продукт, аудиторию) Х, разобьют на x1, x2 и x3, потыкают в них математикой, и пишут, например: x2 и х3 можно улучшить так и эдак, х1 вообще непонятно зачем, а ещё не хватает х4.

Ну, а где же их добрые доппельгангеры из параллельной вселенной - синтетики? Где мне взять человека, который вместо этого скажет "ба, да из x1, y2 и z3 мы ведь можем на халяву собрать W"? Откуда такая странная несимметричность?
любопытно

Осталось уговорить принцессу и другие новости дня

В Пуэрто-Рико решили тракторный вопрос радикально. Мне интересно, что это вообще означает на практике. Теперь им будут как-то вежливо и правильно отказывать, да?

Я подсел на два новых источника информации об инопланетянах, Компьюленту и вот на этот замечательный сайт (например, снимок поверхности Титана, спутника Сатурна с высоты 16 км; в этих речках течёт метан).

А ещё сегодня узнал, что даже очень умные программисты с большим стажем иногда не знают, что рефакторинг, от которого увеличивается объем кода, число классов, шаблонов и уровней наследования - плохой, негодный рефакторинг. Нет, если именно так сформулировать, тогда знают, и будут негодовать, если предположить обратное. А на практике почему-то нет. Вот как так.
любопытно

Ой... Теперь он и тебя сосчитал! (с)

Вчера (а то и позавчера вечером) в интернетах появились записи следующего содержания: по сообщениям радио "Серебряный Дождь" (варианты: Аль-Джазиры, неназванного, но заслуживающего доверия источника, моего дяди из спецслужб, одной бабки) сотовые операторы посчитали точное количество людей, пришедших на Болотную площадь, и их оказалось столько-то (цифра).

Это не так, и сейчас я попытаюсь объяснить, почему это технологически невероятно. На всякий случай, предупреждаю: я не специалист по СОРМ, GSM, AOA, A-GPS и другому кун-фу. Изначально я не смог поверить этой новости в основном потому, что она а) передавалась из третьих рук, и б) означала, что как минимум три сотовых оператора умеют в совершенстве (и всего за несколько часов) выполнить крайне несвойственные им функции. Всё остальное я узнал из интересного чтения статей о работе GSM-сетей, чего и всем желаю (всегда полезно получить лишний повод узнать, как работает распространенная, масштабная и важная технология). Если я вдруг где-то ошибаюсь, специалисты меня поправят, надеюсь.

Итак, что, собственно, утверждается?
1) Телефон, который сейчас есть у каждого, что-то все время передаёт оператору
2) Поэтому оператор в любой момент времени знает, где находятся его абоненты
3) Поэтому он может постфактум посчитать количество своих абонентов, находившихся в некоторой области размерами примерно 400х200 метров в такие-то часы
4) Поэтому как минимум три основных московских оператора действительно этим занимались

Ни один из этих пунктов не является верным. Здесь короткое введение о том, что умеют и чего не умеют делать операторы: http://www.pro-gsm.info/location-tracking.html

Дальше я в основном пересказываю его своими словами с добавлением каких-то подробностей, относящихся к данной конкретной ситуации.

Обычный сотовый телефон что-нибудь передает в следующих случаях: при включении, при смене базовой станции, и при совершении звонка или отправке/приеме SMS. Сотовый телефон передает свой уникальный идентификатор (IMSI) только в момент включения (или когда "ловит" потерянную сеть), во втором случае (который нас и интересует) он обходится передачей TMSI, временного идентификатора. Забавно, но это сделано в том числе для того, чтобы за ними сложнее было следить.

Теперь, специалисты, поправьте меня, если я ошибаюсь, но. Чтобы понять, что это "тот самый IMSI", нам нужно на уровне HLR хранить все данные о том, какой абонент когда "чекинился", какой TMSI в этот момент был случайно сгенерирован, и через какие VLR и базовые станции затем ходил-ездил. Хранятся ли на HLR такие данные? Например, это примерно на порядок больше записей (если не на два), чем весь биллинг. Это данные, которые ни для чего самому сотовому оператору не нужны. Передаются ли они туда с VLR вообще?

Заметим, что с помощью такого механизма сотрудники сотового оператора фактически хранили бы все перемещения любого абонента в неанонимизированном виде. Если бы такое существовало, не думаю, что органы обошлись бы без доступа к этой лакомой информации, и в материалах дел мы читали бы не что-то вроде "подозреваемые Минин и Пожарский совершили звонок из такой-то точки, а затем из такой-то точки", а что-то вроде "...передвигались по городу так-то" (иногда мы можем и такое прочитать, конечно, но это означает, что за М. и П. в тот момент уже следили, постфактум это не делается).

Хорошо, поехали дальше. Насчет определения местоположения. Радиус действия базовой станции в городе порядка километра, а нас интересует район размерами порядка 400х200 метров, перекрываемый полутора десятками этих самых базовых станций. Допустим, мы даже можем посчитать число уникальных IMSI, приславших location update к заданной базовой станции в заданный промежуток времени. Location update'ы на какие из этих станций и в какие моменты мы будем считать? Такой вещи, как триангуляция (в контексте определения местоположения абонента), не существует.

Запись в базе о том, что телефон находился там-то (с точностью до базовой станции) иногда действительно делается (и сохраняется), но для этого нужно, чтобы он с сетью как-то содержательно повзаимодействовал - послал или получил SMS или звонок. Соответственно, то, что оператор действительно мог бы сделать - посчитать количество людей, в такой-то промежуток времени звонивших примерно оттуда, и сравнить со значением, скажем, за неделю до того. Собственно, это два из трех операторов как раз сделали, правда, никаких цифр не привели, сказали только, что нагрузка оказалась примерно "новогодней". Даже если цифры мы узнаем, не совсем понятно, что это нам даст: как оценить, насколько чаще (или реже) звонит кому-нибудь человек, стоящий на митинге, по сравнению со среднестатистическим? К тому же сотовая связь в том месте и в то время "ложилась" несколько раз у разных операторов. Можно ли верить в точность данных, получение которых является сильно второстепенной функцией оператора в условиях, в которых главная выполняется с трудом? Не знаю. Априори я бы не стал.

Наконец, кто же в трех разных больших и неповоротливых коммерческих организациях проводил эту непростую работу на выходных, в пожарном режиме? Ну, как минимум, инсайдерская информация (тм) вчера ответила мне, что в одной из них - никто. Да и зачем? По секрету сообщить эти данные радиостанции "Серебряный дождь" и политически активным блоггерам?

Берегите голову. И по возможности запоминайте, кто вам врёт.
любопытно

У эволюции есть цель

Во всяких околоэволюционных разговорах считается признаком хорошего тона замечать, что "на самом деле" у эволюции нет никакой цели, какие-то изменения происходят совершенно случайно и закрепляются в том случае, если оказались полезны.

Это правда только в том смысле, что те функции, экстремум которых ищется в ходе эволюции, для неё самой являются чёрными ящиками. Например, нельзя градиент посчитать.

Ну и что? Как вы можете проверить сами, поиск экстремума функции методом случайного блуждания не очень-то отличается от поиска её же экстремума методом градиентного спуска. Скорость ниже лишь в маленькое константное число раз, "траектория" выглядит очень похоже. При этом вряд ли кому-то придет в голову говорить, что у градиентного спуска "на самом деле нет никакой цели".

(Бывает ли аналог gradient boosting со случайными добавками? Типа simulated annealing, только в пространстве линейных комбинаций слабых решателей? Кто-нибудь пробовал?)

Да и исходное "изменения происходят совершенно случайно" - тоже не совсем верно. Эволюция - не случайное покоординатное блуждание. Современные виды так устроены, что разные изменения происходят совершенно с разной скоростью. Геном разделен на хромосомы, и изменение некоторого фенотипического признака в результате рекомбинации сильно зависит от того, кодируется он генами, находящимися на одной хромосоме, или на нескольких, и находятся соответствующие кодоны недалеко друг от друга на молекуле ДНК, или на разных её концах. Таким образом, эволюция может как минимум регулировать скорость, с которой перебор идет по разным "координатам", а скорее всего, применять и какие-то более интересные алгоритмы оптимизации.

---
And now for something completely different. Есть такой интересный факт: люди в среднем раз в сутки на несколько часов впадают в бессознательное состояние, сопровождаемое кратковременными галлюцинациями. Многие люди склонны придавать таким галлюцинациям мистическое значение, видеть в них элементы бытовых пророчеств. Даже люди, обладающие рациональным складом ума, казалось бы, чуждые суевериям, часто с интересом обсуждают содержание своих галлюцинаций, и пытаются делать из них какие-то выводы, например, насчет собственного "подсознания".

А. хотел бы поучаствовать в этом интересном времяпровождении, и тем самым несколько социализироваться, но боится того, какие выводы о нём могут сделать окружающие. Так, сегодняшние ночные видения А. включали в себя правдоподобное описание того, как в неком мафиозном клане принято казнить предателей. Их ставят на колени, зажимают голову в слесарных тисках (лицом вниз, губки тисков сжимают виски), и отпиливают голову лобзиком. При этом шея перепиливается сзади, т.к. это позволяет существенно продлить мучения жертвы. А. наблюдал за этим обычаем с отстраненным интересом. В свое оправдание А. может отметить разве что тот факт, что его видение не включало кровь и иные отвратительные подробности.

---
А ещё дочь мне сегодня показала пальчиком на хурму и с беспокойством в голосе сообщила, что "нельзя есть мухомор".