?

Log in

Не кинокритик. Не палеонтолог.

авг. 13, 2017

10:00 am - Пусть сверху повисит

Пожалуйста, прочитайте название журнала перед тем, как просить совет насчет репертуара видеосалона. Я - не он. Спасибо.

Для тех, кто пришел по ссылке из списка ЖЖ-науки: и это тоже какая-то ошибка. Я не биолог и даже не ученый.
В палеонтологи меня записали, видимо, за пост про тиранозавров (хотя в нем ясно сказано обратное). Ну или, может быть, за один из этих:
http://plakhov.livejournal.com/104586.html
http://plakhov.livejournal.com/103042.html
http://plakhov.livejournal.com/100670.html
Может быть, какой-нибудь из них вам даже понравится.

Но вообще-то учился я на мехмате МГУ, кандидатскую защищал по 05.13.11, работаю в Яндексе, занимаюсь качеством поиска (чем-то средним между программированием, матстатистикой и лингвистикой). До этого несколько лет делал компьютерные игры (в Nival Interactive и в паре куда менее известных компаний), хорошие. Увлекаюсь чем попало всем сразу, читаю много умных книг (не настолько много, как некоторые), иногда пишу сюда что-нибудь научно-популярное.

На всякий случай: статью на "Мембране" про искусственный интеллект, собравшую 15 тысяч комментариев, писал я, но было это почти 10 лет назад, и сейчас она кажется мне наивной и неполной; не нужно по ней судить о чем бы то ни было.

Добавлено 21 февраля 2014 года: нет, в Яндексе не вносят изменения в результаты поиска по политическим мотивам, не скрывают от народов важные новости, не манипулируют в пользу Путина или Ктулху баллами пробок и темами дня в блогах и т.д. и т.п. Если бы тут так делали, я бы тут не работал. Нет, от меня не скрывают, и да, я уверен. Вносить секретные изменения в поиск втайне от меня и моих коллег технически не особенно реально. Если вам кажется, что что-то такое происходит, это, скорее всего, когнитивное искажение (вот такое: Гугл показывает Страшную Новость, а Яндекс - нет? Цензура! Яндекс показывает Страшную Новость, а Гугл нет? Ну мало ли). Подробнее конкретные случаи можем обсуждать в комментариях к этой записи.

июл. 15, 2016

02:09 pm - Встреча

Если вы всерьез занимаетесь программированием, живёте в Москве, и хотите посоциализироваться, заходите вот сюда:
https://events.yandex.ru/events/meetings/04-aug-2016/

Это 4 августа (будний день), с семи вечера. Бесплатно, но с предварительным отсевом на этапе регистрации.
Там будет мини-конференция, где коллеги что-нибудь расскажут, но это, наверное, не главное. Главное, что, если хорошо пойдет, это имеет некоторые шансы превратиться во что-то вроде цехового клуба "для своих" с хорошим отбором на входе, а участие в таких штуках дорогого стоит.

июн. 25, 2016

03:15 pm - Очень серьезное про инопланетян с KIC 8462852

Я тут решил поиграть в астродетектива и попробовать понять, что всё-таки творится со звездой KIC 8462852. Это очень интересная загадка: найдено какое-то явление, уникальное в масштабах известной Вселенной, все имеющиеся данные доступны, буквально можно скачать и что-то начинать делать, даже не будучи профессионалом, но ничего похожего на решение вот уже несколько лет нет. Я посмотрел на данные, что-то интересное, как мне кажется, смог понять, и сейчас расскажу, что. Это не полная разгадка, конечно же, а всего лишь некоторое продвижение по самой волшебной и загадочной ветке размышлений. Конкретнее, вопрос такой: если вокруг ЧЗХ-звезды все-таки вращаются искусственные мегасооружения, то что мы уже сейчас можем сказать об их размерах, форме и орбитах? Достаточно ли это "реалистично" будет выглядеть, будет ли результат такого подсчета скорее в пользу астроинженерной гипотезы, или скорее против неё? Этим вопросом профессиональные астрономы почти не занимаются, несолидно, а обывателей типа меня он как раз интересует сильнее всего.
И получается, что у них по ТРИ ноги!Свернуть )

Tags:

апр. 5, 2016

03:58 pm - У нас есть ТАКИЕ приборы \\ Но мы вам о них не расскажем

Неожиданно для себя обнаружил, что могу оставить нетривиальный комментарий о скандале с панамскими оффшорами, хотя не разбираюсь в сути вопроса примерно ни на бит.

https://www.reddit.com/r/MachineLearning/comments/4d7t1h/panama_papers_dataset/

Q: I'm looking hard online, and I can't find the panama papers for download. But journalists across the world have access to it. Anyone have any idea how to obtain it?

It's a few terabytes, which seems intimidating, but it takes about a day to process petabytes on AWS. To find the names of people involved, we would need to run a PoS tagger in a map job. Might not take all that long to find names in 11.6mil files.

It's also possible to dump it all into AWS elastic search, and make it more easily searchable.

It feels to me like this is the kind of problem big data was made to solve... and something like this is too precious to be left to journalists alone.

A: Data is likely not going to be released unmodified


Там есть обсуждение, чем это может быть вызвано, но, так или иначе, фактическая сторона дела простая: на данные посмотреть нельзя, к ним есть доступ только у выделенных журналистов, в свою очередь, получивших их из неизвестного им источника. Данные не структурированные, поэтому работа с ними требует нетривиальной софтверной обработки (как минимум, OCR и named entity recognition) и анализа, качество проведения и того, и другого проверить извне невозможно. Такое положение дел, скорее всего, навсегда.

Я сейчас очень постараюсь сформулировать свои выводы политически нейтрально, не поддаваясь предубеждениям.
Так вот, из всего этого следует вот что:
1) любое позитивное утверждение об этом скандале (например: такие-то люди контролируют такие-то деньги таким-то способом) можно рассматривать как повод начать независимую проверку этого утверждения, и как источник информации о том, куда стоило бы при этом смотреть. Я не могу представить себе доводов, согласно которым расследованию на основе данных, имеющих такую природу, следовало бы доверять как есть. Даже если принять, что мы абсолютно верим сотрудникам СМИ, их производившим. Можно также делать какие-то выводы из того факта, что проверка после некоторого подобного позитивного утверждения не начинается.
2) негативные утверждения об этом скандале (например: о таких-то людях в связи с этим скандалом не упоминают) можно интерпретировать таким количеством способов, что они почти лишены смысла.

Ещё можно сделать один нетривиальный мини-вывод: если известный человек обладает распространенной фамилией, например, Джонсон, Иванов, О'Брайен или Санчес, то шансы, что мы узнаем о нём что-то благодаря этому сливу, очень малы.

Tags:

мар. 28, 2016

10:08 am - Tay, Гитлер и все-все-все

В прессе и в ЖЖ обсуждается интересная сплетня: мол, твиттер-бота Майкрософтовского производства злые пользователи за сутки научили ругаться матом выдавать расистские твиты, хвалить Гитлера и Холокост, и даже агитировать за Трампа (вот это особенно ужасно!)

Пикантности добавляет то, что высказывания Taи были для бота крайне осмысленными и довольно смешными (тип юмора специфический, но не уникальный, такого много, например, на 4chan-е или на Луркморе). В общем, Скайнет пробудился, но вместо ядерной войны занялся shitposting'ом.

Историю СМИ переводят, пересказывают или перепечатывают друг у друга, поэтому, хотя все описывают произошедшее примерно одинаково, скорее всего, дело было совсем не так. Я сейчас расскажу, как на самом деле был устроен Tay и в чём главная интрига. Я свечку не держал, но понимаю, как сделать силами двух стажеров систему, которую опишу ниже, и совсем не понимаю, как сделать тот Strong AI, который описывался в прессе. При этом мой вариант все наблюдаемые события объясняет без привлечения дополнительных сущностей.

Итак, Тая представляла собой машиннообученный классификатор, который по паре твитов "вопрос - ответ" (или "твит - реакция") предсказывает, сколько лайков и ретвитов получит второй твит в паре. Кроме этого у неё была очень большая база исторических твитов реальных людей. Получив вопрос, Taя собирала из предложений, доступных в этой базе, лучший ответ согласно этому классификатору (ну или не собирала из предложений, а "генерировала" какой-нибудь обученной на ней рекуррентной сеткой, это не так важно) и постила от своего имени.

Никакие пользователи за сутки её ничему не учили, я вообще не думаю, что там присутствовало какое-то онлайн-обучение. Никаких политических взглядов у неё не было и быть не могло. Все неполиткорректные твиты уже были в её базе с самого начала, злым анонимусам оставалось открыть возможность их провоцировать.

Главная интрига всей истории с моей точки зрения состоит в том, рассчитывал PR Майкрософта на такое развитие событий, или оно застало их врасплох. Т.е. умысел это был с их стороны или некомпетентность. Я склоняюсь к первому, потому что история разлетелась очень широко, а для имиджа MS оказалась, скорее, приятной (вот какие большие огурцы продаются в наших магазинах).

дек. 25, 2015

02:36 pm - Про аргументы и факты

Мне всегда любопытно, что творится в головах у спорщиков, когда кто-то из них находит красивый и наглядный пример, на первый взгляд, в поддержку некоторой позиции П, но на самом-то деле иллюстрирующий ровно обратное. Есть такое ощущение, что, если пример очень красивый и очень наглядный, то происходит всегда одно и то же: сторонники П немедленно начинают тиражировать его по всему интернету, приводя ссылку к месту и не к месту, а оппоненты стараются его молча игнорировать, даже не вдумываясь в суть, а тем более, не пытаясь обратить его против позиции П.

Вот один неполитический пример: есть такая демка про "генетические алгоритмы", где в двумерном мире ездят смешные машинки, часто переворачивающиеся или застревающие в неровностях рельефа. Они эволюционируют и с течением времени уезжают всё дальше. Вот она: http://rednuht.org/genetic_cars_2/, посмотрите сами, она забавная.

Я уже несколько лет встречаю её упоминание в самых разных местах интернета. В большинстве случаев она как бы иллюстрирует возможность "эволюции" на основе малых случайных изменений, наследования и отбора, что, по мнению интернет-спорщиков, по какой-то причине важно доказать. Иногда она также объясняет, как работают в сложных задачах машинного обучения "генетические алгоритмы".

При этом ровно десять минут наблюдений за демкой способны, кажется, кого угодно убедить ровно в обратном: нет, одних только случайных изменений, наследования и отбора не хватает не то что для появления чего-то сложного, а вообще чтобы система хотя бы примерно сходилась. Нет, "генетические алгоритмы" если и где-то работают, то всяко уж не в этой задаче.

Я оставил демку на пару часов на настройках по умолчанию и получил такой патетический график:


По оси Х номер поколения, красная линия - performance лидера поколения, зелёная - средний performance десятки лучших, синяя - средний performance поколения. Видно, что performance с какого-то довольно раннего поколения упирается в произвольный локальный максимум. Этот предел вовсе не обусловлен физикой мира, т.к. дважды совершенно случайно происходил серьезный "прорыв", который ни к чему не приводил. Всё это потребовало около 15000 "заездов", машинка при этом задаётся всего 15 вещественными числами. Примерно любая другая оптимизация за такое время породила бы "идеального гоночного монстра".

ноя. 2, 2015

09:44 pm - Онлайн-тест Плахова

Представьте себе некий давний спор. Такой, за которым вы -- прямо или косвенно -- провели онлайн бесчисленные часы; много читали википедию, и даже какие-то другие, бывало, источники, стремились утвердить свою позицию и найти новые аргументы; доказывали всяким придуркам, что они придурки -- но безуспешно. Это уже во многом часть вашего самоощущения: вы - не то, что какие-то там они.

И вот вы внезапно узнаёте, что были неправы. Такие дела, этот спор вдруг решился, и факты открылись какие-то дурацкие, бессмысленные совсем. И вас охватывает -- нет, не удивление, потому что никакого противоречия с тем, что было вам до того известно, на самом деле нет, и вы на самом деле всегда об этом знали, просто признать это было бы слабостью -- а ужасная досада! Ну ведь вы все равно были правы, просто не в этом смысле, но правы, по-настоящему-то, в целом!  Вновь открывшиеся обстоятельства ничего на самом деле не меняют, но теперь-то как вот это всё объяснять этим придуркам? Ведь они же будут считать, что с самого начала были правы, вот что самое обидное!.. Как теперь им докажешь?

Представили? Да? А вам вообще сколько на самом деле лет, пять?

Остановитесь уже, ну.

авг. 13, 2015

01:40 pm

Сегодня у меня день рождения.
Два года назад я попросил рассказать мне в подарок в комментариях что-нибудь интересное. Получилось и правда интересно, если не читали - почитайте http://plakhov.livejournal.com/209469.html

Сегодня я хочу продолжить тот праздник. Расскажите, пожалуйста, что-нибудь интересное о том, в чем вы разбираетесь профессионально. Комментарии, содержащие поздравления, и не содержащие подарка, я открывать не буду.

Вот, например, что рассказал бы я.

Предположим, мы владеем интернет-магазином, у нас есть две версии странички товара, и мы хотим узнать, какая из них лучше "работает", то есть, приносит нам больше покупок. Тот факт, что решение "купить в этом магазине эту дорогую вещь или нет" может зависеть от оформления веб-странички, для людей не из нашей индустрии сам по себе нетривиален, но это так.

Мы можем провести "двойное слепое рандомизированное тестирование" (тут это называется A/B testing), точно узнать, какая лучше, и далее показывать именно её. Но это долгий процесс, а пока он идёт, мы в 50% случаев будем показывать "неправильную" страничку, таким образом, недополучим сколько-то денег. С другой стороны, если нам всё-таки "не повезёт", мы ошибёмся и примем неверное решение, считая при этом, что эксперимент показал его правильность с высокой вероятностью, то оно уже необратимо, и далее мы теряем деньги с постоянной скоростью. В общем, A/B testing неоптимален, так как мы хотим не столько "провести правильное исследование", сколько применить какую-то процедуру, которая в среднем именно максимизирует выгоду. Осознание этого факта заняло несколько лет, и относительно недавно из академии в индустрию пришёл набор методов, объединенных общим названием "многорукие бандиты", делающих именно это.

Это всё присказка, а сказка вот. Оказывается, "многорукие бандиты" математически строго показывают, что в задачах управления в условиях неполной информации возникает противоречие между нашей способностью действовать оптимально и нашей способностью доказать, что выбранные действия оптимальны. То есть понимаете, да? "Действовать оптимально" и "уметь доказать себе или другим, что мы действуем оптимально" - даже не просто разные цели, а именно что с какого-то момента формально противоречащие друг другу. Это кажется мне сильным выводом, имеющим следствия уже далеко за пределами всякого там интернет-бизнеса.



Вот что-нибудь такое. Напоминаю, что сегодня в комментариях никто не ругается и все всех френдят, весёлый праздник!

авг. 12, 2015

10:03 pm - Фримены Дюны

После обмена самыми грязными из известных им оскорблений наступала кульминация, когда турки неистово кричали арабам "англичане!", а те обзывали их "немцами". Разумеется, никаких немцев в Хиджазе не было, а первым и единственным англичанином был я, но каждая сторона очень любила осыпать другую ругательствами, и любой обидный эпитет с готовностью срывался с языков противника.

К тридцати примерно годам индеец Зоркий Глаз осознал, что "Дюна" Ф.Херберта (та, что про спайс, харвестеры, сардаукаров и т.п) - это история Лоуренса Аравийского, совсем слегка замаскированная. Одинокий аристократ родом из цивилизации подымает дикий пустынный народ Ар{ракиса,авии} на священную войну с угнетателями из злой империи с ятаганами. Вообще знатный бродячий сюжет получается, вот ещё через полвека и "Аватар" туда же :)

В общем, не прошло и пяти лет, и я решил, наконец, прочитать "Семь столпов мудрости" (мемуары самого Томаса Эдварда Лоуренса), и по итогам очень доволен этим решением.

Во-первых, это позволяет сличить, что нового в "Дюне" по сравнению с прототипом, и результат кое-что интересное говорит о культурно-историческом фоне, на котором она появилась (Ближний Восток и США середины 60-х годов). В истории Лоуренса ещё нет ничего похожего на нефть "спайс", нет торговых сущностей типа OPEC/ARAMCO/СНОАМ, почти нет "экологических" мотивов, нет и супергероев. Герои, впрочем, есть. При этом "Дюна" сохранила некую метарелигиозность: физические события являются лишь следствием развития абстрактных идей, а религии переплетены с историей и судьбой народов так, что отличить одно от другого невозможно. В общем, и то, что в ней есть нового, и то, что списано у Лоуренса - всё про наш мир, а не про Арракис.

Во-вторых, "Семь столпов" сама по себе книга фантастически поучительная, тоньше и богаче "Дюны", потому что написана была от первого лица о реальных людях и событиях огромной важности. Я ожидал записок "технического характера", но это именно литература.

ЦитатыСвернуть )

Tags:

авг. 3, 2015

04:12 pm - Не о медицине

Этот пост я давно хотел написать, но только в отпуске нашёл время. Тема сложная, текст очень длинный, без цифр и подробностей обойтись не удастся, но разобраться важно. Мне кажется, что те, кто осилит изложение (только всерьёз, вникая в эти самые подробности, а не по диагонали), имеют шанс освободиться сразу от нескольких распространенных, но вредных способов получения, обработки и распространения информации.

Осторожно: стена текста с цифрами и ссылками на формулыСвернуть )

Navigate: (Previous 10 Entries)