Category: лытдыбр

Category was added automatically. Read all entries about "лытдыбр".

любопытно

Лекция Гельфанда

Сходил сегодня на доклад М. Гельфанда - благо, далеко идти не пришлось, три этажа по лестнице.

Михаил Сергеевич Гэндальф Гельфанд показывал разные интересные картинки о том, как выглядят и какими свойствами обладают различные графы (в математическом смысле этого слова), которые можно сопоставить процессам, происходящим в живых клетках, или взаимосвязям между её компонентами. Он отличный рассказчик - судя по всему, почти все почти всё поняли, хотя почти никто из собравшихся (кроме него самого и, возможно, его ученицы? какой-то девушки, которую я раньше не видел) биологом не был и близко. Вообще, было очень интересно, и я узнал для себя много нового; это, впрочем, не странно, я-то в основном по учебникам пытался что-то изучать, а значительная часть работ, о которых он рассказывал, была выполнена уже в XXI веке.

Примерно половина материала была про биологию, а половина - про то, как узнать, является ли некоторое наблюдаемое свойство графа (например, распределение в нём числа вершин разной степени или длина среднего пути в нём) "случайным" или существенным. Для этого нужно уметь изготавливать "случайные" графы (в кавычках, потому что корректно определить это слово для графов сложно), который в остальном имеет те же характеристики, что и настоящий, биологический, и посмотреть, будет ли и интересующая нас характеристика вести себя так же, как и в жизни. Если не будет, то хорошо, мы нашли что-то "настоящее", нетривиальное. Похоже чем-то на квант.трейдинг, если я его правильно себе представляю (только там не про графы, а про ряды). Всё это тесно переплеталось, при этом всякие теорграфовые вещи, хотя были просты математически, зато имели вполне содержательные биологические проекции. Готовят случайные графы довольно наивными методами, пока еще явно есть, где развернуться, при желании.

Что мне показалось самым интересным:
  • приятно удивило, что в качестве примеров приводилось очень много организмов, как одноклеточных, так и многоклеточных, а не как всегда одна только e.coli
  • если рисовать ориентированный граф влияния белков друг на друга (репрессор-активатор), то с очень хорошим приближением это именно граф, а не мультиграф; то есть вещами вроде "А и Б по отдельности не влияют на В, но вместе влияют так-то и так-то" можно пренебречь. Что удивительнее, то же самое верно и для всех химических реакций, происходящих в клетке вообще (получится, насколько я понял, тоже граф, состоящий как из "кто кому катализатор-ингибитор", так и из "кто в кого превращается" - в зависимости от конкретного ребра). В каждой конкретной реакции, естественно, принимает участие несколько веществ, но можно "вынести за скобки" несколько "основных", присутствующих в клетке "всегда" - воду, CO2, АТФ и т.п., и считать их "расходными материалами"
  • предположительно, существует "проблема бюрократии" - доля регуляторных белков (то есть, грубо говоря, управляющих экспрессией других генов, а не участвующих в "содержательных" химических реакциях) растёт примерно пропорционально длине генома, из-за чего геном просто "не может быть" длиннее какого-то размера; я не понял, относится ли это только к бактериям, или ко всем живым существам вообще (ну и известно ли это в принципе); вообще, не до конца ясно, фундаментальна ли эта зависимость, или она обусловлена третьим фактором, как-то сложностью "образа жизни" данной клетки
  • и геном, и те процессы, которые он кодирует, устроены по вполне понятным "модульным" принципам, это вовсе не хаос; чем сложнее существо и чем разнообразнее условия, в которых оно вынуждено жить, тем четче видны эти модули; причем дело не в том, что это мы можем так представить данные, чтобы в них стали видны функциональные составляющие - это именно свойство самого генома (доказывается путём сравнения с теми самыми "случайными графами")
  • получить, например, конфету дочитавший может на моем рабочем месте завтра с 11 до 21, поскольку традиционного для данного пункта коньяка у меня нет, а сердечник следует изготовить из дерева
  • мало того, граф влияния белков на экспрессию друг друга для генома даже не только бактерий, но и человека, очень хорошо бьется не только на "модули", но на слои-страты, по которым информация проходит "сверху вниз", с очень небольшим числом backlink'ов
  • ещё много чего интересного было - про искусственное превращение обычной мыши в летучую, про полностью искусственные, предрасчитанные, add-on'ы к естественным организмам (не банальная генная инженерия, которой сто лет в обед, а именно полностью, от начала и до конца, сконструированные исправно функционирующие модули), но всего не упомнишь
Не знаю вот только, в чём был смысл этого семинара, кроме наслаждения "особым взлётом свободной мысли, которая возвышает над всеми остальными мирянами". Грубо говоря, кто кому после этого поможет, и в чём? Ну то есть я в своей гордыне надеюсь, что могу теперь одну вещь сделать лучше, еще немножко поняв, что и где подсмотреть в природе - но, во-первых, это так совпало невероятно, что меня давно интересовало кое-что из рассказанного, а во-вторых, несмотря на это невероятное совпадение, даже для меня это не особенно коррелирует с прямой моей работой, а для других, насколько понимаю, и того меньше. Ну ладно, я верю, что коллективный интеллектуальный оргазм - вещь положительная, и никто никогда заранее не скажет, что хорошего вдруг может родиться через неделю или через двадцать лет.

Когда-то я с удивлением узнал, что Катя Панина (они с женой были хорошими подружками) сразу после мехмата стала его ученицей, удивительно быстро что-то сделала для науки, окончательно перевербовалась в биологию, уехала в Штаты, а он её даже с уважением упоминал в политрушной лекции. Я что хочу сказать всем этим - нет, не обманете, в Матрице до сих пор триста человек, вот сегодня ещё одного узнал. Кстати (или некстати), в жизни он выглядит гораздо лучше, чем на официальной фотографии; обычно бывает наоборот.
любопытно

Про вакансии

За восемнадцать лет существования интернет-поисковиков их сложность выросла на несколько порядков. В 1993 году полноценную (на тот момент) поисковую машину можно было создать в одиночку, сейчас в Яндексе работает 3000 человек, в Baidu - более 6000, в Yahoo - почти 15000, в Google - около 25000.

Не могу определенно утверждать, как устроены другие поисковики, но конкретно Яндекс на этапе подготовки базы "читает" весь интернет (и пытается как-то "понять"), затем, уже в процессе ответа, за несколько миллисекунд "перечитывает" солидную его часть, вычисляет для каждой страницы несколько сотен признаков разного рода (т.н. факторов ранжирования), и, уже выдав пользователю ответ на вопрос, еще несколько недель занимается интроспекцией и "медитациями" в попытках глубже осознать, что же это мы ему такое показали, и нельзя ли в следующий раз показать на тот же запрос ответ, который был бы еще лучше.

Счастливый пользователь ничего этого, конечно, не видит. Он, как правило, "мгновенно" получает всё те же десять ссылок с небольшими текстовыми аннотациями, и волен наивно думать, что поисковики в 2011 году работают точно так же, как и в 1995. Само по себе это хорошо: не стоит чинить то, что не сломано. Тем не менее, чем дальше, тем более парадоксальная складывается ситуация: Яндекс знает и понимает больше, чем показывает пользователю. Мы хотим сократить этот разрыв, и научить поисковик не только искать, но и общаться с человеком сложнее и умнее, чем это делается сейчас.

Если у вас светлая голова, вы хорошо знаете С++ (о да), живете в Москве или согласны переехать, и хотите поучаствовать в таких проектах - приходите.

Сейчас я торжественно расскажу, почему это работа мечты. Очень много субъективного, уж простите.

1) (главное для меня, но, может быть, не для всех) Никаких моральных компромиссов. Результаты вашего труда не убивают людей и не способствуют этому. Компания не мошенничает в промышленных масштабах, не обманывает пользователей и не занимается цензурой. Своим трудом вы не подталкиваете человечество к превращению в набор оранусов. Вы имеете все шансы ускорить прогресс, и приносите реальную пользу людям. Топ-менеджеры, равно как и руководители проектов и сервисов - нормальные, умные, наши люди, а не стандартные толстые роботы-вампиры, ЕВПОЧЯ. С ними можно общаться, можно дружить. Нет, правда. Я сам раньше думал, что такого не бывает.

2) Здесь очень много умных людей и очень мало глупых (я уж не знаю, испытываете ли вы от этого такой же кайф, как и я). Даже если судить по формальным признакам - тут несколько докторов наук и несколько десятков кандидатов. Тут как Червоненкис, так и несколько человек, про которых есть именные статьи на луркморе. Еще это первое известное мне место работы, где действительно пригождается математическое образование (ну, положим, не когомологии де Рама, но матстат, дискретная математика всякая, анализ, и даже теория групп таки да, не говоря уже о machine learning'е).

3) Яндекс - идеальное место, если вы не видите перспектив в своей текущей индустрии. Поскольку тут часто приходится заниматься чем-то новым, чем-то, чего раньше вообще никто не делал, понятие "опыта работы" часто плохо определено. "Зажечь" может и новичок.

4) Здесь хорошо платят и есть куча всяких плюшек. По ссылке написано, что "оклад... заведомо не ниже среднерыночных условий в нашей отрасли". Что такое "среднерыночные условия" я, на самом деле, не знаю, поскольку давным-давно не заглядывал на сайты, где про них можно прочитать. По-моему, это само по себе хороший признак. Еще тут не капают на мозги, не стоят с секундомером, нет бюрократии, допускается свободная форма одежды и произвольное время прихода на работу.

5) (не главное для меня, но кому-то, может быть, пригодится) В Яндексе феноменально много умных и красивых девушек, и есть внутренний dating-сервис с фотками!

Если мне удалось правильно запудрить вам мозги, присылайте резюме через эту форму: http://company.yandex.ru/job/vacancies/dev_search_developer.xml

Если вы хотите удостовериться, что будете заниматься именно тем, о чем написано во вступлении, а не чем-нибудь другим (честности ради вынужден написать, что тут, в общем, и много где еще есть интересные задачи), напишите в комментариях что-нибудь вроде "хочу к Плахову".
любопытно

Пластика

(интересно будет, наверное, только тем, у кого есть дети)
На этих выходных мы переоткрыли для себя штуку под названием "пластика". Чем рассказывать, проще показать, что это такое:

Несмотря на внешнюю схожесть, это гораздо интереснее, чем пластилин: после лепки её можно пять минут обжечь в духовке (~130 градусов), и она станет твердой и прочной, похожей на керамику. Волк и Заяц с фотографии - настоящие скульптурки, ими можно играть, не боясь помять, а когда надоедят - куда-нибудь их поставить.

У нас продается в большинстве художественных салонов и в некоторых детских магазинах. Ваять что-нибудь вместе с ребенком очень просто (волк и заяц в общей сложности заняли, может быть, минут двадцать, хотя для нас это был первый опыт) и очень интересно.

Работа, естественно, выполнялась по эскизам polya_risuet. В руках у Волка сигарета (все Волки курят, это не подлежит сомнению).
любопытно

next big thing

Закрадывается подозрение, что "размышлялки" в ЖЖ писать бессмысленно. Нужны или статьи, или lytdybr, или анекдоты (в широком смысле слова). А то вот напишешь, скажем, про десктопный интерфейс. Наивно думаешь, что если кто-нибудь заинтересуется и начнет спорить, то человек этот более-менее как-то что-то понял, и выскажет здравые возражения. Например, что freeform input гораздо лучше подходит для "запросов", а "действиям" нужна предсказуемость. Может быть, скажет слово immutable. Или заметит, что, в отличие от веба, тут сложно накопить критическую массу проиндексированных действий, после которой система начнет срабатывать с необходимой полнотой. Или что необходимой массой, чтобы преодолеть потенциальный барьер, заставив разработчиков десктопного ПО жить по новым правилам, обладает только одна компания, а ей это не нужно. Или даже что-нибудь такое напишет, о чем ты сам не подумал!

Потом почитаешь реальные комментарии - и одно расстройство. Люди всерьез пишут, что freeform input невозможен, потому что вот Скрепка из Офиса всех бесила. А также командной строкой в *nix никто теперь не пользуется, а значит мысль отстой. Обидно как-то спорить на таком уровне, я лучше шоу Бенни Хилла посмотрю.

Нет, не буду сдаваться!
Collapse )
любопытно

Да, кстати

Господа, если вдруг у кого-то (ну мало ли) остались мои композиции (midi, rmi, mp3, неважно), пришлите мне их, пожалуйста. Я, кажется, всё за эти годы растерял. Жалко, и вряд ли у меня уже когда-нибудь будет столько свободного времени, чтобы музыку писать.
любопытно

Дорогой дедушка

У меня всё хорошо. Я даже не буду в туманно-иносказательных выражениях просить у тебя в подзамочной записи новую любовницу.

Отвесь мне в новом году, пожалуйста, того, что у меня и так есть. И побольше!
любопытно

Яндекс.Телепатия или from Russia with love

Запустили систему, над которой я работал последний год. За это время я успел её сначала полюбить, а потом возненавидеть (не переставая любить).

Технология "Спектр"

Здесь могу рассказать некоторые технические подробности, которые в официальный пост не вошли.

Система исследует запросы всех пользователей Яндекса и выделяет в них различные объекты
Тут произошла интересная вещь. Самым мощным источником информации для построения этой онтологии оказываются результаты выделения в массе поисковых запросов типичных "контекстов" и "концептов". Позже я ознакомился с работами A.Clark и некоторых других авторов, и оказалось, что этот сигнал неспроста. Подобный "парсинг" представляет собой некоторое (естественно, пока что крайне примитивное) приближение к тому, как человеческие существа учатся разговаривать на естественных языках. Такие вот 2017-дела.

Естественно! поверх всего этого работает много ручных правил всяких, фикслистов ("бензопила такая-то это не автомобиль" и т.п.), хаков, "чтение" википедии происходит по совершенно другим правилам, производится финальный проход совсем уж прямо алгоритмом Ахо-Корасик по заголовкам и снипетам готовых результатов в поисках спамоглупостей, и т.д. и т.п. Но все равно интересно, что из этого всего может выйти в прекрасном далёком.

поиск Яндекса максимизирует вероятность того, что человек найдет именно то, что искал
Это предложение описывает не столько результат, каким его хотелось бы видеть :), сколько процесс: используется честная вероятностная модель пользователя и его поведения, и выдача составляется таким образом, чтобы максимизировать некоторое матожидание в этой модели. Если обозначить количество url'ов на первой странице выдачи за N, то сложность этой процедуры экспоненциально растет с увеличением N (задача является NP-сложной, кроме шуток). К счастью, N, как правило, равно 10, к тому же простой "жадный" алгоритм для неё работает хорошо.

Эта вероятностная модель схожа с яндексовской метрикой pfound, о которой и Паша Карпович, и Илья Сегалович уже рассказывали в разных местах, и даже называется похоже. Она используется не только в текущем запуске, но и во многих других местах, где приходится иметь дело с тем, что разные пользователи хотят видеть в выдаче разные вещи (например, хоть как-то приближает к пониманию того, как определить, насколько уместны русскоязычные результаты в результатах украинского поиска). Я не могу сказать, что прямо изобрёл её (после некоторого количества размышлений такая модель кажется самоочевидной, так что её не раз переизобретали, а "о чем-то таком" в отделе качества поиска думали, наверное, вообще все), но всё-таки довел её до состояния named entity и популяризовал внутри компании.

И про название. Практически "всю дорогу" технология называлась "Разнообразием" ("Diversity"). Переименовать решили ближе к концу, когда после анонса во внутренней рассылке выяснилось, что "разнообразие" люди склонны понимать слишком буквально, и ожидают увидеть выдачу не сбалансированную по потребностям пользователей, а именно что максимально разнообразную. А "Спектром" при этом внутри называли совсем другую штуку. Ну что, всё как всегда.

Upd. Огромное спасибо прекрасной petsen, которая героически менеджила проект всё это время, проводила со мной ликбез насчёт всяких лингвистических тонкостей, уговаривала меня оставить одни безумные идеи и всерьез рассмотреть другие, ну и вообще подымала боевой дух. И Грише привет! :)