Магия цифр: интервью с уральским дендронумерологом

Многие слышали о новых технических профессиях: дата-сайентистах, дата-инженерах, аналитиках и подобных: они берут кучу цифр, колдуют над ней и достают оттуда скрытый смысл, который меняет жизнь к лучшему. Но мало кто слышал об уральском учёном, который на протяжении почти тридцати лет собирает и обрабатывает данные о деревьях. «Ураловед» решил взять у него интервью. Знакомьтесь: Константин Егорович Добролюбов-Рождественский, кандидат физико-математических наук, доктор биологических наук и ведущий научный сотрудник екатеринбургского Института зоологии растений.

Ураловедовские журналисты. Добрый день, Константин Егорович! Рады, что вы уделили нам немного времени.

Константин Егорович Добролюбов-Рождественский. Приветствую. Приятно вырваться на время из потока данных и пообщаться с людьми. С удовольствием отвечу на ваши вопросы, тем более что я пока не занят: моя прекрасная модель сейчас обучается («модель» в данном случае — это модель машинного обучения. Проще говоря, компьютер считает что-то большое и сложное. — примечание «Ураловеда»).

Ураловедовские журналисты. Кто вы: математик или биолог?

Константин Егорович Добролюбов-Рождественский. Хм. Вообще я учитель литературы. Совершенно серьёзно: было время, когда я ничего не знал ни о биологии, ни о математике, собирался всю жизнь работать в школе. Но вышло по-другому: сначала мне предложили вместо литературы вести математику — да, это довольно непривычно было, но ничего, голова на месте, быстро переключился — потом меня математика увлекла настолько, что я за три года выучил всю вузовскую программу, познакомился с одним интересным человеком из Института информационных проблем РАН…

УЖ. Простите, что перебиваем, но вы сказали об Институте информационных проблем РАН? Том самом, где работал знаменитый Михаил Сергеевич Жуков?

КЕДР. Да, автор легендарного «Корчевателя», вы правы. Я тоже стал работать там. Через несколько лет защитил диссертацию. Это всё математика. Дальше вот что происходило: в институте была небольшая группа биологов, они там всякие математические модели строили про выхухолей и ДНК мамонтов пытались расшифровать… забавные ребята, одним словом, но дело не этом, а в том, что я к их группе присоединился — и вот уже немного биолог. Дальше, как говорится, с кем поведёшься — от того и наберёшься, и я от них набрался биологических знаний. И вот я уже совсем биолог. Так что кто я в итоге, сказать сложно. Я скорее отношу себя к биологам. Но они меня приносят обратно, если можно так выразиться, и говорят: «Нет, Костя, для нас ты математик!»

УЖ. Любопытный профессиональный путь. Получается, что с литературой вы сейчас никак не связаны?

КЕДР. Почему же? Книги по-прежнему печатают на бумаге, бумагу делают из деревьев, а я занимаюсь деревьями — вот вам и готовая связь! Если же серьёзнее… В некотором роде литература сильно повлияла на то, чем конкретно я занимаюсь — деревьями. Описания живой природы из русских классических произведений — это впечатляюще. Ну, и сам взгляд на жизнь, творчество как таковое — на это литература тоже влияет. Наука ведь — тоже своеобразная литература: статьи, монографии пишутся чуть другим языком, но в них есть своя художественность. Придумывать тему исследования — все равно что сочинять сюжет нового романа. Иногда рождаются интересные идеи на стыке строгих научных данных и художественных ассоциаций. Например, у меня одна из первых статей была про морфометрию — про измерения, если проще говорить — Тургеневского дуба.

Тургеневский дуб
Тургеневский дуб. Фото с сайта Tree of the year

Может, вы слышали о нём — известное дерево, памятник живой природы. Недавно говорили, что его сильный ветер сломал, но тогда, тридцать лет назад, дуб был жив-здоров. Так вот, я в своей статье сопоставил результаты некоторых измерений — высота кроны, год посадки, число листьев, обхват ствола, средние выборочные данные о скорости роста — с отдельными характеристиками «Отцов и детей». Весьма любопытные выводы получились: вот вы знали, например, что отношение числа листьев на Тургеневском дубе в 1989 году к числу употреблений союза «и» в «Отцах и детях» — это число «пи» с точностью до пятого знака после запятой?

УЖ. Честно говоря, впервые слышим.

КЕДР. Ну, я тогда тоже был очень удивлён — пришлось даже пересчитать листья несколько раз, но выводы не изменились. Словом, от литературы я, конечно, отошёл, но не ушёл окончательно. Ещё добавлю, что некоторые математические термины довольно поэтичны. Например, в математике есть идеалы.

УЖ. Да, этот термин мы видели в названии вашей публикации «Оценка вершинных идеалов в гармоническом многообразии дендрофлоры Шишимского заповедника». И здесь возникает следующий вопрос: можете рассказать, чем вы занимаетесь? Мы немного разбираемся в науке, но названия и содержание ваших работ ставят в тупик. Например, из статьи про вершинные идеалы мы, как ни старались, поняли только три раздела: «Сведения об авторе», «Благодарности» и «Финансирование».

КЕДР. (После десяти секунд смеха) Надо будет в эти разделы тоже какие-нибудь простейшие математические термины вставить. Но вообще в ваших словах есть доля правды. За деревьями, так сказать, не видно леса, то есть из-за сложных слов и методов люди не могут понять смысл исследования, а проще написать тоже нельзя, потому что тогда коллеги перестанут руку пожимать при встрече. О вершинных идеалах — это довольно сложная статья, я сам её до конца не понимаю теперь, хотя вроде всего три месяца назад опубликовал, поэтому не знаю, как в двух словах объяснить.

Если брать что-то попроще… ну, давайте представим себе такую ситуацию. Есть у нас, скажем, Свердловская область. Мы возьмём карту, набросаем на ней, допустим, 100 точек — можно даже на бумажной карте для начала отметить, хотя обычно это всё в программе на компьютере делается. В каждой такой точке нарисуем квадрат 100 на 100 метров — это пробная площадь так называемая. Потом поедем в каждую из этих выбранных точек — я имею в виду, чисто физически поедем, на машине, на поезде, иногда на лыжах или на упряжках с собаками приходится, если где-то на северо-востоке — и посчитаем на каждой пробной площади количество деревьев и высоту каждого дерева. И вот у нас получается такая табличка с числами: сто строк, в каждой из них — количество деревьев. И ещё одна табличка, уже посложнее: номер дерева — номер площади — высота дерева.

Рукописная таблица с цифрами
Пример таблицы с первичными результатами измерений

Дальше можно к этим табличкам много разных других данных цеплять: температуру, осадки, высоту снежного покрова, тип почв — и строить графики, считать коэффициенты, чтобы ответить на какие-нибудь вопросы. Например: «Как количество и средняя высота деревьев зависят от расстояния до Екатеринбурга?»

УЖ. Так… то есть расстояние мы вычисляем по координатам, тоже записываем его куда-то в таблицу, и потом считаем коэффициент корреляции, который показывает связь между двумя наборами чисел?

КЕДР. Да, именно так. Ну это, конечно, в простейшем варианте. Кстати, вопрос про количество деревьев и расстояние — это реальная гипотеза в одной из моих статей. В итоге получилось, что чем дальше в лес, тем гуще ёлки. Вот так. Но, конечно, этот вывод я сделал не по таблице из 100 строчек — в реальных исследованиях используется намного больше данных. Представляете, какая таблица получится, если вам нужно изучать отдельные листья на берёзах и осинах и таких деревьев — несколько миллионов?

УЖ. Да, звучит впечатляюще. Big Data фактически.

КЕДР. Скажу так: те объёмы данных, которые традиционно относят к Big Data и с которыми работают всем известные крупнейшие компании — Google там или Amazon — это мелочи на фоне того, что приходится делать дендронумерологу. У меня типичный размер таблицы с исходной информацией — это 54 308 428 790 203 478 762 340 052 723 346 983 453 487 023 489 987 231 275 412 390 872 348 475 строк и примерно столько же столбцов. Для сравнения: в экселевской таблице, с которыми люди обычно сталкиваются, ограничение — это чуть больше 16 миллионов строк, если правильно помню.

Константин Егорович для работы обычно использует не очень мощный ноутбук, который подключён к институтскому кластеру высокопроизводительных серверов

УЖ. Ого! Постойте, но как же хранить и обрабатывать такие массивы данных? Это же, грубо говоря, сколько флэшек надо и сколько компьютеров для вычислений.

КЕДР. Ну, все секреты выдавать не буду, но скажу так: у Института зоологии растений довольно большие подвалы, и там много чего интересного помещается. Есть место и для моих серверов.

УЖ. Крайне любопытен вопрос финансирования: компьютерное «железо» недёшево.

КЕДР. Вы правы: оно довольно дорогое. Хотя один металлургический завод тут обещает крупную скидку, но это дело будущего. Поначалу, лет двадцать назад, когда я только начинал работать с такими массивами данных, приходилось, что называется, скрести по сусекам: где-то гранты выигрывал, где-то свои личные деньги тратил, где-то то, что сейчас называют краудфандингом. Но несколько лет назад всё стало намного проще. Потому что, скажу по секрету, компьютеры не заняты вычислениями на 100% и 24/7 — у меня столько задач нет. Поэтому часть ресурсов идёт, конечно, под мои расчёты, ещё часть коллеги используют, ну а всё остальное — это где-то процентов 50–60 мощности в среднем — это всё криптовалюту майнит. Биткойн, эфир — не буду полный список называть, тем более что это не так уж важно. Главное — там на выход получается эквивалент примерно одного биткойна в час, и это… в общем, при переводе в «деревянные» этого вполне хватает и на покрытие текущих расходов, и на финансирование самого института.

УЖ. Это звучит неожиданно. Здорово, что вы нашли такой оригинальный способ помочь своей организации! Известно, что дела с финансированием науки в России обстоят не очень хорошо.

КЕДР. Это вы мягко сказали! Выживайте как хотите, если кратко… Ну, вот и выживаем. Но не будем о грустном.

УЖ. Да, давайте вернёмся к нашим деревьям. Вы описали некоторые исследования, кратко сказали о методах и данных. Вы говорите о себе как о «дендронумерологе». «Дендро» — это дерево, «нумеро» — число, «логос» — знание. То есть «знание о деревьях с помощью чисел».

КЕДР. Да, именно так.

УЖ. Вместе с вами в институте работает несколько специалистов с похожим профилем — «дендрохронологи». Насколько мы поняли, их исследования пересекаются с вашими: тоже деревья, тоже много чисел и анализа. В чём разница?

КЕДР. В научном плане дендрохронология и дендронумерология — это разные дисциплины. Пересечения есть, и вы правы, что мы вместе занимаемся деревьями. Впрочем, лесоводы тоже занимаются деревьями. Я бы сказал, что численных методов и математики у меня больше, чем у всех остальных, и некоторые задачи весьма абстрактны. Возможно, те, кто считает меня математиком, всё же отчасти правы. В то же время дендрохронологи — это мои замечательные коллеги, мы с ними часто и много сотрудничаем — хотя бы в плане компьютерных ресурсов и совместных экспедиций. Выбраться в лес — это тоже, знаете, непросто, и в одиночку пересчитать все иголки на каждой ёлке — с такой задачей даже я не справлюсь.

УЖ. Пересчитать все иголки? Вручную?

КЕДР. Ну, это такая байка. Когда-то, когда деревья были выше, а трава зеленее — да, приходилось вручную, но я эти времена не застал. Сейчас всё намного проще: лидарная съёмка помогает. То есть берёшь прибор, ставишь его под дерево, он лазером всё обсвечивает вокруг, строит трёхмерную модель, а уж по ней хоть иголки считай, хоть ветки.

Изображение леса в псевдоцветах — результат лидарной съёмки
Примерно так выглядит результат лидарной съёмки

УЖ. А какие-то ещё коллеги, кроме дендрохронологов, с вами сотрудничают?

КЕДР. Да, довольно много таких — опять же, больше в плане математики. Например, известный криптозоолог Владимир Леонидович Буханкин — я ему помогал рассчитать оптимальное теоретическое число особей в гнезде зиккарагурантуса, паук такой есть. То есть да, я не только по деревьям работаю, но и по животным иногда. Но деревья — основное.

УЖ. Хорошо знаем Владимира Леонидовича: несколько лет назад брали у него интервью.

КЕДР. Ну вот видите!

УЖ. Смотрите, такой момент: мы говорим о теоретических числах, идеалах, вершинных многообразиях, таблицах на какое-то ужасное число строк — а какое у этого есть практическое применение?

КЕДР. Ну… тут я отвечу двояко. Мне сам по себе вопрос «зачем» не очень нравится, потому что драйвер науки — это банальное любопытство. То есть человек — или не совсем человек, а полуобезьяна — который когда-то, грубо говоря, огонь открыл, вряд ли сидел и думал: «Зачем?» Скорее всего, ему просто было интересно, что это там такое полыхает, а потом уже другие додумались, как это использовать. С наукой та же история. Есть фундаментальная наука, а есть прикладная. Фундаментальная — это то, чем я в основном занимаюсь, и для неё ответ на вопрос: «Зачем?» — такой: «На всякий случай». То есть я и другие учёные что-то исследуют, и сейчас это никому не нужно, и может быть, вообще никогда не пригодится. Но не исключено, что в какой-то момент что-нибудь эдакое произойдёт — нашествие инопланетян, зомби-апокалипсис — и окажется, что у нас уже есть готовый ответ. А может быть, никакого апокалипсиса не будет, а просто кто-то через пятьдесят лет прочитает мою статью, но у него будут мозги заточены на бизнес, и он придумает, как мои идеи выгодно продать. С нейросетками, допустим, примерно так и получилось: кто-то пятьдесят лет назад их придумал, на него поглядели как на странного чудака и забыли обо всём этом, а сейчас нейросети везде: в интернете, в торговле, в нефтянке, в металлургии, в финансах, в моей дендронумерологии, в конце концов.

Сколько веток на этом дереве? Константин Егорович может на глазок посчитать за несколько секунд

УЖ. То есть сами вы свои идеи продать не пытаетесь?

КЕДР. Если не считать биткойна, но это побочный эффект… Вообще меня довольно часто приглашают в качестве консультанта на разные проекты по благоустройству. Например, рассчитать оптимальную геометрию тропинок, или топологию парка, или количество растений, которые нужно посадить. Ещё астрологи часто обращаются ко мне: у них есть кельтский календарь деревьев так называемый, и они всё хотят, чтобы я туда алгоритм «случайный лес» как-нибудь прикрутил, но я каждый раз отказываюсь. Так что в целом да, какая-то коммерциализация есть. Но интереснее мне всего фундаментальная наука.

УЖ. Можете какой-то пример простой? Совет, который вы часто даёте?

КЕДР. Есть у меня одна любимая рекомендация. Скажем, есть у вас небольшой дом — такой, типичный, маленький, который на шести сотках можно построить. Не дворец, а просто дом, одним словом, и вы решили вокруг него озеленить территорию. Так вот, я всегда говорю, что высаживать перед окнами 13 ёлок не следует.

УЖ. Почему? Это как-то связано с числом 13?

КЕДР. Да нет, глупости всё это. Всё проще: ёлка — это большое дерево, которое очень так неслабо затеняет территорию, и посадить 13 ёлок перед небольшим домом — значит через какое-то время света белого не видеть.

УЖ. Оказалось, что нет здесь никакой мистики, одним словом. Тогда, наверное, в завершение интервью ещё один вопрос: почему вы переехали в Екатеринбург? Институт информационных проблем РАН, в котором вы провели много лет, находится в Москве.

КЕДР. С одной стороны, я отсюда родом, так что это для меня это возвращение к истокам. С другой стороны, мне не хотелось, чтобы вся продвинутая наука оставалась только в Москве — нужно и регионам что-то дать, как говорится, и почему бы этим «чем-то» или, точнее, «кем-то» не стал серьёзный учёный. Ещё одна причина банальна: я здесь грант получил на те самые компьютеры, когда у меня в начале нулевых была острая потребность в них. Деревьев тут, кстати, тоже больше, чем в Москве и окрестностях. Природа красивая. Много интересных людей: например, мой хороший друг Фёдор Бугульминов-Гонобобельский. Почему смеётесь?

УЖ. Мы тоже брали у него интервью. Любопытно получилось: вы упомянули и Владимира Леонидовича, и Фёдора Емельяновича — и мы обоих лично знаем.

КЕДР. Научный мир тесен.

УЖ. Это точно. И сегодня у нас в этом мире появился ещё один замечательный знакомый — дендронумеролог. Большое спасибо за интервью!

КЕДР. Рад был побеседовать! О! а вот моя модель и обучилась.

Поддержать «Ураловед»

Гостиницы Екатеринбурга

Рекомендации