Погадайте мне на big data: как из больших данных проступают линии человеческих судеб

13.02.2024
335

 Уста истины-античная мраморная плита, изображающая, вероятно, лицо древнегреческого титана Океана. В средние века Уста истины стали культурным символом: согласно поверью, они обладали способностью сообщать сокрытую правду. Неудивительно, что по их образу в 80-е годы сделали механического предсказателя будущего: исторически оправданно, недорого, быстро, хотя и неточно. Единственная информация, которую такие аппараты получали от любопытствующих, — монетка в качестве оплаты. В новом исследовании специалисты в области big data добились существенно большей точности предсказания судьбы, используя подробные биографические данные датчан и интересный способ их анализа.

Елена НАЙМАРК

Датские ученые собрали подробные биографические сведения обо всех жителях Дании из государственных баз данных за период с 1 января 2008 года по 31 декабря 2015 года. Год рождения, здоровье, образование, зарплата, местожительство и т. д. — все было включено в анализ человеческих судеб. Авторы разработали новый способ анализа данных, похожий на системы семантического анализа языковых текстов. Их модель сумела вычленить смысловые кластеры и на их основе предсказать вероятность ранней смерти в когорте людей возрастом 35–65 лет. Уровень точности составил 40% — очень достойный показатель для попытки что-либо предсказать. Точность оказалась выше, чем у испытанных ранее моделей на базе различных нейросетей, и моделей, основанных на других принципах. Также новый анализатор неплохо справился с задачей определения личностных характеристик людей на основе всё тех же биографических данных.

В журнале Nature Computational Science опубликована статья о человеческих судьбах. В ней говорится о том, как использовать биографии для предсказания будущего отдельного человека и описать его личностные качества. Считается, что это удел гадалок, которые умеют мистическим взглядом пробить тонкую вуаль настоящего и увидеть будущее человека и самоё его суть. Но теперь на этом поприще решили себя попробовать ученые. Авторы новой методики предсказаний работали под руководством Суне Лемана (Sune Lehmann) из Копенгагенского университета и представляли различные научные учреждения Дании, а также США. В объединенную базу данных вошло всё население Дании, около 6 млн человек. Иначе говоря, ученые гадали всей стране.

В этой работе особенно интересны три аспекта. Первый — сами данные. Это собранная вместе информация о каждом датчанине: когда и где родился, где учился, где работал и когда менял работу, где жил, переезжал ли, когда и куда, сколько получал денег и за что, как их тратил, когда и зачем обращался к врачу. Хорошо, конечно, что все эти данные идут на интересную науку и, следовательно, на благо общества, но всё же от таких масштабов немножечко не по себе.

Второе, что обращает на себя внимание, — методика работы с этими данными. Сами авторы считают именно этот аспект работы наиболее значимым. В отличие от других методов анализа больших многомерных массивов здесь применены технологии анализа, разработанные специально для данных со встроенной «памятью» — тех, в которых имеются скрытые причинно-следственные связи. Собственно, жизнь человека — это набор миллиона случайных и закономерных событий, среди которых бессмысленно искать первопричину или пусковой механизм. Но с такими данными ученые уже умеют работать — это, в частности, методы распознавания смыслов в языковых текстах. Одну из таких лингвистических систем и адаптировали под свои задачи исследователи человеческих судеб. Они анализировали цепочку жизненных событий как длинную фразу. В этой фразе каждое слово-событие может быть связано по смыслу с другим словом-событием, но может быть и не связано. Программа, которую создали авторы работы (они назвали ее Life2vec, по аналогии с Word2vec), настроена на поиск этих встроенных смысловых связей. Возможно, этот общий подход для анализа систем со встроенной «памятью» может привнести новое видение и для прогнозирования других сложных систем со своей историей, например судьбы видов крупного таксона или биома.

И, наконец, третий важный аспект — это сами результаты. Разработанная программа, которая учитывает различные события прошлой жизни, может неплохо предсказать, например, раннюю смерть, а также описать личность человека. Так что получается, что личность человека увязывается с его судьбой: может быть, личность формирует судьбу, а может, и, наоборот, человек — продукт своей судьбы.

Делая прогнозы на основе своей модели, ученые отмечают, что она срабатывает лучше, чем другие прогностические системы. В целом, такой показатель, как ранняя смерть (35–65 лет) легко проконтролировать. В данном случае интервал с 2008-го по 2015 год служил как основной массив данных, а для интервала 2016–2020 гг. ученые рассчитали вероятность наступления смерти в возрастной когорте 35–65 лет. Нужно подчеркнуть, что для этой возрастной когорты прогнозы о смерти делать трудно. Однако модель life2vec предсказывает ее с вероятностью 40–42%, что на 10% превышает предсказательную точность предыдущих рекордсменов в данной области — различные варианты нейросетей.

В середине — вероятность ранней смерти датчан, полученная двумерной проекцией из 280-мерного пространства различных параметров. Желтый цвет — низкая вероятность, темно-зеленый — высокая вероятность; точки серого цвета — вероятность не определяется из-за отсутствия данных, красные точки — реальные ранние смерти. На выносках: слева — точки из области с низкой вероятности смерти (Region 1), справа — из области с высокой вероятностью смерти (Region 2). Эти данные показывают, что пол и возраст не полностью определяют вероятность ранней смерти: и справа, и слева имеются точки для всего спектра возрастов и обоих полов. Также красные точки на выносках справа и слева иллюстрируют правдоподобие предсказаний: справа реальных смертей заметно больше, чем слева. Рисунок из обсуждаемой статьи

Модель позволяет поисследовать факторы, влияющие на вероятность ранней смерти. Убирая тот или иной показатель, можно увидеть, насколько изменится прогностическая сила модели. С помощью подобного перебора ученые выяснили, что высокий доход или работа менеджером снижает риск ранней смерти, а работа машинным оператором (что бы это ни значило) или квалифицированным рабочим, а также инфекционные и душевные болезни увеличивают этот риск. Конечно, пока этот вывод не слишком оригинален — лучше быть богатым управляющим, чем больным рабочим, — но всё же предсказатель life2vec еще только учится.

Уровень согласованности оценок личных качеств людей

Уровень согласованности (от −1 до 1) оценок личных качеств людей (слева направо: самооценка, общительность, общительность, активность) по личностным анкетам (фиолетовые столбики) и по данным модели life2vec (зеленые столбики). Рисунок из обсуждаемой статьи

На рисунке выше показано, как модель life2vec на основе всё тех же биографических записей может определить некоторые черты личности, связанные с экстраверностью-интравертностью: самооценку, общительность, готовность к коммуникации (социальная смелость), активность. Проверкой модельных оценок служили стандартные опросники, дающие оценку различным индивидуальным качествам (здесь — показателям экстраверсии). Модель неплохо справилась с определением этой черты, по крайней мере лучше, чем натренированные нейросети. Только общительность модель life2vec определила хуже нейросети.

Итак, в распоряжении ученых имеется система, которая умеет осмысленно анализировать повседневные события в жизни человека — обычную канву, без блесток успехов или прорех несчастий. Эта система, по-видимому, научилась учитывать какие-то запрятанные в клубке событий значимые узелки жизни. Мы, естественно, имеем дело с вероятностями, не слишком большими, но всё же далекими от случайностей. Эта статья научная, но в ней есть над чем поразмышлять, если вдруг потянет на философию.

Источник: Germans Savcisens, Tina Eliassi-Rad, Lars Kai Hansen, Laust Hvas Mortensen, Lau Lilleholt, Anna Rogers, Ingo Zettler, Sune Lehmann. Using sequences of life-events to predict human lives // Nature Computational Science. 2023. DOI: 10.1038/s43588-023-00573-5.

ИСТОЧНИК: Элементы https://elementy.ru/novosti_nauki/434173/Pogadayte_mne_na_big_data_kak_iz_bolshikh_dannykh_prostupayut_linii_chelovecheskikh_sudeb

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *