Исследователи из Гарвардского университета и компания Google реализуют необычный научный проект, задача которого заключается в «изучении культуры в количественном выражении». Используя библиотеку из миллионов отсканированных компанией Google книг, авторы проекта пытаются отследить особенности использования языка и различных общественно-важных тенденций на протяжении сотен лет.
В библиотеке отсканированных книг Google присутствуют книги с 1500 до 2008 года издательства. Всего здесь значится около 5 миллионов книг или 4% от общего количества изданных книг в мире.
Основная масса отсканированных книг написана на английском, китайском, немецком, французском, испанском и русском языках. Согласно данным компании, в сумме во всех отсканированных книгах содержится более 500 млрд слов.
В Google отмечают, что новый сервис, получивший название Books Ngram Viewer позволяет представить в новой форме количественные показатели по различным областям академических знаний, отследить исторические тренды, новые идеи и др. за счет отслеживания популярности тех или иных ключевых слов или фраз в текстах книг. В Google называют подобную метрику уникальной.
Авторы проекта провели несколько простых анализов, определяющих частоту конкретных слов в общем объеме книжных слов, напечатанных в книгах за тот или иной год. Данные исследований показывают, что в 1900 году напечатаны были около 1,4 миллиарда слов, а вот столетие спустя этот показатель составил уже 8 миллиардов слов. Из этого объема слов исследователи составили так называемые н-граммы или короткие фразы из пяти слов.
Исследователи говорят, что это довольно простая задача, но она достаточна, чтобы обнаружить некоторые основные литературные тенденции. Например в США во время гражданской войны (1861—1865гг) отмечен всплеск слова «рабство» и словоформ, связанных с ним. В книгах чуть более позднего периода довольно часто упоминается словосочетание «движение за гражданские права».
Еще одним интересным моментом исследования стало выявление новых слов и выражений, называемых неологизмами. Всего с 1950 по 2000 годы в восьми исследуемых языках исследователи насчитали около миллиарда разных слов, причем каждый год появлялось примерно по 8500 новых слов. При этом отмечается, что в словарях неологизмов содержится в лучшем случае треть новых слов. Есть в книгах и отмирающие слова, которые уже непривычны слуху современных жителей, но были нормой еще для предыдущего поколения.
Исследователи использовали данные сетевых энциклопедий Википедия и Британика для отслеживания «траекторий знаменитостей». На основании проведенного анализа авторы проекта говорят, что в сравнении с 1800-м годом наши знаменитости помолодели, в то же время период их «звездности» сократился примерно вдвое. Актеры становятся довольно известными уже к 30 годам, против 50 лет ранее. В то же время, политики и авторы книг становятся сейчас известными старше, чем ранее. Снизился интерес и к таким людям, как ученые из области физики, химии, биологии и математики. «К сожалению, приходится утверждать, что наука это плохой путь к славе», — говорят авторы исследования.
Подразделение Google Labs создало веб-интерфейс, чтобы все желающие могли проследить интересующие их тенденции. Он доступен по адресу http://ngrams.googlelabs.com
В компании говорят, что некоторые запросы дают логичные, но неожиданные результаты. Например, из-за множественного значения слова «панк» оно стало более популярным, чем «рок-н-ролл», хотя первое является поджанром последнего.