Как изобретательные библиотекари 1970-х заложили основу поисковых систем будущего

23.10.2023
631

Всю осень 1970 года, которая выдалась необычайно солнечной, сотни студентов и преподавателей Сиракузского университета поочерёдно усаживались перед печатным компьютерным терминалом (устройство, похожее на электронную печатную машинку), соединённым с мейнфреймом IBM 360, расположенным на другом конце студенческого городка в штате Нью-Йорк. Почти никто из них компьютером до этого не пользовался, не говоря уже о компьютерных системах поиска информации. Когда они касались клавиатуры, у них тряслись руки, и некоторые из них впоследствии сообщили, что они боялись, что пока они печатают ― выведут всю систему из строя.

Участники впервые осуществляли поиск онлайн, аккуратно подбирая слова, чтобы найти соответствующие аннотации по психологии в свежей базе данных. В каждой строке они вводили только один ключевой термин или инструкцию, допустим, «Мотивация» в строке 1, «Оценка» в строке 2, а в строке 3 — «L1 и L2», если требовалось найти статьи, где содержатся оба термина. После выполнения запроса терминал выдавал распечатку, где указывалось количество документов, соответствующих тому или иному запросу, после чего пользователи могли сузить или расширить поиск, прежде чем будет сгенерирован список выдержек из статей. Увидев ответ от компьютера, расположенного так далеко, многие пользователи начинали смеяться.

Вычислительная система типа мейнфрейм IBM 360 с печатным терминалом. Изображение: IBM.

После эксперимента участников попросили двумя―тремя словами описать свои ощущения. Общее количество полученных в ответ слов составляло 78, из которых 21 было одним и тем же прилагательным: «обескураживающий».

Участники испытывали трудности со входом в систему и сталкивались с непредсказуемыми неудачами, «неадекватными результатами» и не знали, «какими словами пользоваться для поиска». И всё же система заинтриговала и взволновала их («забавно», «основательно», «компьютеры классные»), и 94 процента участников сказали, что, если будет такая возможность, они снова воспользуются SUPRAS (the Syracuse University Psychological Abstracts Retrieval Service — системой поиска аннотаций по психологии Сиракузского университета). Некоторые из них предложили продлить эксперимент, предлагая своим факультетам участвовать в финансировании проекта.

Эта группа подопытных учёных, в основном студентов магистратуры по специальностям «педагогика», «психология» и «библиотековедение», была частью проводимого школой библиотековедения Сиракузского университета радикального эксперимента по онлайн-поиску.

SUPRAS была одной из многочисленных амбициозных исследований по информационному поиску, которые проводились в студенческих городках США с конца 1960-х до середины 1970-х К этому всплеску исследований привёл ряд факторов. Благодаря достижениям в области вычислительных мощностей и хранения информации стало возможным оцифровать вузовские базы данных и перевести их в режим онлайн. Новые компьютерные терминалы имели модульную архитектуру, их можно было располагать в разных частях студгородков для децентрализованного доступа к мейнфреймам. Кроме того, финансирование исследований с помощью компьютеров со стороны военных и промышленников было как никогда ранее щедрым. Получив такую возможность, вузовские библиотекари воспользовались шансом исследовать новую дорогостоящую технологию. В свою очередь, университеты предоставили незасекреченные эксплуатационные условия для сотрудничества с фирмами, занимающимися корпоративными технологиями и группами военных; SUPRAS была проспонсирована RADC (Rome Air Development Center — научно-исследовательский центр ВВС США).

Легко понять, почему библиотекари 70-х решили совершить революцию в поиске. Наука развивалась такими темпами, что было ясно, что уже в ближайшее время штата живых библиотекарей не хватит для обработки её запросов. Чтобы получить необходимую информацию, исследователям требовалось участвовать в трудоёмком процессе, где требовалось участие библиотекаря. Исследователи могли следить за свежими публикациями по своей теме; но для специфического поиска того, что было опубликовано ранее, им требовалось консультироваться с библиотекарем-консультантом, чтобы найти соответствующие заголовки из многотомного справочника в библиотеке Конгресса. Вооружившись набором предметных заголовков, исследователь затем мог искать книги по библиотечному каталогу. Журнальные статьи находились по индексам цитирования, включая подписные базы данных (такие как Индекс научных ссылок). В поиске помогали и составленные по заданному профилю вручную университетскими библиотекарями библиографии. Для самых отчаянных была возможность найти что-то полезное непосредственно на библиотечных полках.

Неудивительно, что участники эксперимента SUPRAS признали привлекательность системы, несмотря на её ограничения. Учитывая, насколько университетские библиотекари были осведомлены о трудностях поиска, разумно предположить, что разработанная ими система пошла дальше, чем предметные заголовки и индексы цитирования. Ещё более удивительно то, что из всех экспериментов по поиску онлайн, которые проводились в этот период, включая нацеленные на коммерческое использование поисковые системы типа Dialog корпорации Lockheed, которая впоследствии стала её фирменным продуктом, SUPRAS намного больше остальных аналогов напоминала современную всемирную сеть, предвосхищая некоторые первичные черты протоколов сетевого поиска, на которые мы полагаемся более чем полвека спустя.

SUPRAS и другие (по большому счёту забытые) системы были предтечей современных поисковых машин, которыми мы пользуемся сегодня. В то время как популярная история интернета воспевает кодеров Силиконовой долины, или иногда бывшего вице-президента США Эла Гора, многие оригинальные концепции поиска появились благодаря учёным-библиотековедам, которые сосредотачивались на доступности документов в пространстве и времени. То, чего они достигли, работая при финансовой поддержке военных и промышленников, можно увидеть во многих чертах сегодняшнего информационного онлайн-ландшафта — от общего подхода к получению и индексированию полнотекстовых документов до поиска определяемого пользователем текста и сложного механизма с использованием сохранённых результатов поиска других пользователей — краеугольного камня современных функций расширенного запроса и автозаполнения. Действительно, эти и многие другие подходы, разработанные первопроходцами из студгородков, по сей день используются многомиллиардными компаниями, занимающимися веб-поиском, и коммерческими библиотечными базами данных — от Google до WorldCat.

Полин Атертон Кокрейн (в центре) с коллегами работают над созданием SUPRAS в библиотеке Сиракузского университета. Фото: Syracuse Libraries Special Collections.

SUPARS была разработана библиотекарем по имени Полин Атертон (сегодня она известна под именем Полин Атертон Кокрейн). В 1960-м году, в начале своей карьеры библиотекаря, она была редактором перекрёстных ссылок вышедшего в том году пересмотренного издания Всемирной Энциклопедии (World Book Encyclopedia), где она должна была обеспечить точность и доскональность перекрёстных ссылок между различными статьями. К 1966-му году она работала в библиотеках Сиракузского университета и в школе библиотековедения, где в 1968-м году она впервые продемонстрировала использование онлайнового файла десятичной классификации для облегчения поиска (AUDACIOUS). В том же году она основала первую компьютерную обучающую лабораторию, где онлайн-поиск был интегрирован в стандартный процесс классного преподавания в школе библиотековедения (LEEP).

В контексте доинтернетного мира слово «онлайн» означало установление сетевого соединения в режиме реального времени между компьютером типа мейнфрейм и каким-либо удалённым устройством, например, терминалом.

В следующем, 1969-м году, Атертон со своим коллегой Джеффри Катцером спроектировала SUPRAS. Катцер был профессором библиотековедения в Сиракузском университете. Главной целью проекта SUPRAS было обеспечение широкомасштабного онлайн-поиска, чтобы как можно больше узнать о том, каким образом пользователи производили поиск онлайн, что они при этом чувствовали, и что им было необходимо для того, чтобы поиск стал лучше. С этой целью командой был сформирован корпус научного информационного материала, поиск по которому мог производиться всем студгородком; более 35000 недавних статей из ежемесячника «Психологические аннотации», выпускавшегося Американской психологической ассоциацией. Этот корпус использовался для индексирования и поиска в системе SUPRAS, став первой базой данных значимых размеров, доступной онлайн в незасекреченной среде. И хотя очевидно, что они были ничтожными по сравнению с масштабами современного интернет-поиска, для своего времени как размер пользовательской группы, так и объём доступного для поиска контента были огромны.

Действительно новаторским SUPRAS стал благодаря двум решениям, принятым Атертон и её командой. Во-первых, они отсекли все предметные заголовки от статей «Психологических аннотаций» и сделали все слова доступными для поиска, исключив соединительные слова вроде «and» и артикли «a» и «the». Благодаря этому SUPRAS стала первой системой, где объёмный произвольный текст стал доступным в режиме онлайн как для поиска, так и для отображения. (Они назвали свой финальный отчёт «Оценка поиска произвольного текста»). Во-вторых, они сохраняли каждый поиск в SUPRAS в параллельной базе данных, запросы в которой можно было осуществлять одновременно с самими аннотациями, благодаря чему SUPRAS стала первым экспериментом, позволявшим пользователям получить доступ к предыдущим результатам поиска, чтобы обнаружить альтернативные термины или подходы.

SUPRAS послужил прообразом веб-поиска, позволив пользователям искать произвольный текст внутри самих документов.

Обе эти функции были бы новаторскими сами по себе, но для того, чтобы в контексте представить себе, насколько эта комбинация шла впереди своего времени, стоит рассмотреть, каким образом действуют сегодняшние сервисы интернет-поиска. GoogleBing и другие поисковые машины индексируют веб-страницы, используя два основных компонента: поисковые боты ищут новые страницы и регулярно посещают уже найденные страницы; парсеры анализируют содержимое страниц, сохраняя полученную информацию, включая произвольный текст, во внутренней базе данных. Когда пользователь вводит поисковый запрос, Google пытается сравнить слова и фразы, использованные в запросе, со страницами в своей базе данных и выдать пользователю наиболее подходящие результаты.

Вдобавок к словам, которые вводят сами пользователи, современные алгоритмы веб-поиска также учитывают другие термины, тесно связанные с содержимым поискового запроса, включая синонимы (допустим, при запросе «bike» выдавая результаты для «bicycle» и «cycle») и другие родственные слова.

Большинство поисковых машин также включат слова, входившие в состав подобных запросов, выполненных другими пользователями, которые становятся частью внутренних тезаурусов, используемых для добавления терминов к запросу пользователя. Этот процесс включения родственных слов, известный как расширение запроса, существенно улучшает релевантность полученных результатов. Подобным образом, Google и другие поисковые машины также предлагают пользователям дополнительные поисковые термины путём автозаполнения, выдавая предположения на основании предыдущего поиска, чтобы помочь пользователям быстро выполнить запрос.

Таким образом, SUPRAS предвосхитила веб-поиск, дав пользователям возможность напрямую искать произвольный текст в самих документах, и позволив им осуществлять поиск «на чужом горбу», за счёт поисковых стратегий, использованных теми, кто искал до них. Одновременно SUPRAS определяла применимость этих индивидуальных поисков через анализ журнала транзакций. После первого пилотного проекта были проведены две сессии тестирования SUPRAS: между октябрём и декабрём 1970-го (SUPRAS I) и с ноября по декабрь 1971-го (SUPRAS II). Команда Атертон пришла к выводу, что поиск произвольного текста является эффективным способом повышения релевантности (на жаргоне учёных — «отклика») результатов поиска — и что он может быть таким же эффективным, как поиск, выполненный научным библиотекарем — человеком. Более того, постоянно эволюционирующий лексикон системы, постоянно адаптируемой к вводимой человеком информации и его поведению ― стало качественным шагом вперёд по сравнению с фиксированным, «одноразовым» контролируемым лексиконом ранее существовавших поисковых систем. Команде SUPRAS было невдомёк, что спустя несколько десятилетий эту работу будут выполнять алгоритмы веб-поиска на базе искусственного интеллекта, но очевидно, что они понимали, что это станет новым и эффективным способом постоянно совершенствовать результаты поиска.

В письме редактору «Журнала Американского общества информационных наук» от 1972 года Катцер описал обоснование предоставления базы данных по всем предыдущим поисковым запросам: «Цель этой поисковой базы данных — помочь пользователю, когда он пытается сформулировать запросы в базу данных документов («Психологических аннотаций»). Поскольку на данный момент в SUPRAS используется неограниченный лексикон, информация на выходе базы данных может помочь пользователю найти новые способы работы с его темой в документальной базе данных: она предложит ему ключевые слова, использованные другими экспертами по этой теме, в том числе обеспечит представление о его мыслительном процессах… [Мы] полагаем, что этим положено начало в сфере, которая до сих пор недостаточно исследована — использование интеллекта пользователя с целью преумножения всех усилий, вложенных в машинный интеллект.

Есть соблазн представить команду Атертон как футуристов-утопистов, но в ходе реализации SUPRAS никто не задумывался о будущей глобальной и общедоступной сети. Проект был создан только для того, чтобы сократить потребность в библиотекарях. Использование коллективного интеллекта людей было не идеалистическим, а практическим решением.

Команда Атертон заметила, что, поскольку месторасположение новых компьютерных терминалов в Сиракузском университете было «удалённым относительно библиотекарей-консультантов или любых иных специалистов в сфере интересов пользователя», им потребуется дополнительный источник помощи, который можно найти в «человеческом интеллекте всех остальных пользователей системы». Совокупные решения остальных исследователей были единственной заменой библиотекарю-эксперту, писали они.

В идеале пользователь сможет поговорить с кем-то, кто сведущ в его сфере интересов, и получить набор ключевых слов или иных указаний. После этого пользователь сможет создать или сформулировать поисковый запрос к системе, обладающей специфичностью и полнотой, необходимыми для обеспечения максимального результата.

Работая с модульным терминалом в студгородке, команда SUPRAS видела, каким станет будущее и что потеряет мир, основанный на распределённых сетевых вычислениях: растущее количество исследователей, всё чаще работающее за пределами библиотек, самостоятельно. Они будут нуждаться в поддержке, которую библиотекари не в состоянии будут оказать. Команда Атертон не предсказывала будущего, где квалифицированные библиотекари станут не нужны; они готовились к будущему, где исследования будут проводиться во многих разрозненных точках, слишком далёких от справочного стола, за которым им могли бы помочь.

Люди, считающиеся провидцами, мечтали о мире, в котором технология улучшит общение между людьми.

Экспериментаторы из SUPRAS также пришли к заключению, что в то время как использование поисковых запросов других пользователей было многообещающей альтернативой предметно-ориентированному поиску, не у него были конкретные ограничения. Одной из окончательных рекомендаций SUPRAS было продолжать разработку контролируемого лексикона, обосновывая это тем, что «всё ещё существует необходимость в интерактивном поиске произвольного текста некой формы контроля пользовательского лексикона и синонимов». Они пришли к этому выводу после того, как часто участники SUPRAS натыкаются на различные проблемы с поисковым лексиконом, как, например, в одном из приводимых ими примеров, пользователи искали «народ» вместо «люди» и не получали результатов (в оригинале: «people» вместо «humans» — прим. перев.). Сами участники не имели представления о полноте предметных заголовков. На самом деле, в ходе опроса по результатам эксперимента SUPRAS им был задан вопрос: предпочитают ли они систему с произвольным текстом или же ту, где лексикон контролируется: 42% предпочли систему с произвольным текстом, 36% предпочли контролируемый лексикон, а 12% хотели бы всё сразу.

В этом смысле SUPRAS показателен и как проект, намного опередивший своё время, и как пример, противоречащий техно-утопическим историям интернета и всемирной сети. Люди, считающиеся провидцами в данной истории, почти всегда мечтали о мире, где технология абсолютным образом улучшит общение между людьми, степень их интеллекта и их эффективность.

Например, одна из наиболее прославленных фигур в этой истории — Джозеф Карл Робнетт «Лик» Ликлайдер, чья идея об универсальной сети напрямую вдохновила к изобретению ARPANET, который часто называют «первым интернетом». (Ликлайдер также был тесно связан с подобными экспериментами по онлайн-поиску на базе студгородков в 1960-х и 1970-х; он как финансировал, так и был советником в нескольких исследованиях в Массачусетском технологическом институте, которые проводились в тот же период, что и SUPRAS).

В 1968 году, за год до разработки SUPRAS, в работе Ликлайдера «Компьютер как устройство для коммуникации» провозглашалось, что «Через несколько лет люди смогут общаться с помощью машин эффективнее, чем лицом к лицу», а также описывалось благостное, счастливое общество, где взаимодействие между людьми будет осуществляться с помощью компьютеров. Ликлайдер предсказывал, что «жизнь онлайн-индивидуумов будет счастливее» и что «общение будет эффективнее и продуктивнее, а следовательно — приятнее». Одновременно пророческое и радужное эссе Ликлайдера является типичным для этого футуристического жанра — фантазий о потенциале информационных технологий.

В нашей культуре люди типа Ликлайдера воспеты за то, что они были провидцами в позитивном ключе. Но, подобным образом, Атертон и команду исследователей SUPRAS можно чествовать за то, что они предвидели, что в будущем будет утрачено, и учли это в своём проекте. Расширив нашу группу официальных пророков интернета за счёт таких людей как Атертон, мы увидим более сложный портрет грядущего, составленный исследователями различного толка. Там, где Ликлайдер увидел преимущества возможности общения онлайн с любым жителем планеты, группа Атертон заметила, что мы потеряем экспертов-посредников, и учла эти издержки в своём проекте.

В 2022-м и 2023-м годах, когда широкому кругу пользователей представлены первые поисковые системы на основе генеративного искусственного интеллекта (Elicit и Consensus), полезно было бы проанализировать, что будет утрачено, когда исследователи станут полагаться на эти инструменты. Когда мы сможем путём простого ввода вопросов для исследования мгновенно получать результат — например, обзор литературы — это станет не просто огромным скачком вперёд. Эта новая технология создаст недостаток в обосновании и в контексте, даже когда будут совершаться невероятные открытия — утрата иного рода по сравнению с той, что предвидела Атертон, но настолько же неосязаемая и имеющая серьёзнейшие последствия. Способность предсказать такие последствия заранее, не оплакивая их подобно луддитам, но активным образом думая о том, как помочь исследователям справиться с ними — вот урок, который дала нам история SUPRAS.

Автор: Моника Уэстин (Monica Westin), библиотекарь с опытом работы в академических и научных изданиях. Она работает с политикой авторского права в Google и читает лекции по программе магистратуры информационных наук в Лондонском городском университете.

Перевод: Андрей Прокипчук

ИСТОЧНИК: XII век https://22century.ru/popular-science-publications/poiskovie-sistemi-budushego

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *