В материалах проекта «Гардарика» поисковикам рекомендуется составлять тезаурусы в зависимости от конкретных интересов и пополнять их постоянно, по мере выявления новых терминов в ходе работы. Более адекватной представляется структура тезауруса в виде семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике). Это весьма актуально для журналистов, работающих по одной теме, но прежде всего этот совет относится к пользователям общедоступных поисковых систем. Профессиональные системы более специализированы и поэтому могут предложить пользователю готовые тезаурусы и типовые запросы. Инструменты нелинейного поиска и построение связей Особую ценность для профессиональных журналистов и поисковиков представляют системы, позволяющие выбирать данные о связях между объектами. Именно построение связей, систематизация фактов и является конечной задачей поисковика. В некоторой степени эту задачу можно автоматизировать. Так, например, в «Интегруме» разработан инструмент, позволяющий выбирать из текстов отдельных документов информацию вида человек — должность — организация (ФДО). Фактически ФДО — это база данных, в которой хранятся объекты «человек» и «организация», связанные отношением «занимать должность». Другими словами, это база, из которой можно узнать, в каких организациях (и на каких должностях) работал определенный человек и какие люди (и на каких должностях) работали в определенной организации. База позволяет также получить все документы, из которых была почерпнута соответствующая информация. Производными от ФДО являются сервисы «Коллеги?» (поиск общих мест работы для двух человек) и «Связанные организации?» (поиск общих сотрудников для двух компаний). Сходные функции имеет разработанный компанией Xanalys инструмент анализа связей Quenza. Он позволяет получать и накапливать данные из текстов о людях, событиях и организациях и идентифицировать связи в пределах этих данных. Quenza работает с информацией, сохраненной в MS Word, PDF, электронной почте и формате HTML. Безусловный интерес для профессионалов представляет инструмент визуализации анализа информации Watson, разработанный той же компанией Xanalys. Watson позволяет в графической форме выявлять связи между внешне не связанными наборами данных. Например, Watson дает возможность накладывать информацию о транзакциях из одного файла на информацию о телефонных переговорах из другого файла. Полученная в результате база данных позволяет запрашивать информацию о соответствующих связях. — 220 —
|