Интернет-журналистика

Страница: 1 ... 215216217218219220221222223224225 ... 322

В материалах проекта «Гардарика» поисковикам рекомендуется составлять тезаурусы в зависимости от конкретных интересов и по­полнять их постоянно, по мере выявления новых терминов в ходе ра­боты. Более адекватной представляется структура тезауруса в виде се­мантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике). Это весьма актуально для журнали­стов, работающих по одной теме, но прежде всего этот совет относится к пользователям общедоступных поисковых систем. Профессиональ­ные системы более специализированы и поэтому могут предложить пользователю готовые тезаурусы и типовые запросы.

Инструменты нелинейного поиска и построение связей

Особую ценность для профессиональных журналистов и поиско­виков представляют системы, позволяющие выбирать данные о свя­зях между объектами. Именно построение связей, систематизация фактов и является конечной задачей поисковика. В некоторой степе­ни эту задачу можно автоматизировать.

Так, например, в «Интегруме» разработан инструмент, позво­ляющий выбирать из текстов отдельных документов информацию вида человек — должность — организация (ФДО).

Фактически ФДО — это база данных, в которой хранятся объекты «человек» и «организация», связанные отношением «занимать долж­ность». Другими словами, это база, из которой можно узнать, в каких организациях (и на каких должностях) работал определенный чело­век и какие люди (и на каких должностях) работали в определенной организации. База позволяет также получить все документы, из кото­рых была почерпнута соответствующая информация.

Производными от ФДО являются сервисы «Коллеги?» (поиск общих мест работы для двух человек) и «Связанные организации?» (поиск общих сотрудников для двух компаний).

Сходные функции имеет разработанный компанией Xanalys инст­румент анализа связей Quenza. Он позволяет получать и накапливать данные из текстов о людях, событиях и организациях и идентифици­ровать связи в пределах этих данных. Quenza работает с информацией, сохраненной в MS Word, PDF, электронной почте и формате HTML.

Безусловный интерес для профессионалов представляет инстру­мент визуализации анализа информации Watson, разработанный той же компанией Xanalys. Watson позволяет в графической форме выяв­лять связи между внешне не связанными наборами данных.

Например, Watson дает возможность накладывать информацию о транзакциях из одного файла на информацию о телефонных перего­ворах из другого файла. Полученная в результате база данных позво­ляет запрашивать информацию о соответствующих связях.

— 220 —
Страница: 1 ... 215216217218219220221222223224225 ... 322