На главную страницу
Информационные системы и банки данныхУправление и принятие решений в сложных системахПрикладные информационные технологииКомпьютер в учебном процессеСетевые технологииПленарные доклады Карта сервераПобедители семинараИнформацияОбщее впечатлениеВаши отзывы
Пленарные доклады - Список докладов

ИНФОРМАЦИОННЫЙ ПОИСК В ИНТЕРНЕТ: СРЕДСТВА И ТЕХНОЛОГИИ

А.В. Смольянинов
(Санкт-Петербургский государственный электротехнический университет "ЛЭТИ", Россия)

Сегодня сеть Интернет - это море информации, отражающей различные стороны жизни человечества. Каждого, кто оказывается на берегу такого моря, интересует, что в нем содержится и как найти нужное для себя.

Основным средством получения ответов на эти вопросы являются "поисковые машины" (или "машины поиска"). За этими терминами скрывается богатый набор специальных служб, обеспечивающих доступ к информации или, другими словами, ресурсам сети.

Для эффективного поиска в Интернет необходимо знать:

- какие существуют машины поиска;

- как добываются ими сведения о ресурсах сети;

- какие свойства искомых ресурсов нужно сообщить машине;

- что будет результатом поиска;

- от чего зависит результат и как его можно улучшить;

- какой должна быть технология эффективного поиска.

В докладе сделана попытка ответить на сформулированные вопросы с учетом сложностей и неоднозначностей встречающихся при этом ситуаций.

В настоящее время можно выделить четыре типа поисковых машин.

Первый образуют машины с классифицированными списками ресурсов. Наиболее известный пример машины этого типа - поисковая система Yahoo. Пользователю предоставляется набор информации о ресурсах сети в форме систематически организованных и систематически связанных наборов сведений, каждый из которых может иметь достаточно сложную иерархическую структуру.

Второй тип составляют машины, использующие запросы о ресурсах (запросные машины). Самый знакомый пример - система Alta Vista. Запросные машины используют алгоритмы поиска ресурсов, выполняемого на основе задаваемой пользователем информации преимущественно в виде текста.

Различие между машинами двух отмеченных типов не является очень заметным, так как машины с классифицированными списками допускают поиск по запросам определенных видов. В свою очередь, запросные машины часто содержат классифицированные списки ресурсов, но более бедные по содержанию. Машины каждого из этих типов могут быть ориентированы как на специализированный поиск, так и на поиск общего характера.

Для обеспечения большей доступности существующих машин были созданы машины-каталоги и мета-машины.

Первые из них образуют третий тип поисковых машин. Каждая такая машина является списком поисковых машин, ориентированных на обслуживание определенных потребностей (например, поиск промышленных компаний, лиц определенной профессии). Пользователю машины-каталоги либо предоставляют списки поисковых систем, либо позволяют направить запрос конкретной машине, либо дают возможность указать область поиска и свойства искомого ресурса.

Четвертый тип представляют мета-машины, которые обычно направляют запрос пользователя группе из 15 - 30 машин, но иногда позволяют ему выбрать конкретную машину.

Результаты работы машин-каталогов и мета-машин - это списки, которые являются либо смесью результатов от всех использованных машин (с возможным дублированием сведений), либо отделенные друг от друга результаты, полученные каждой машиной.

Каждая машина поиска содержит базы данных, отображающие содержание Web-страниц или других ресурсов сети. Для представления в базах страница или узея должны быть зарегистрированы в поисковой машине. Процедура регистрации предоставляется любой поисковой службой, но большинство из них автоматически пополняют свои базы данных с помощью специальных агентов-роботов, которые регулярно посещают узлы и страницы (порядка 6000000 объектов в день), прослеживают ссылки, отыскивают новые или изменившиеся ресурсы и направляют полученные сведения в базы.

Разнообразие применяемых механизмов поиска основано на предлагаемом машиной многообразии способов обработки запросов. Используются двоичный поиск (включая вложение скобок), спецификации терминов, которые должны или не должны присутствовать в искомом материале, усечение запроса (внешнее и внутреннее), автоматическое порождение запроса по его части, поиски по точному и приблизительному совпадениям, поиск на основе выделения специализированных полей, поиск на основе ограничений значений.

Результаты поиска, полученные машиной, обычно ранжированы по степени связанности с содержанием и формой запроса. Для начальной части итогового списка обычно предоставляются дополнительные возможности сортировки. Следует отметить, что принципы и правила упорядочения результатов, используемые в конкретной системе, крайне редко описываются детально, так как являются интеллектуальной или патентной собственностью разработчиков машин. Это обстоятельство серьезно затрудняет интерпретацию результатов.

Современные машины поиска представляют достаточно грубое приближение к желаемому набору средств эффективного поиска. Причины этого кроются не столько в свойствах поисковых машин, сколько в характеристиках тех информационных ресурсов, которые поисковые машины пытаются индексировать.

Приведенные сведения достаточно явно подчеркивают необходимость разработки технологии эффективного информационного поиска для лиц, систематически использующих Интернет. Создавать такую технологию целесообразно в рамках реализации основного направления развития способов использования Интернет - ее персонификации.

Основное направление развития систем поиска видится в создании средств для формирования того информационного подпространства в Интернет, которое пользователь может обозреть и эффективно использовать, в противовес созданию средств поиска, которые дадут пользователю точный ответ на запрос.

Реализация этого направления может быть достигнута использованием трех идей: персонализации поиска, обобщенного представления его результатов и создания метаданных для эффективной реализации поиска.

Персонализация поиска по содержанию состоит в выявлении преимущественного интереса пользователя, формировании содержания предметной области, соответствующей этому интересу, и проведении поиска на множестве тех источников информации, которые наилучшим способом соответствуют этой области. Персонализация такого вида проявляется в современных машинах в виде ориентации на определенную предметную область или категорию пользователей, а также в возможности задания при поиске некоторых предпочтений. Персонализация поиска по методам работы означает предоставление механизма, позволяющего изменять стратегию поиска в процессе его осуществления. Многие популярные поисковые машины уже сейчас формируют результаты, содержащие ссылку на страницу, предлагающую способы их улучшения. К сожалению, эти рекомендации имеют общий характер и не учитывают содержание запроса.

Обобщенное представление результатов поиска подразумевает передачу пользователю укрупненного набора найденных ресурсов, полезность которого была бы ясна без проверки каждого ресурса по отдельности. В существующих машинах эти возможности проявляются, в частности, в сортировке результатов поиска по узлам или в поиске, осуществляемом в классифицированных коллекциях Web-ресурсов, предварительно собранных машиной.

Создание метаданных означает индексацию Web-ресурсов на основе управляемого предметного анализа и организацию доступа к индексированным ресурсам. Практически это означает создание шлюзов для различных предметных областей, наполнение их ссылками на тщательно отобранные ресурсы и составление метаописаний ресурсов (например, используя ключевые слова, классификационные обозначения) для эффективного поиска и просмотра.

Индивидуальная технология информационного поиска должна создаваться на основе идеи формирования персонального информационного пространства. В докладе рассматривается процесс формирования подобной технологии применительно к задаче выбора содержания, места и формы получения образования и обеспечения профессиональной карьеры.

RLE Banner Network