Добро Пожаловать  Ru.Board
 

Навигация
  • Главная
  • Форум
  • Темы
  • Топ лист
  • Файловый архив

  • Реклама





    Проголосуй!
    Статьи на какие темы вы бы желали видеть на нашем сайте?

    Системное администрирование Windows
    Администрирование *nix систем
    Обзоры пользовательского программного обеспечения
    Вебмастеринг: тонкости сайтостроения
    Вебмастеринг: юзабилити сайтов
    Вебпрограмминг: полезные решения
    Linux-системы: вопросы по работе
    Вопросы по аппаратной части компьютеров
    Обзоры программ для администраторов
    Компьютерная безопасность (для пользователей)
    Компьютерная безопасность (для администраторов)
    Другое


    Результаты
    Другие Опросы

    голосов: 16198

    Избранное
  • Установка Php-Nuke
  • Установка IkonBoard на локалхосте



    Форум по движку IkonBoard V.2

    Файловый архив для вебмастеров: полезные скрипты

    Форум по операционным системам: Linux, Windows, Mac

  • Поиск по сайту




    Вебмастеру: Особенности работы поисковых систем
    Опубликовал target 21.03.2003 18:17

    Веб мастеринг
    В этой статье мы рассмотрим, как работают поисковые системы.



    Поисковые cистемы обычно состоят из трех компонент:

    • агент (паук или кроулер), который перемещается по Сети и собирает информацию;
    • база данных, которая содержит всю информацию, собираемую пауками;
    • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
    Описание работы механизмов поиска

    Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее! популярные страницы.

    • Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
    • Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
    • Кроулеры просматривают заголовки и возвращают только первую ссылку.
    • Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

    Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

    Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

    Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных. Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

    База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

    1. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
    2. Тэги, в которых эти слова располагаются.
    3. Местоположение искомых слов в документе.
    4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

    База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

    Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

    Характерные особенности работы поисковых систем

    Представленная ниже таблица включает характерные особенности работы основных автоматических поисковых систем (автоматические поисковые системы - те, которые для наполнения своей базы используют поисковых роботов). Показаны основные факторы, влияющие на индексирование и последующие ранжирование сайтов.

    Данные охватывают характеристики поисковых систем AltaVista, Excite, FAST Search, Go (Infoseek), Google, Lycos и Northern Light в той их части, которая создается с использованием поисковых роботов. Также таблица включает характеристику работы Inktomi в части, которую используют в своих результатах AOL Search, HotBot и MSN Search. Excite представлен в той доли, которая принадлежит Magellan и WebCrawler.

    Характерные особенности работы основных автоматических поисковых систем.

    Наполнение базы
    Да
    Нет
    Глубина индексацииAltaVista, FAST, Google, Inktomi, NLightExcite, Go, Lycos
    Немедленная индексацияAltaVista (страницы появляются в течение нескольких дней)Excite, FAST, Google, Go, Inktomi, Lycos, NLight,
    Поддержка фреймовAltaVista, FAST, Google, NlightExcite, Inktomi, Go, Lycos
    Image MapsAltaVista, Go, NlightExcite, FAST, Google, Inktomi, Lycos
    robots.txtAllне определено
    Мета-тэг ROBOTSAlln/a
    Влияние рейтинга популярности на глубину индексацииInktomi, LycosAltaVista, Excite, FAST, Go, NLight
    Частота измененияAltaVista, Go, InktomiExcite, FAST, Google, Lycos, NLight
    Индексация
    Да
    Нет
    ПолнотекстоваяВсене определено
    Стоп-словаAltaVista, Excite, Inktomi, Lycos, GoogleFAST, Go, NLight
    Мета-тэг DESCRIPTIONВсе, кроме...FAST, Google, Lycos, NLight
    Мета-тэг KEYWORDSВсе, кроме...Excite, FAST, Google, Lycos, NLight
    Текст в атрибуте ALTAltaVista, Go, Google, LycosExcite, FAST, Inktomi, NLight
    Текст в комментарияхInktomiОстальные
    Ранжирование
    Да
    Нет
    Влияние мета-тэговGo, InktomiAltaVista, Excite, FAST, Google, Lycos, NLight
    Перечисление в каталогахGoAltaVista, Excite, FAST, Google, Inktomi, Lycos, NLight
    Рейтинг популярностиAltaVista, Excite, FAST, Google, Go, Inktomi, NLightLycos
    Direct HitHotBot, LycosОстальные
    Спам
    Да
    Нет
    Мета-refreshAltaVista, Go, LycosExcite, FAST, Google, Inktomi, NLight
    Невидимый текстОстальныеExcite, FAST, Google
    Мелкий текстAltaVista, Inktomi, LycosExcite, FAST, Google, Go, NLight


    КомментироватьВерсия для печати

     
    Категории
  • В помощь сисадмину
  • Все о софте
  • Вебмастеру
  • Игры
  • Hardware
  • О сайте
  • Программирование
  • Операционные системы
  • IkonBoard
  • InvisionBoard
  • Скрипты в примерах
  • Php-Nuke
  • Цифровое изображение
  • Юмор

  • Ссылки по теме
  • Ещё о Веб мастеринг
  • Новости от target


    Популярная статья в категории Веб мастеринг:

    Поисковая система Google



  • This web site was made with PHP-Nuke