Поиск в Интернет. Поисковые машины. 1

Понятие «поисковая система». 1

История  развития. 2

Обзор и сравнение англоязычных, русскоязычных и международных поисковых систем. 3

Google : 3

Yahoo. 4

Русскоязычные. 4

Яндекс. 5

Ask Jeeves. 6

 

Поиск в Интернет. Поисковые машины.

Понятие «поисковая система».

Поисковая система — вебсайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. В последнее время появился новый тип поисковых движков, основанных на технологии RSS.

Следует отметить, что при выполнении запроса поисковая система не ищет документ непосредственно в Интернете. Она обращается к своей базе данных. Существует два способа пополнения информации в базы данных поисковых машин:

ü    Разработчик Web-страницы самостоятельно добавляет ссылку на неё в поисковую систему.

ü    Специальная программа, называемая роботом, находит ссылку на новую страницу во Всемирной паутине.

История  развития.

1993г - первой  поисковой  системой  для  Всемирной  паутины  был «Wandex», который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэйем (англ. Matthew Gray) из Массачусетского технологического института.

1993 г - появилась поисковая система «Aliweb».

1994 г - первая полнотекстовая (т. н. «crawler-based» — то есть индексирующая ресурсы при помощи робота) поисковая система «WebCrawler».

В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность.

В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport.

23 сентября 1997 года была открыта поисковая машина Яндекс.

Помимо поисковых машин для Всемирной паутины существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

Обзор и сравнение англоязычных, русскоязычных и международных поисковых систем.

Google :

o      Лидер поисковых машин интернета, Google занимает более 70 % мирового рынка.

o      Может находить информацию на 101 языке.

o       Google на конец августа 2004 года состояла из 132 тыс. машин, расположенных в разных точках планеты (источник информации — бывший высокопоставленный сотрудник компании).

o                  Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д.

Yahoo

Здесь можно найти необходимую вам информацию без использования запросов, а просто переходя по ссылкам разделов встроенного.Yahoo является самой популярной системой в США, так как не требует специальной подготовки для поиска информации.

Русскоязычные

Большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. В основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык.

Яндекс

Российская система поиска в Сети и интернет-портал. С начала 2006 года поиск «Яндекса» установлен на портале Mail.ru.

Охват форматов

HTML, PDF, RTF, DOC, XLS, PPT , SWF, RSS.

Язык поисковых запросов

Возможность  точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.

Результаты поиска

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска [1] можно увеличить размер страницы до 20, 30 или 50 найденных документов.

Качество поиска

Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. В частности, эти изменения направлены против поискового спама.

 

Ask Jeeves

В апреле 1997 был запущен Ask Jeeves как поисковик, позволяющий формулировать запросы на естественном языке. Ask Jeeves использовал людей в качестве редакторов.

   

 

Запрос в поисковых системах. Оптимизация поисковых запросов.
Запрос — это формулирование своей информационной необходимости пользователем некоторой поисковой системы. Для составления запроса используется язык поисковых запросов.
Все запросы к поисковым системам условно (из-за некоторых случаев неоднозначности) можно разделить на три типа.

1.     Информационные запросы. Пользователь ищет определенную информацию, не заботясь о том, на каком именно веб-сайте он ее обнаружит.

2.     Навигационные запросы. Пользователь ищет сайт, где, по его предположению, содержится интересующая его информация.

3.     Транзакционные запросы. В формулировке запроса пользователь выражает свою готовность совершить какое-либо действие.

Поисковая оптимизация (англ. search engine optimization, SEO) — оптимизация HTML-кода, текста, структуры и внешних факторов сайта с целью поднятия его в выдаче поисковой системы.
Поисковая система учитывает следующие параметры сайта при вычислении его релевантности (степени соответствия введённому запросу):

o        частота ключевых слов; сложные алгоритмы современных поисковиков позволяют производить семантический анализ текста, чтобы отсеять поисковый спам, когда ключевое слово встречается слишком часто (более определённого процента от всего содержимого) на странице;

o        индекс цитирования сайта, или количество ресурсов, ссылающихся на данный сайт; многими поисковиками не учитываются обратные ссылки (друг на друга), также важно, чтобы ссылки были с сайтов той же тематики, что и раскручиваемый сайт.


Соответственно, работа по оптимизации включает в себя работу с внутренними факторами — приведение текста и разметки страниц в соответствие с выбранными запросами, улучшение качества и количества текста на сайте, оптимизация структуры, навигации и внутренних ссылок сайта, а также внешними факторами — обмен ссылками, регистрация в каталогах и прочие мероприятия для повышения и стимулирования ссылаемости на ресурс. Лицо, проводящее работу по оптимизации, называется оптимизатор.
Методы оптимизации можно разделить на три класса:

6.     «Белая» оптимизация.
Белым называется оптимизаторская работа над ресурсом без применения официально запрещённых поисковиками методов раскрутки ресурса.

7.     «Серая» оптимизация.
Под серым SEO понимается, что вебмастер, который занимается продвижением ресурса так или иначе затрагивает методы, запрещенные поисковыми системами — например, использует линкаторы (автоматизировання система обмена ссылками), покупает ссылки с других ресурсов и т. п.

8.     «Чёрная» оптимизация.
Чёрная оптимизация обычно представляется как использование дорвеев — страниц и ресурсов, созданных (зачастую автоматически) специально для роботов поисковых систем. В теории человек не должен читать текст, который размещен на дорвее, так как он представляет собой бессмысленный набор из ключевых слов и популярных запросов. Методы раскрутки дорвеев — это нарушения всех правил поисковых систем, это беспорядочный спам по любым чужим ресурсам (гостевым книгам, форумам, каталогам, блогам, вики-сайтам, и т. п.), где может остаться ссылка на дорвей.

Алгоритмы поиска.

Поисковые системы состоят из пяти отдельных программных компонент:

9.     spider (паук): браузероподобная программа, которая скачивает веб-страницы.

10.                      crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.

11.                      indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.

12.                      the database (база данных): хранилище скаченных и обработанных страниц.

13.                      search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.

Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когды вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
Crawler: Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.
Search Engine Results Engine: О, самое сердце зверя. Именно система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск.
Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев. Алгоритмом называется метод, по которому она принимает решение. Профессиональные оптимизаторы (SEO) иногда употребляют термин «algos» - это и есть то, о чем мы говорим.
Не смотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:

o        Title (заголовок): Присутствует ли ключевое слово в заголовке?

o        Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или в адресе страницы?

o        Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2,…) текстовых заголовках?

o        Density (плотность): Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.

o        MetaInformation (мета данные): Хотя многие отрицают, некорые поисковые системы до сих пор читают мета ключевые слова (meta keywords) и мета описания (meta description).

o        Outbound Links (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?

o        Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется «внестраничный» критерий, потому что автор страницы не всегда может им управлять.

o        Insite Links (ссылки внутри страницы): На какие еще страницы данного сайта содержит ссылки эта страница?

Для выстраивания рейтинга сайтов на основании ключевого запроса алгоритм поисковой системы учитывает:

22.                      Количество ключевых слов на сайте.

23.                      Количество ключевых слов на странице.

24.                      Соотношение общего числа слов на сайте к количеству ключевых слов на сайте.

25.                      Соотношение общего числа слов на странице к количеству ключевых слов на странице.

26.                      Индекс цитирования.

27.                      Популярность тематики.

28.                      Число запросов по конкретному ключевому слову за определённый период времени.

29.                      Общее количество веб-страниц сайта.

30.                      Применение стиля к веб-страницам.

31.                      Объём текста сайта.

32.                      Объём сайта.

33.                      Объём каждой веб-страницы.

34.                      Объём текста каждой веб-страницы.

35.                      Возраст сайта.

36.                      Название URL сайта (имя домена)

37.                      Периодичность обновления информации на сайте.

38.                      Последнее обновление страниц сайта.

39.                      Число картинок (рисунков) на сайте.

40.                      Количество мультимедийных файлов.

41.                      Наличие замещающих надписей на рисунках (картинках).

42.                      Длину (в количестве символов) замещающих надписей рисунков (картинок).

43.                      Использование фреймов.

44.                      Язык сайта (русский или иностранный).

45.                      Размер шрифта, которым оформлены ключевые слова.

46.                      Жирность шрифта ключевых слов.

47.                      Написаны в разрядку или нет ключевые слова.

48.                      Написаны или нет заглавными буквами ключевые слова.

49.                      Как далеко от начала веб-страницы располагаются ключевые слова.

50.                      Стиль заголовков и наименований ключевых слов.

51.                      Наличие и анализ мета-тэгов.

52.                      Наличие и содержание описания и свойств страницы.

53.                      Наличие файла "робот".

54.                      Географическое месторасположение сайта.

55.                      Комментарии внутри программного кода сайта.

56.                      К какому типу страниц относится каждая страница сайта: html или asp.

57.                      Наличие в составе сайта flash модулей.

58.                      Наличие в составе сайта веб-страниц с незначительными отличиями друг от друга.

59.                      Соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт.

60.                      Наличие "шумовых слов" ("стоп слов").

61.                      Общее количество гиперссылок сайта.

62.                      Количество внутренних гиперссылок сайта.

63.                      Количество внешних гиперссылок сайта.

64.                      Взаимное расположение внутренних гиперссылок.

65.                      Глубина сайта.

66.                      Ряд других специальных технических параметров.

Примечание
Многие поисковые машины алгоритма, как такового, вообще не имеют. Их работа сводится к очистке текста сайта от программного кода и выстраиванию слов, встречающихся на сайте по их частоте.
Чем сложнее алгоритм работы поисковой машины, тем, с одной стороны, больше вероятность получения наиболее точных и полных результатов, но, с другой стороны, больше вероятность ошибок в работке самого алгоритма.
Усложняя алгоритм работы поисковой машины можно как достичь более полных и точных результатов, так и, наоборот, получить менее точные и полные результаты.
Любой инженер знает, что чем сложнее какая-либо машина, тем, с одной стороны, она может выполнять больше функций, но, с другой стороны, больше вероятность выхода её из строя.

Алгоритм поиска поисковой системы.

 

Hosted by uCoz