инвертированный индекс

инвертированный индексПринципы, по которым поисковые системы организуют свою работу, достаточно сложны и постоянно меняются, однако существуют законы, которые актуальны на протяжении уже достаточно продолжительного времени, что позволяет относиться к ним как к своеобразным догмам. К таким неизменным законам можно отнести, например, стандартное сжатие данных, которое все поисковые системы, без исключения, используют в целях приведения поступающей информации к оптимальному объему.

 

Как правило, на первом этапе работы с интернет-страницами любого вида происходит очистка их от всевозможных элементов, не относящихся к чистому тексту, а именно графики любого формата, HTML-тег и др.

Далее, все слова, имеющиеся в тексте, располагаются в алфавитном порядке, а все что не имеет отношение к словоформам (знаки препинания, пробелы и пр.) вновь удаляются. Характерно, что в конечном итоге слова остаются не в исходном виде, а приводятся к своим грамматичным основам и только после этого производиться подсчет вхождения слов на каждой странице с указанием ее номера. В результате, получается, что-то вроде остаточного образа текста, схожего чем-то на инверсный след самолета, по аналогии с которым, такая структура возможно и получила свое название инвертированный индекс.

 

Впрочем, в ряде случаев поисковые машины успешно работают с текстами прямого индекса, такими например как цитаты, хотя в любом случае, если пользователя, в первую очередь, интересует раскрутка сайтов, он должен оперировать понятиями и принципами инвертируемых индексов. Иначе говоря, в обязательном порядке должны учитываться язык текста (тот же «Яндекс» опирается на тип алфавита), точное вхождение ключевых фраз, а также максимальное использование, в качестве ключевых, фраз начальных грамматических форм.

Дата публикации: 22.07.2013, 17:50

 

 

 

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: