relevantnistСучасні комерційні пошукові механізми грунтуються на науці про інформаційний пошук. Ця наука існує з середини 20 століття, коли пошукові системи функціонували в бібліотеках, дослідницьких установах, урядових лабораторіях. На зорі розвитку пошукових систем вчені усвідомили важливість двох компонентів, які складають основу пошукової функціональності: релевантність – ступінь відповідності контенту документа у видачі запиту користувача.

Релевантність документа збільшується, якщо відповідні слова або фраза в запиті кілька разів зустрічаються в контенті, у назві сторінки, у важливих заголовках та короткому змісті. Популярність – відносна важливість, що визначається цитованістю (одна робота посилається на інше джерело, що часто має місце в наукових та ділових документах) даного документа, який відповідає запиту користувача.

Популярність даного документа зростає в міру того, як на нього посилаються інші документи. Ці два критерії через 40 років були використані для веб-пошуку. Вони називаються формою аналізу документа або аналізу гіперпосилання.

При аналізі документа пошукові системи перевіряють, не знайдені чи слова або фраза запиту у важливих областях документа – назві, у  тегу META, тегах заголовків і body. Вони також намагаються автоматично визначити якість документа (за допомогою складних систем, які не є предметом розгляду в даному керівництві). Для аналіза ссилок пошуковики визначають не тільки те, хто посилається на сайт або сторінку, але і що вони говорять про сторінці / сайті.

Вони також мають інформацію про те, хто з ким співпрацює (з даних про історії гіперпосилань, записів про реєстрацію сайту та інших джерел, яким можна довіряти. Для цієї мети більше підходять гіперпосилання з доменів Edu). Пошуковики використовують контекстуальні дані про сайт, до якого належить та чи інша сторінка (хто посилається на сторінку, що вони говорять про сайт і пр.).

При аналізі гіперпосилань і документів комбінуються і накладаються один на одного сотні факторів, які можуть бути визначені індивідуально і відфільтровані за допомогою алгоритмів пошукових механізмів (набір інструкцій для пошукового механізму для визначення ступеня важливості кожного фактора). Потім алгоритм визначає рейтинг для документів і в ідеальному випадку видає результати у порядку убування важливості (ранжування).