Як індексуються сторінки сайту

Зміст:

Що таке індексація сайту пошуковою системою та як її покращити

Якщо говорити простою мовою, то індексування сайту являє собою внесення його сторінок до бази пошукових систем. У ході цього процесу система збирає інформацію про зміст ресурсу. Пошукові роботи (їх ще називають павуками) сканують й обробляють вебсторінки, відео, зображення тощо. Після того, як аналіз завершений, сторінки зберігаються до пошукового індексу — тобто бази даних. І саме в ній надалі система шукає результати, які відповідають запитам користувачів.

Як відбувається індексація сайту пошуковими системами

Один запит — це тисячі адрес, які потенційно містять відповідь. По суті Google знає його до того, як користувач ввів запит у пошуковий рядок. Індексація — безперервний процес, оскільки веб-роботи регулярно сканують нові та оновлені сайти, додаючи отриману інформацію до індексу (бази даних). Виходить, коли користувач щось шукає в інтернеті, насправді шукає індекс.

Підсторінки сайту, тобто дочірні, що йдуть після основної, індексуються по одній. Після введення запиту робот виконує пошук за індексом та знаходить усі відповідні йому сторінки. Таким чином, ми отримуємо справді величезну кількість результатів.

Щоб дати користувачеві найточнішу відповідь, Google використовує алгоритми, які вибирають сайти в індексі на основі кількох сотень різних факторів. Вони враховують не лише кількість та розміщення ключових слів, релевантних словосполучень, а й якість, юзабіліті сайту, наскільки добре він захищає конфіденційні дані. Факторів ранжирування безліч, і потрібно відповідати кожному. При цьому сам процес визначення позиції сайту та відображення результатів пошуку займає у Google приблизно півсекунди.

Скільки www-адрес в індексі? Сотні мільярдів. Вони займають понад 100 000 000 гігабайт. Google призначає сайт для індексу відповідно до слів, які він містить.

Завантаження, індексація та робота алгоритмів

Щоб визначити сайт, який найкраще відповідає запитам користувача, повинні спрацювати пошукові алгоритми. Саме завдяки їм результати в індексі вибираються та впорядковуються у визначеному порядку. Google постійно працює над покращенням своїх алгоритмів, тому він може розпізнавати ключові слова, контекст і навіть помилки, які можуть з’являтися під час введення запиту. При цьому алгоритми оцінюють не лише текст, а й інші аспекти, наприклад, довіру до сайту, достовірність та інформативність контенту, якість посилань та навіть наміри користувача.

Провести аналіз індексації сайту у пошукових системах

Індексування та сканування

Що таке індексація сторінок ми розглянули. Однак у контексті пошукових систем ви можете знайти термін «сканування». Сканування ще не індексує сторінки, а лише переміщує робота між ними.

Crawling – це відправка бота на аналізований сайт, тоді як індексування – це завантаження, обробка та збір даних для включення його до індексу пошукової системи. Сканування не означає, що адреса була проіндексована і з’явиться в результатах пошуку.

Розміщення веб-адреси в індексі – це наступний етап після сканування. Не кожна просканована сторінка індексується, але кожна проіндексована просканована раніше.

Краулінговий бюджет сканування

Краулінговий бюджет – це максимальний обсяг даних, які пошукова система може отримати з домену за одне відвідування роботом. Щоб отримати максимальну користь з обходу роботом, необхідно розглянути два аспекти:

  • обмеження швидкості сканування;
  • прискорення індексування сайту

Під час одного відвідування сайту роботи хочуть просканувати максимально можливу кількість URL-адрес. Обмеження швидкості сканування у тому, щоб вони робили обхід без перевантаження сервера. Якщо краулер завантажуватиме надто велику кількість сторінок, сайт почне завантажуватися повільніше, а це, у свою чергу, розчарує його відвідувача.

Раніше для цього обмеження слід було вказувати директиву crawl-delay у файлі robots.txt. Сьогодні вона вважається застарілою, оскільки пошукові системи самі керують швидкістю. Якщо навантаження на сервер занадто велике, сканування припиняється автоматично, тому «важкі» сторінки необхідно оптимізувати, щоб їхня вага зменшилася, і на їхню обробку роботи витрачали менше часу.

Щоб прискорити індексування, робота примусово повертають на сайт. Для цього нові або оновлені сторінки надсилаються на повторне сканування через панель вебмайстра. Варто відзначити, що популярні сайти, що часто оновлюються, обробляються частіше, оскільки зміни на них привертають увагу пошукових роботів. Саме тому припинення робіт із оптимізації стає причиною зниження позицій у видачі.

Якщо коротко, бюджет індексації сайту — кількість URL-адрес, які пошукова система може і хоче проіндексувати. Виражається у мегабайтах (Мб).

На кожен домен виділено щоденний бюджет. Боти переглядають сторінки до краю та припиняють індексування після його витрати. Потім вони повертаються, щоб перевірити поновлення на вже завантажених адресах. Якщо архітектура сайту погано опрацьована, сторінки, розташовані надто глибоко, можуть взагалі не індексуватися. Щоб цього уникнути, потрібно наголошувати не стільки на красивому дизайні, скільки на юзабіліті з урахуванням подальшої оптимізації. Важливі підсторінки повинні бути серед перших в ієрархії структури сайту, інші впорядковуються зі зниження пріоритетності.

Коли пошуковий робот повертається на сайт, ніхто не знає. За ідеєю, сканування здійснюється щодня, але ніде не зазначено, коли саме бот його припиняє і коли відновлює.

Циклічна індексація

Індексування носить циклічний характер, тому потрібно постійно дбати про якість сайту та оновлення, щоб займати високі позиції в результатах видачі. Після першого відвідування роботи час від часу повертаються, щоб перевірити та проіндексувати будь-які зміни. Чим частіше вони зустрічають новий, цінний контент, тим більша ймовірність, що повернуться знову. І як результат: чим раніше він буде проіндексований, тим швидше з’явиться в результатах пошуку.

Часті питання в процесі індексації сайтів.

1. Чому я не можу знайти свою сторінку в Google?

1.1. Час індексації.

Скільки часу займає індексація сторінки Google? На це питання немає однозначної відповіді. Однак практика веб-майстрів показує — завантаження нового сайту в індекс пошукової системи може зайняти від кількох днів до кількох місяців. У цій статті ми розглянемо фактори, які прискорюють та уповільнюють цей процес, і спробуємо відповісти на питання, чи можна оцінити реальний час індексації сторінки Google.

Як перевірити, чи була сторінка збережена у пошуковій системі?

Спосіб 1: введіть сайт у вікно пошукової системи на посилання Вашого сайту. Якщо ви отримуєте результати, сайт був проіндексований. Відсутність посилань на сайт означає, що він, ймовірно, ще не оброблений роботом Google.

Спосіб 2: перевірити статистичний звіт у консолі Google для веб-майстрів. Він містить інформацію про дії на сайті, виконані пошуковим роботом за останні 90 днів.

1.2. Коли Google не зберігає адресу в індексі?

Google не зберігає url сайту з різних причин. Декілька прикладів, чому це може статися:

  • неправильно налаштований robots.txt. При цьому пошукова система, як і раніше, може переглядати сторінку, заблоковану у файлі robots.txt, але не бачитиме її вміст. У цьому випадку поруч із результатом з’явиться повідомлення: «Опис цього результату недоступний через robots.txt»,
    обмежено вибраними каталогами,

наприклад:
User-agent: *
Disallow: / images /
Disallow: / private /

Тут ми не блокуємо індексацію всієї сторінки, а лише елементи, що зберігаються у двох каталогах, тобто images та Private.

Тут блокуємо доступ до всього сайту.

  • неправильно налаштований файл .htaccess, який дозволяє, серед іншого, блокувати користувачів, наприклад, за IP-адресами. Якщо адміністратор випадково заблокував IP-адреси Google, сторінка не проіндексується;
  • застаріла карта сайту;
  • Низький сайт.

1.3. Коли варто переіндексувати сайт?

Надсилання запитів на панелі веб-майстра на сканування сторінок не є обов’язковим, але може допомогти прискорити відвідування сайту роботом Google. Пам’ятайте, що робота автоматично повертається, щоб отримати актуальну інформацію про його вміст. Таким чином, запит на індексування можна повторити, але на практиці це необов’язково, тому що достеменно невідомо, чи це дійсно прискорить процес. У загальних рекомендаціях, доступних у Довідці Google, є інформація про те, що індексація займає від декількох днів до декількох тижнів (у деяких випадках навіть місяців), і надсилання великої кількості запитів на повторне збереження однієї й тієї ж URL-адреси ніяк не прискорить її.

2. Як прискорити індексацію сторінки Google?

2.1. Зміни на сайті та індексація.

Систематичне оновлення сайту новим і корисним контентом може призвести до того, що роботи пошукових систем частіше відвідуватимуть його, тим самим прискорюючи індексацію. Це, звісно, лише одне метод, але дуже важливий з погляду пошукового просування. Перш ніж дізнатися, чому деякі адреси скануються швидше, інші сповільнюються, варто вивчити способи прискорення всього процесу.

2.2. Методи прискорення індексації сторінки.

Ось кілька SEO-методів, які допоможуть прискорити індексацію сайту:

Чим більше посилань пов’язано з сайтом, тим вища ймовірність того, що він буде проіндексований. Також контент, який потрібно швидко проіндексувати, має бути пов’язаний із головною. Крім того, що ближче до неї знаходиться важлива сторінка, то краще. Теоретично пошукова система повинна сканувати її швидше. Ось чому варто враховувати це під час планування структури сайту. Щоб прискорити цей процес, варто також розмістити важливі посилання у своєму блозі, соціальних мережах, тематичному форумі або написати статтю, яка містить посилання;

Карта сайту допоможе прискорити процес індексації сайту, хоча загалом відсутність файлів XML та HTML не завадить роботі зробити це і без них. Карта сайту – це перелік наявних підсторінок. Вона мінімізує кількість переходів робота по сторінках, завдяки чому зменшується час на їх пошуки;

  • надсилання запиту на індексацію сторінок за допомогою Google Search Console .

Увага! Прискорення індексації – це не те саме, що збільшення позиції сайту в результатах пошуку. Індексація безпосередньо не впливає на неї, але дуже позначається на самому просуванні. Непроіндексований контент не буде включений до результатів пошуку, але в той же час індексування не означає, що позиції сторінки будуть високими.

3. Швидка індексація сторінок Google: скільки часу це займе?

3.1. Чому одна адреса сканується швидше, ніж інша?

Як зазвичай буває з Google, коли доходить до індексації, експерти компанії нічого не пояснюють безпосередньо. У 2018 році Джон Мюллер з Google підтвердив, що URL-адреси зберігаються відповідно до різних факторів і що пошукова система не сканує URL-адреси з однаковою частотою весь час. Тому не дивно, що деякі сайти роботи відвідуватимуть щодня, інші – щотижня, треті – раз на кілька місяців або навіть за півроку.

Варто підкреслити, що рідкісне сканування сайту не означає, що з ним щось не так з технічного боку. Період обробки кілька місяців цілком нормальний і природний. Як приклад, слід додати, що внесення значних змін на сайті призведе до того, що частина сторінок проіндексується швидко. Решті доведеться деякий час почекати. Чому так відбувається? На це впливають багато факторів: перелінкування, структура сторінки, частота змін. Наприклад, якщо сайт давно не оновлювався, пошукова система може не відправити до нього робота. Тим не менш, коли відбувається оновлення, це може зайняти якийсь час, але зрештою робот Google обов’язково відвідає сторінку, що змінилася.

3.2. Як швидко пошукова система може проіндексувати сторінку?

У більшості випадків на це потрібно кілька днів. Це може зайняти до 24 годин, хоча не можна сказати, що це відбувається постійно. Веб-майстри визнають, що буває й інакше: сторінка може з’явитися в індексі того ж дня, через тиждень чи навіть місяць.

3.3. Скільки часу займає індексація змін на сторінках?

На це питання немає однозначної відповіді. Google працює в певному темпі, але відомо, що крім частоти оновлень, він також враховує й інші фактори. Щоб пошуковий робот відвідував сайт частіше, його потрібно регулярно оновлювати. Після внесених змін, наприклад, видалення або додавання сторінок, надішліть запит на перехід через панель вебмайстра. Також можна залишати посилання на новий контент у соціальних мережах, блогах, тематичних форумах.

3.4. Від індексації до ранжування.

Без індексації ви не зможете отримати високих позицій у результатах пошуку, тому що це необхідний крок для включення сайту до індексу Google. Саме індексування іноді займає кілька місяців. Після збереження сайту в кеші Google потрібен час, щоб оцінити зміни. На даний момент сторінка вже знаходиться на якомусь рівні у рейтингу. Ви вносите зміни, щоб поліпшити рейтинг і цикл починається знову.

4. Повільна індексація сторінок у Google.

4.1. Очікування індексації: скільки часу це займає, у чому причина?

4.1.1. Довге очікування на індексацію: наслідки для сайту.

Час, необхідний індексації, впливає тимчасово просування загалом. Підняття позицій або змін у ранжируванні можна спостерігати лише після індексації сторінки.

4.2. Повільна індексація нових сторінок.

Для появи нової сторінки в результатах пошуку може знадобитися від 24 годин до кількох місяців. Це тому, що сайт новий, він не має вхідних посилань.

Очікування протягом кількох тижнів появи адреси у результатах пошуку – природний процес. Як користувачі інтернету, ми звикли до миттєвого отримання відповідей на запити, але з іншого боку, веб-майстра це відбувається не так швидко, як хотілося б. Щоб підвищити ймовірність швидкого сканування сторінки, виконайте дії, описані в розділі «Як прискорити індексацію сторінки Google?».

4.3. Повільна індексація змінених сторінок.

Варто розуміти, що регулярне та часте оновлення контенту прискорює індексацію і, отже, підвищує шанс піднятися у рейтингу пошукової системи. Чим частіше щось відбувається на сайті, тим більша ймовірність того, що Google вважатиме його активним і частіше відправлятиме свій сканер для аналізу змін.

Як заборонити сайту виконувати індексацію сторінок

Існує декілька способів зробити це:

  1. Використовуйте в html-коді сторінки атрибут noindex. Так пошукова система «зрозуміє», що цю сторінку необхідно виключити з результатів пошуку.
  2. Обмежте індексацію через файл конфігурації .htaccess за допомогою пароля.
  3. Використовуйте файл robots.txt. За допомогою цього документа можна заборонити індексацію ресурсу цілком або ж заблокувати доступ до вибраних сторінок.
  4. Видаліть URL через спеціальні плагіни.

Кожен із методів підходить під окрему ситуацію. Тому вибирати, як закрити сайт або сторінки від індексування, потрібно індивідуально.

FAQ

Що таке індексація сайту?

Індексація сторінок сайту — це процес, який чимось схожий на внесення інформації до каталогу бібліотеки. Тільки в такому разі відомості про ресурс або його окремі сторінки додаються до баз даних пошукових систем. Індексація виконується в автоматичному режимі спеціальними алгоритмами — роботами.

Як індексувати сайт?

Якщо вас цікавить індексація сайту в Google, то для цього потрібно виконати такі дії:

  • знайти інструмент перевірки URL-адреси в Google Search Console;
  • вказати URL-адресу сторінки або сайту, дочекатися, поки буде виконана її перевірка;
  • після цього натиснути на кнопку «Запросити індексування».

Такий спосіб безплатний і підходить для індексації нових сторінок.

Які сторінки не потрібно індексувати?

Індексації не потребують копії сайту, сторінки у процесі розроблення, користувальницькі елементи та форми, технічні сторінки, а також сторінки пагінації, сортування, друку. Крім цього, не можна індексувати сторінки, на яких міститься персональна інформація про клієнтів.

Шість способів перевірити індексацію сайту чи сторінки

Щоб вебсайт відображався в результатах пошуку, всі його сторінки, відкриті для індексації, повинні стати частиною індексу пошукової системи. Якщо системі не вдається додати сторінки сайту в базу даних — вони залишаються практично невидимими для потенційних клієнтів.

Пропоную розглянути 6 способів перевірки індексації. З’ясуємо, чому пошукові системи не індексують сайт, знайдемо шляхи вирішення проблем.

  • Як працює індексація сайту?
  • Перевірка в Google Search Console.
  • Як перевірити індексацію конкретної сторінки у Search Console?
  • Аналіз індексації сайту в Google пошуку.
  • Перевірка індексації онлайн за допомогою сервісів.
  • SEO-інструменти для перевірки сайтів.
  • Букмарклети.
  • Індексатор Google Indexing API.
  • Чому Google не індексує сайт?
  • Як прискорити індексацію сайту?
  • Як керувати краулінговим бюджетом?

Як працює індексація сайту?

На перший погляд може здатися, що сканування та індексація — два дуже схожі процеси. Вони справді тісно взаємопов’язані, але є різними етапами обробки сайту пошуковими системами.

Сканування — процес пошуку сторінок для подальшої обробки та індексації.

Індексація — процес додавання просканованої сторінки в базу даних (індекс) пошукової системи. Таким чином, при релевантному запиті користувача сторінка з’явиться в результатах пошуку:

Важливо. Сканування сайту не означає його індексацію. А потрапляння сайту до індексу пошукової системи не гарантує перших позицій пошукової видачі, оскільки порядок відображення сторінок за ключовим запитом визначає ранжування.

Як перевірити сайт на індексацію

Проіндексовано — отже видно. Дуже важливо, щоб усі сторінки, які потрібно показати потенційним клієнтам, користувачам чи читачам, проіндексувалися. Інакше може статися так: товар чи послуга найкращі на ринку, стаття повністю розкриває суть питання, але якщо сторінки вашого сайту відсутні в індексі пошукової системи — про це ніхто не дізнається.

Саме тому важливо вміти перевіряти індексацію.

1. Перевірка в Google Search Console

Це один із базових способів перевірки індексації для власника сайту та вебмайстра.

Увійдіть до вашого облікового запису на Search Console і перейдіть по вкладці «Сторінки» в розділі «Індексування»:

У цьому звіті ви знайдете загальну інформацію — проіндексовані та непроіндексовані сторінки з відображенням на часовій шкалі:

Перейшовши в повний звіт, побачите докладні дані про всі сторінки, перевірені на індексацію:

Щоб переглянути звіт про неіндексовані сторінки та помилки індексації, поверніться до розділу «Індексування сторінок»:

Клікнувши на ліву колонку «Причина», можна побачити списки сторінок сайту, недоступних до індексації:

Як перевірити індексацію конкретної сторінки у Search Console?

Вставте посилання на сторінку, що вас цікавить, у рядок пошуку Search Console:

В результаті перевірки побачите одне з таких повідомлень:

Якщо ви внесли всі необхідні зміни, але сторінка все ще відсутня в індексі, надішліть запит на пересканування самостійно:

  1. Введіть адресу сторінки в інструменті перевірки URL.
  2. Натисніть кнопку «Запит на індексування».

Цей спосіб можна використовувати для прискорення індексації нових сторінок сайту — але не більше 10 на день.

При скануванні одразу кількох сторінок рекомендується застосовувати файл Sitemap.

2. Аналіз індексації сайту в Google пошуку

Пошукові оператори (наприклад, «site:») допомагають уточнити результати пошуку.

Щоб дізнатися про наявність вашого сайту в індексі Google, наберіть у рядку пошуку «site:[url вашого сайту]»:

Для перевірки індексації конкретної сторінки використовуйте оператор у форматі «site:[url сторінки вашого сайту]»:

Якщо сайт або сторінка успішно проіндексовані, вони відобразяться у результатах пошуку. З’явиться інформація про приблизну кількість сторінок вашого сайту, що індексувалося пошуковою системою:

Крім того, інструменти пошуку можуть проаналізувати кількість сторінок, індексованих пошуковою системою за певний період часу:

3. Перевірка індексації онлайн за допомогою сервісів

Існує велика кількість безкоштовних онлайн-сервісів для контролю за індексацією сайту, таких як linkody.com або smallseotools.com. Їхній недолік — ліміти: від 5 до 50 сторінок.

Однак, якщо ваш сайт підключено до Google Search Console, за допомогою нового інструменту від Serpstat можна за один запит перевірити індексацію до 100 сторінок.

  1. Перейдіть до розділу «Інструменти» та виберіть «Індексація сторінок»:
  1. Натисніть кнопку «Підключити Google Search Console» і увійдіть до сервісу за допомогою облікового запису Google:
  1. Після авторизації у верхній лівій частині сторінки побачите список усіх сайтів, до яких у вас є доступ за допомогою Google Search Console:
  1. Введіть до 100 URL-адрес для перевірки індексації сайту та натисніть кнопку «Перевірити сторінки». У правій частині сервісу з’являться результати цієї операції.

4. SEO-інструменти для перевірки сайтів

Спеціальні програми, призначені для сканування та аналізу основних параметрів сайту для виявлення помилок, можуть також перевіряти індексацію.

При скануванні сайту в Netpeak Spider ви отримаєте список сторінок та значення параметрів, що впливають на індексацію сайту: robots.txt, canonical, mета robots, X-Robots-Tag, наявність редиректів та ін.:

Завантаживши отриманий список у Netpeak Checker, можна перевірити наявність сторінки або сайту у пошуковій видачі:

5. Букмарклети

Букмарклети (невеликі javascript-програми, які зберігаються як браузерні закладки) — автоматизований варіант перевірки.

Щоб скористатися букмарклетом, відкрийте файл Перевірка індексації та перетягніть посилання на панель закладок:

Потім знайдіть сторінку, яка вас цікавить, або сайт і просто натисніть на закладку. З’явиться нова вкладка Google із пошуковим запитом, використанням уточнюючого оператора «site:» та результатами індексації на запит.

6. Індексатор Google Indexing API

Google Indexing API — це безкоштовний індексатор від Google, за допомогою якого можна:

  • дізнатися, коли останній раз Google отримував інформацію за визначеною URL-адресою;
  • надіслати запит на переіндексацію сторінки;
  • надіслати запит на видалення сторінки з індексу.

Важливою перевагою Google Indexing API є можливість пакетних запитів індексування, об’єднаних в один HTTP (до 100 штук). На день можна використовувати не більше 200 запитів, але якщо на ваших сторінках впроваджено розмітку JobPosting або BroadcastEvent — ви можете подати заявку на збільшення квоти.

Докладніше про квоти індексатора та його підключення читайте у довідці Google.

Чому Google не індексує сайт?

  1. Новий сайт. Залежно від кількості сторінок, повна індексація нового сайту може зайняти в Googlebot від одного тижня до 2-4 місяців.
  2. Примусове закриття сторінок від індексації.

Тег noindex забороняє індексування сторінок пошукової роботи. Для виключення проблем, викликаних неправильним застосуванням тега noindex, необхідно перевірити такі директорії:
Метатег robots
Розміщується в коді HTML і діє у межах сторінки. Приклад метатегу robots, що забороняє сканування —

X-Robot-Tag
Є HTTP заголовком, розміщується у файлі конфігурації сервера. Приклад X-Robot-Tag, що забороняє сканування —
X-Robots-Tag: noindex, nofollow
Файл robots.txt
За допомогою robots.txt неможливо керувати безпосередньо індексацією сайту, але неправильна конфігурація цього файлу може призвести до повного закриття для сканування пошуковими роботами.
Рядок в robots.txt, що повністю закриває сайт від сканування —
User-agent: * Disallow: /

  1. Неправильне використання тега canonical. Тег canonical застосовується для боротьби з контентом, що дублюється, який також може бути однією з причин поганої індексації сайту. Він вказує пошуковому роботу на характерну версію сторінки. При скануванні URL-адреса, вказана в тезі canonical, буде сприйнята Googlebot як основна версія серед схожих за змістом сторінок.

Крім налаштувань, які безпосередньо обмежують або забороняють сканування сайту, варто відзначити такі фактори, що негативно впливають на швидкість індексації:

  • Відсутність картки сайтуsitemap.xml. Вона допомагає пошуковим роботам зрозуміти його структуру та швидше просканувати сторінки.
  • Відсутність чи недостатність внутрішніх посилань. Правильне та рівномірне перелінкування на сайті розподіляє вагу сторінок, а додавання посилань на нові сторінки сайту, а також сторінки, які вже знаходяться в індексі, допомагає пошуковим системам швидше знаходити їх.
  • Швидкість роботи сайту. Googlebot не перебуває на сайті постійно. Він лише періодично сканує контент сторінок. Повільне завантаження сайту ускладнює його індексацію та роботу алгоритмів пошукового робота.
  • Якість контенту. Останні оновлення пошукової системи Google передбачають покращення якості контенту та створення авторитетних матеріалів — насамперед для людей, а не для маніпуляції алгоритмами пошуку. При оцінці якості контенту вашого сайту Google враховує наявність орфографічних помилок, достовірність інформації, оригінальність та інші фактори. Докладніше про створення корисного контенту можна дізнатися у довідці Google.
  • Відсутність оптимізації мобільної версії. Для нових сайтів, створених після 1 липня 2019 року, Google використовує метод індексації Mobile-First index, що віддає перевагу індексації мобільної версії сайту. Таке рішення компанії викликано тим, що вже в 2016 році більше половини запитів до Google надходили з мобільних пристроїв.
  • Ігнорування помилок у Google Search Console. Перегляньте звіт про помилки в пошуковій консолі Google. Подивіться, які зі знайдених помилок впливають на індексацію сайту та усуньте їх. Також перевірте, чи не піддавався ваш сайт ручним санкціям. Можливо, його доменне ім’я раніше обмежувалось у зв’язку з порушенням правил Google.

Як прискорити індексацію сайту?

Можливості Googlebot щодо сканування сайту обмежуються краулінговим бюджетом — лімітом на перевірку сторінок за один візит. Дізнатися про приблизний краулінговий бюджет вашого сайту можна у Search Console (розділ «Індексація») — перегляньте звіт щодо кількості сторінок, оброблених за місяць пошуковою системою:

Краулінговий бюджет змінюється за визначенним пошуковою системою алгоритмом: залежно від розміру сайту, швидкості його роботи та потреб. Якщо виявлено багато помилок або сміттєвих сторінок, бюджет може витрачатися швидше.

Чинники, які негативно впливають на краулінговий бюджет:

  • дублі сторінок;
  • неунікальний контент;
  • биті посилання;
  • дуже велика кількість редиректів;
  • повільна швидкість роботи сайту.

Як керувати краулінговим бюджетом?

Крім фактичного управління краулінговим бюджетом за допомогою індексатора Google Index API, зменшити його витрати можна за допомогою технічної оптимізації та покращення якості контенту.

Файл sitemap.xml.
Перевірте вміст XML-карти сайту, переконайтеся, що всі вказані в ній сторінки відкриті до індексації та дають код відповіді серверу 200, встановіть автоматичне додавання нових сторінок (відкритих до індексації) у файл sitemap.xml.

Дата зміни сторінки.
Налаштуйте HTTP заголовки Last-Modified та If-Modified-Since, щоб вказати Googlebot на сторінки, контент яких не змінився з його останнього відвідування (вони не потребують повторного сканування).

Оптимізація швидкості завантаження сайту.
Час відповіді сервера не повинен перевищувати 200 мс, а швидкість завантаження сторінки — 3-5 секунд. Перевірте швидкість роботи сайту за допомогою PageSpeed Insights, оптимізуйте сторінки, виходячи з рекомендацій.

Редиректи та биті сторінки.
Не допускайте велику кількість редиректів та битих сторінок на сайті. В іншому випадку, замість відвідування нового контенту, Googlebot витрачатиме свій краулінговий бюджет на переходи по непрацюючих позиціях.

Оптимізація перелінкування.
Додати посилання на новий контент на головну сторінку сайту, виведіть прев’ю анонсу недавніх статей, покажіть новинки товарів. Організуйте перелінкування між старими та свіжими матеріалами, розмістіть посилання на нові сторінки в соцмережах — це допоможе пошуковому роботу швидше їх знайти та просканувати.

Частота оновлення сайту.
Пошукові системи віддають перевагу актуальній та якісній інформації. Регулярно оновлюйте вміст свого сайту, додавайте новий контент не рідше одного разу на тиждень, актуалізуйте та доповнюйте інформацію на старих сторінках.

Запам’ятати

Шість способів самостійно перевірити індексацію сайту чи сторінки:

  1. У Google Search Console.
  2. За допомогою операторів пошуку.
  3. Онлайн-сервіси.
  4. SEO-інструментами, наприклад, Netpeak Spider або Netpeak Checker.
  5. Використовуючи букмарклети.
  6. Google Indexing API.

Для покращення індексації сайту:

  1. Налаштуйте та оптимізуйте карту сайту sitemap.xml.
  2. Перевірте налаштування файлу robots.txt та використання тега noindex.
  3. Слідкуйте за кількістю редиректів та наявністю битих сторінок.
  4. Працюйте над перелінкування сайту.
  5. Поліпшіть швидкість завантаження сторінок.
  6. Створюйте якісний контент і регулярно працюйте над його оновленням та покращенням.
  7. Оптимізуйте витрачання краулінгового бюджету.
  8. Не забувайте про мобільну версію сайту.
  9. Регулярно вивчайте звіти про помилки в Google Search Console.

В команді SEO Netpeak із серпня 2022 року. Зараз Junior SEO Specialist у Netpeak Agency. Зацікавилася SEO після відвідування заходів і курсів від Netpeak і з того моменту мріяла стати частиною команди.

Що таке індексація, та Як закрити від неї сайт

У світі пошукової оптимізації (SEO) індексація є однією з ключових фаз, яка визначає видимість вебсайту та його окремих сторінок у пошукових системах — Google, Bing, Yahoo та інших. У цій статті я розповім, що таке індексація та як вона працює, як перевірити індексування сайту і як правильно закрити від цього процесу сайт.

Що таке індексація простими словами

Індексація — процес, у якому пошукові роботи (пошукові павуки або боти) сканують вебсайти для збору інформації про їхній зміст. Ці роботи переходять за посиланнями між сторінками та аналізують контент. Після збору даних вони додають інформацію до індексу пошукової системи.

Індекс — це велика база, у якій містяться зібрані дані про сторінки вебсайтів. Він допомагає пошуковим системам швидко знаходити сторінки, що відповідають запитам користувачів. Чим більше якісного та релевантного контенту зібрано в індексі, тим ефективнішим буде пошук для користувачів.

Як проходить індексування сайту

Щоб розібратись в темі «Як заборонити індексацію сайту?», варто спершу зрозуміти процес індексування.

Пошукові роботи починають індексацію з переходу на сайт. Уявімо, що ви працюєте із сайтом https://netpeak.net/ і хочете його проіндексувати. Для цього є наступні етапи:

  1. Пошуковий робот починає зі сканування стартової сторінки сайту. Він перевіряє HTML-код, зображення, посилання та інші елементи на сторінці.
  2. Перехід за посиланнями на інші сторінки. Пошуковий робот переходить за посиланнями, знайденими на головній сторінці, і сканує інші. Наприклад, якщо на головній сторінці є лінк на https://netpeak.net/blog/category/seo/, робот перейде на нього.
  3. Пошуковий робот аналізує вміст відвіданих сторінок, збираючи текст, зображення, відео та інші елементи вмісту. На сторінці https://netpeak.net/blog/category/seo/ є перелік статей та інша інформація. Саме це і потрібно роботу.
  4. Після збору інформації пошуковий робот додає сторінку до свого індексу. Це допомагає пошуковій системі знаходити її при введені користувачем відповідних запитів.
  5. Оновлення та переіндексація. Пошукові роботи періодично повертаються на кожний сайт, щоб оновити інформацію та знайти новий контент. Вони сканують ці зміни та оновлюють індекс.
  6. Показ у результатах пошуку. Коли користувач вводить запит у пошукову систему, вона використовує свій індекс для пошуку найбільш відповідних сторінок. Наприклад, коли користувач шукає «How to Create SEO-Friendly Website Architecture», пошукова система використовує індекс для знаходження сторінки https://netpeak.net/blog/how-to-create-seo-friendly-website-architecture-best-practices/ та відображає її у результатах:

Індексація сайту — складний процес, який дозволяє пошуковим системам ефективно знаходити та відображати релевантні сторінки у результатах пошуку. Це допомагає як SEO-фахівцям, так і власникам сайтів покращити видимість та забезпечити оптимальну взаємодію з пошуковими роботами.

Як перевірити індексування сайту

Перевірка індексації важлива, оскільки дозволяє переконатися, що пошукові системи коректно розуміють вебсайт та вміст, який передається користувачам. Дізнатись, чи проіндексований сайт можна наступними методами:

1. Використати Google Search Console. Якщо ви власник сайту, обов’язково зареєструйте його в Google Search Console. Це безкоштовний інструмент від Google. Він надає інформацію про те, як Google бачить ваш вебсайт, звіти про індексацію сторінок, виявлення помилок і багато іншого. Щоб перевірити індексування через Google Search Console, перейдіть у вкладку «Pages». Там можна побачити, скільки сторінок проіндексовано, а також які з них мають проблеми:

2. Використати команду «site:» у пошукових системах. Вона дозволяє перевірити, скільки сторінок конкретного сайту проіндексовано в певній пошуковій системі. Наприклад, введення «site: netpeak.net» у Google покаже всі сторінки, які індексовані з цього сайту:

Утім, це досить неточний спосіб отримання інформації про індексацію сайту та його окремих сторінок. Але при цьому — це корисний метод, адже в комплексі з іншими операторами, дозволяє знайти певні сторінки з вкладеннями/параметрами, які повинні бути прихованими від індексації на нашому сайті. Також цей спосіб дозволяє дізнатися про індексацію окремих сторінок чи сайту конкурентів.

3. Існують також різні сервіси, які інформують про індексацію сайту. Наприклад, Netpeak Checker дозволяє з’ясувати, чи є сайт або сторінки у видачі. Інші сервіси: Ahrefs, SEMrush тощо — допомагають відслідковувати індексацію та виявляти можливі проблеми.

Власне, почитайте більш детально про шість способів перевірки індексації сайту.

Як закрити сайт від індексації: ефективні методи

Належний контроль того, як вебсайт і його вміст індексуються пошуковими системами є важливою частиною SEO-оптимізації. У певних випадках закриття сторінок від індексації може бути доречним та корисним. Мова про такі сторінки:

  1. Тестовий чи розробницький контент. Така сторінка часто є незавершеною, непридатною для публічного перегляду або може містити помилки. Закривши ці сторінки від індексації, зникає імовірність випадкової публікації недоробленого контенту.
  2. Сторінки з конфіденційною інформацією. Конфіденційність даних завжди є пріоритетом, і якщо на сайті є сторінки з особистою, фінансовою або іншою конфіденційною інформацією, їх слід закрити від індексації. Це може бути сторінка з обліковими даними користувачів, платіжні дані тощо.
  3. Дубльований контент. Якщо на сайті є сторінки з контентом, який повторюється на інших сторінках, це може призвести до проблем з ранжуванням в пошукових системах. Закриття дубльованого контенту від індексації допоможе забезпечити кращу видимість та послідовність основної сторінки.
  4. Внутрішні адміністративні сторінки. Потрібні для керування вмістом сайту або його налаштуваннями і не мають бути доступними назагал. Закриття від індексації дозволить уникнути можливого ризику несанкціонованого доступу та збереже контроль над адміністративною частиною.
  5. Користувацькі сторінки покупки або реєстрації. Якщо на сайті є сторінки з корзиною покупок, реєстрацією, оформленням замовлення, сторінки пошуку, порівняння, сортування, фільтрів за ціною та виведенням кількості товарів на сторінках, їх варто закрити від індексації. Адже вони формують дублі.

Розуміння процесу індексації допоможе в ефективній оптимізації сайту, адже таким чином відбувається відкриття і закриття важливих та неважливих сторінок сайту.

Як закрити сайт від індексації

Є 4 основні методи, які допомагають керувати індексацією.

Метатег «robots»

Метатег «robots» є одним із найпоширеніших способів контролю індексації вебсторінок. Є 4 головних правила, які можемо використати в метатезі «robots»:

  • «index» — дозволяємо боту індексацію;
  • «noindex» — забороняємо індексацію;
  • «follow» — дозволяємо боту переходити за внутрішніми посиланнями;
  • «nofollow» — забороняємо перехід за посиланнями.

Додавання метатега зі значенням «noindex» до коду сторінки в блоці забороняє пошуковим системам індексувати її. Він прописується так:

Де «noindex» — правило, що забороняє індексацію сторінки пошуковими системами. Варто додати правило «follow», що дозволяє перейти роботу за посиланнями на іншу сторінку і продовжити досліджувати сайт.

Ще один варіант реалізації цього правила, а саме:

Де «nofollow», відповідно, забороняє роботу перехід за посиланнями на інші сторінки сайту.

Якщо замінити «robots», наприклад, на «bing», інструкція поширюватиметься лише на робота пошукової системи Bing. Але якщо певна сторінка повинна бути прихована від індексації, рекомендую прописувати інструкцію для всіх пошукових роботів.

Метатег «robots» особливо корисний для окремих сторінок, які необхідно захистити від загального доступу.

Важливо! Google довідка каже: «Щоб правило «noindex» працювало, файл robots.txt не повинен блокувати пошуковому роботу доступ до сторінки. Інакше він не зможе обробити її код і не виявить правило noindex. У результаті контент з такої сторінки, як і раніше, з’являтиметься в результатах пошуку, наприклад, якщо на неї посилаються інші ресурси».

X-Robots-Tag у відповіді сервера

Заголовок «X-Robots-Tag» може бути встановлений на рівні сервера або на рівні окремих сторінок для керування індексацією пошуковими системами. Він вказує пошуковим системам, як обробляти конкретну сторінку чи ресурс. Заголовок «X-Robots-Tag» може містити ті самі директиви, які й метатег «robots»:

X-Robots-Tag: noindex, nofollow

Заголовок вказує пошуковим системам не індексувати сторінку («noindex») і не переходити за посиланнями на ній («nofollow»). Правило можна прописати в різних варіаціях.

Встановити «X-Robots-Tag» для конкретної сторінки або ресурсу на сервері можна в налаштуваннях до сервера або використати файл конфігурації, який вказує на HTTP-заголовки, які потрібно встановити для конкретних запитів.

Щоб налаштувати X-Robots-Tag для Apache сервера, потрібно додати наступний код в файл .htaccess:

Header set X-Robots-Tag «noindex, nofollow»

Цей приклад встановлює заголовок X-Robots-Tag для всіх сторінок сайту і забороняє їх індексацію та перехід за посиланням.

Після внесення змін у .htaccess Apache, потрібно перезавантажити вебсервер щоб зміни набрали чинності.

Для налаштування X-Robots-Tag для Nginx сервера, потрібно використовувати додатковий модуль nginx, який називається «add_header». Цей модуль дозволяє додавати HTTP заголовки до відповідей сервера.

  1. Відкрийте конфігураційний файл для вашого сайту.
  2. Знайдіть блок «server», що відповідає вашому сайту, і додайте або відредагуйте рядок «add_header» в цьому блоці, щоб додати заголовок X-Robots-Tag. Наприклад:
add_header X-Robots-Tag «noindex, nofollow»

У цьому прикладі, як і в попередніх, заголовок X-Robots-Tag встановлено як «noindex, nofollow», що забороняє індексацію і перехід на інші сторінки сайту за посиланням. Після внесення змін у конфігураційний файл, потрібно перезавантажити вебсервер Nginx, щоб зміни набрали чинності.

Після встановлення «X-Robots-Tag» пошукові системи будуть дотримуватися вказаних директив щодо індексації та переходу за посиланнями на вказаній сторінці чи ресурсі.

HTTP-код 403 (Forbidden)

HTTP-код 403 (Forbidden) вказує на те, що запит до сервера був коректним, але сервер відмовився обробляти його через обмеження доступу. Цей код можна використати для закриття сторінки від індексації пошуковими системами, і ось як це зазвичай робиться:

1. Створення сторінки для відображення повідомлення про заборону. Спершу можна створити сторінку, на яку перенаправлятимуться користувачі у разі відмови у доступі. Наприклад, сторінка «forbidden.html» та вміст, який варто відобразити користувачам, коли вони намагаються отримати доступ до забороненої сторінки. Якщо користувач зайде на таку сторінку, вона повинна мати відповідне оформлення. І якщо розмістити на ній посилання на головну (наприклад), користувач не втратиться, а просто перейде на іншу сторінку сайту.

Можна прописати інформацію: «Вибачте, але ви не маєте доступу до цієї сторінки. Зв’яжіться, будь ласка, з адміністратором сайту для отримання доступу». Варто зазначити, що 403 код можна використовувати, щоб закрити не лише певні сторінки від індексації, а і весь сайт. Це може бути корисним, наприклад, коли потрібно обмежити доступ користувачам з інших регіонів/країн.

2. Використання HTTP-коду 403 і налаштування robots.txt. Потрібно налаштувати сервер так, щоб він надсилав HTTP-код 403 при спробі доступу до забороненої сторінки і, одночасно, вказати пошуковим системам не сканувати цю сторінку у файлі robots.txt:

  • HTTP-код 403. Слід налаштувати веб-сервер (наприклад, через файл «.htaccess» для Apache) так, щоб він надсилав HTTP-код 403 для забороненої сторінки;
 Order Allow,Deny Deny from all 

де «forbidden page.html» — це шлях до сторінки, яку потрібно заборонити.

  • Файл robots.txt. У файлі robots.txt слід додати наступний рядок для сторінки, яку треба заборонити до сканування.
User-agent: * Disallow: /forbidden page.html

Цей запис вказує пошуковим системам, що сторінку /forbidden page.html слід ігнорувати і не сканувати.

Після виконання цих кроків, коли користувачі спробують отримати доступ до забороненої сторінки, сервер відправить їм HTTP-код 403 і може перенаправити на створену сторінку «forbidden.html». Пошукові системи також ігноруватимуть цю сторінку через налаштування в файлі robots.txt, і вона не буде індексована у їх базі даних.

Важливо! Довідка Google рекомендує не зловживати 403 кодом для управління індексацією. В майбутньому така сторінка може бути видалена з Google пошуку. Коли робот потрапляє на сторінку з 403 кодом, він бачить помилку на стороні користувача, отже, потрібно повернутись пізніше. Після повторних відвідувань і отримання того самого коду відповіді, ці сторінки можуть бути видалені з Google пошуку.

Захист сторінок паролем

Якщо потрібно обмежити доступ до сторінок не лише для пошукових систем, а й для користувачів, можна використовувати захист паролем. Він передбачає, що користувач повинен ввести правильний логін і пароль для отримання доступу до сайту чи окремої сторінки.

Такий метод особливо корисний у випадках:

  1. Коли потрібно захистити адміністративний інтерфейс. Якщо є адміністративна панель або інший розділ сайту, до якого повинен мати доступ тільки обмежена кількість користувачів (наприклад, адміністратори), HTTP-автентифікація допоможе забезпечити доступ лише цим користувачам.
  2. Тестові або розробницькі сайти, сторінки. У разі розробки або тестування сайту можна використовувати HTTP-автентифікацію.
  3. Спеціалізовані послуги або ресурси. Деякі вебсайти надають спеціалізовані послуги або ресурси, до яких повинні мати доступ лише певні групи користувачів. HTTP-автентифікація допомагає забезпечити цей обмежений доступ.
  4. Захист від публічного індексування. Якщо потрібно захистити сторінку або каталог від індексації пошуковими системами, HTTP-автентифікація може бути використана як додатковий шар безпеки після заборони сканування в файлі robots.txt. Цей спосіб забезпечує високий рівень безпеки та конфіденційності для користувачів і надає доступ тільки тим, хто має відповідні облікові дані.

Висновки

Індексація — невід’ємна частина SEO-стратегії, яка допомагає забезпечити належну видимість та релевантність вебсайту для цільової аудиторії. Важливо перевіряти індексацію, аби переконатись, що пошукові системи коректно розуміють вміст, який передається користувачам.

Однак є сторінки, які через низку причин можна закрити від індексації. Для цього використовуються наступні методи:

  • метатег «robots»;
  • X-robots-tag;
  • HTTP-код 403 (Forbidden);
  • захист сторінок паролем.

Вони допомагають ефективно контролювати процес індексації сайту та забезпечують захист конфіденційної інформації.

Почала знайомство з SEO у травні 2022 року, коли вирішила змінити професію. Свій шлях у Netpeak розпочала з інтернатури восени 2022 року. Успішно закінчивши її, отримала job offer. Зараз працюю на посаді Junior SEO.