GET-параметры в URL

Директива Clean-param в файле robots.txt помогает указать поисковым роботам (Яндекс, Google), какие GET-параметры следует игнорировать при сканировании
GET-параметры в URL: как найти и обезвредить дубли страниц

GET-параметры в URL: как найти и обезвредить дубли страниц, убивающие ваше SEO

GET-параметры — это пары "ключ-значение", добавляемые в URL после знака вопроса `?` и разделенные амперсандом `&`. Они передают серверу дополнительные данные для обработки запроса. Проблема для SEO возникает, когда один и тот же контент становится доступен по разным URL из-за этих параметров, создавая дублирующийся контент. Поисковые системы (ПС) вынуждены выбирать, какая версия URL является канонической, что рассеивает вес ссылок и ухудшает ранжирование.

1. Что такое GET-параметры и зачем они нужны?

GET-параметры — это часть URL-адреса, следующая после символа `?`. Они используются для передачи данных на сервер методом HTTP GET. Их структура проста:

https://example.com/catalog/products?category=shoes&size=42&color=black
  • `?` — разделитель, начало строки параметров
  • `category=shoes` — первый параметр, где `category` — ключ, `shoes` — значение
  • `&` — разделитель между параметрами
  • `size=42`, `color=black` — последующие параметры

Законные и полезные цели GET-параметров:

  • Фильтрация и сортировка: `?sort=price_asc`, `?brand=nike&max-price=100`
  • Поиск на сайте: `?q=query_string`
  • Параметры сессий и отслеживания (UTM): `?sessionid=abc123`, `?utm_source=newsletter`
  • Пагинация: `?page=2`
  • A/B тестирование: `?variant=b`

Проблема начинается тогда, когда страница с параметрами и без них (или с разными их наборами) выдает один и тот же или очень похожий контент.

2. Почему GET-параметры создают дубли? Проблема для SEO

Представьте, у вас есть страница каталога: example.com/catalog/shoes.

Затем пользователь применяет фильтр по размеру, и URL меняется на: example.com/catalog/shoes?size=42.

Если при этом основное содержимое страницы (заголовок H1, список товаров, текст) остается практически идентичным, а меняется лишь небольшая часть (например, убрались товары не 42-го размера), для поискового робота это две разные страницы с очень похожим контентом.

Чем это опасно для SEO:

  1. Рассеивание сканирующего бюджета: робот Google тратит ограниченное время и ресурсы на обход вашего сайта. Вместо того чтобы индексировать 100 уникальных страниц, он может потратить силы на 500 версий одних и тех же страниц с разными параметрами.
  2. Размытие ссылочного веса (PageRank): если на вашу страницу `shoes` ведут внешние ссылки, а кто-то поделился ссылкой на `shoes?size=42`, то ссылочный вес распределится между этими двумя URL. Вместо концентрации на одном каноническом URL вы дробите свою силу.
  3. Сложность отслеживания позиций: по какому URL ранжируется страница? По основному? По версии с параметром? ПС может выбрать свою любимую версию, и вы не будете видеть точной статистики в Analytics и Search Console.
  4. Риск санкций за дублированный контент: прямые ручные санкции за дубли сегодня редки, но ПС просто не будет показывать в выдаче "неканоническую" версию. Ваша страница может выпасть из индекса или не попасть в него вовсе.

3. Типичные сценарии появления дублей через параметры

  • Сессионные идентификаторы (`?sid=..., ?phpsessid=...`): самый опасный и бесполезный дубль. Каждому пользователю (и даже роботу!) присваивается уникальный ID, создавая бесконечное число дублей.
  • Параметры сортировки (`?order=price`, ?`order=name`): страница одна, а URL — разные.
  • Параметры фильтрации (`?color=red`, `?color=blue&size=M`): особенно если при применении одного фильтра контент меняется незначительно.
  • Параметры отслеживания (UTM, `?ref=...`, `?source=...`): очень частая проблема. Пользователь заходит по рекламной ссылке `site.com/?utm_source=facebook`, сайт сохраняет этот URL в аналитике, и робот может его проиндексировать.
  • Параметры пагинации (`?page=2`, `?p=2`): страницы 2,3,4... часто являются дублями друг друга по структуре, если на них нет уникального описания.
  • Параметры для мобильных версий (`?mobile=1`): в эпоху адаптивного дизайна это анахронизм, но все еще встречается.

4. Как поисковые системы обрабатывают дубли?

Google стал умнее, но не всесилен. Он использует несколько стратегий:

  1. Выбор "канонической" версии: робот анализирует контент и внутренние ссылки и пытается сам определить, какая версия URL является главной. Он объединяет сигналы с разных URL и показывает в выдаче ту, которую посчитал основной.
  2. Учет директив веб-мастера: самый важный инструмент. Google приоритизирует явно указанные вами инструкции в `rel="canonical"`, robots.txt и meta-тегах.
  3. Аггрегация ссылочного веса: старается объединить вес ссылок, ведущих на разные URL-дубли, в пользу канонической страницы.

Но надеяться на "автоопределение" — большая ошибка. Вы должны явно указать ПС, как обращаться с параметрами.

5. Пошаговый план борьбы с дублями: инструкция на 2025 год

Вот методология, которую я использую на проектах.

Шаг 1: выявление и инвентаризация

Соберите все возможные URL с параметрами.

  • Google Search Console: отчет "Coverage" (Покрытие). Ищите ошибки "Duplicate without user-selected canonical" (Дубль без выбранного пользователем канонического URL). Отчет "URL Parameters" (Параметры URL) — сейчас он скрыт в старом интерфейсе, но если он у вас был настроен, он бесценен.
  • Логи сервера: прямой источник истины. Вы увидите, какие URL с параметрами сканируют роботы.
  • Краулеры (Screaming Frog, Netpeak Spider): настройте на игнорирование параметров в настройках, и он покажет вам все URL, которые он посчитал дублями. В Screaming Frog: "Configuration > Spider > Ignore Parameters".
  • Аналитика поведения: посмотрите в Google Analytics, с каких URL с параметрами приходит трафик.

Шаг 2: анализ и классификация

Разделите все найденные параметры на три категории:

  1. Критические (Сессионные, UTM): не меняют контент, только служебная информация. Действие: полная блокировка индексации.
  2. Важные для пользователя, но создающие дубли (Сортировка, Фильтры): меняют отображение контента, но основная суть страницы та же. Действие: указание канонической версии на страницу без параметров (или с основным набором).
  3. Создающие уникальный контент (Глубокая фильтрация, Поиск): если страница с параметром `?category=shoes` кардинально отличается от главной страницы каталога, ее можно оставить для индексации, но обязательно прописать ей собственный канонический URL и уникальные мета-теги.

Шаг 3: реализация технических решений

Решение №1: Тег `rel="canonical"` (самый главный инструмент)

На странице-дубле (`example.com/catalog/shoes?size=42`) в секции `` разместите ссылку на основную (каноническую) версию.

<link rel="canonical" href="https://example.com/catalog/shoes" />

Это сообщает ПС: "Эта страница — вариант вот этой основной. Учитывайте все ссылки и ранжируйте именно основную версию".

  • Для пагинации: для страниц `?page=2`, `?page=3` каноническая ссылка должна вести на саму себя. Это не дубли главной страницы, это уникальные страницы списков. Но для страниц 2,3,N можно также добавить `rel="prev"` и `rel="next"`.

Решение №2: директива `noindex`

Для страниц, которые точно не должны попадать в индекс (например, результаты внутреннего поиска, корзина), используйте meta-тег роботов.

<meta name="robots" content="noindex" />

Важно: нельзя использовать `noindex` вместе с `canonical` на одной странице. `Canonical` — это мягкая рекомендация, `noindex` — жесткая команда. Команда `noindex` имеет приоритет, но такая комбинация противоречива и не рекомендуется.

Решение №3: файл `robots.txt`

Используйте для полного запрета сканирования URL с определенными параметрами. Это защищает от расхода сканирующего бюджета.

User-agent: *
Disallow: /*?sort=
Disallow: /*?utm_
Disallow: /*?sessionid=
Disallow: /*?*&sessionid= # на случай, если параметр не первый

Внимание! запрет в `robots.txt` не позволяет роботу сканировать URL, но он может проиндексировать его, если найдет ссылку из другого места. Поэтому для полной гарантии комбинируйте с `noindex` (но для `noindex` робот должен иметь доступ к странице, чтобы увидеть тег). Идеальный вариант для "опасных" параметров — закрыть их от сканирования в `robots.txt` И прописать `canonical` на основных страницах.

Решение №4: перенаправление 301

В некоторых случаях есть смысл сделать 301-редирект со страницы с параметром на страницу без. Например, если старый URL с параметром был проиндексирован и на него есть ссылки, но по своей сути он дублирует главную. Это на 100% объединяет ссылочный вес.

Решение №5: управление через Google Search Console (устаревший, но может работать)

В старом интерфейсе GSC был раздел "Параметры URL", где можно было указать Google, как обрабатывать разные типы параметров. Сейчас этот функционал не рекомендуется к использованию, так как Google заявляет, что хорошо справляется с автоопределением. Полагайтесь на код, а не на настройки в GSC.

Шаг 4: работа со внутренними ссылками

Убедитесь, что в самой структуре сайта (меню, хлебные крошки, блоки "Похожие товары") вы ссылаетесь только на канонические URL без лишних параметров. Не заставляйте робота ползти по ссылке `site.com/catalog/?from=menu`.

6. Чек-лист: профилактика и регулярный аудит

Профилактика:

  • При разработке сайта сразу определите, какие параметры будут меняют контент, а какие — нет.
  • Для всех служебных параметров (UTM, сессии) по умолчанию настройте `rel="canonical".
  • Избегайте использования GET-параметров для идентификации основных страниц. Используйте ЧПУ (Человекопонятные URL): не `site.com?category=1`, а `site.com/catalog/shoes/`.
  • Настройте корректную обработку UTM-меток в системах аналитики, чтобы они не влияли на отслеживание URL в отчетах.

Регулярный аудит (раз в 3-6 месяцев):

  • Запустите краулер (Screaming Frog) с игнорированием нужных параметров и проверьте отчет по дублям.
  • Изучите отчет "Coverage" в Google Search Console.
  • Просмотрите логи сервера на предмет сканирования "странных" URL роботами.
  • Проверьте, нет ли в индексе Google (через оператор `site:example.com ?utm_`) проиндексированных служебных URL.

Заключение

Проблема дублей из-за GET-параметров — это не катастрофа, а рутинная техническая работа. Ключ к успеху — в системном подходе: выявить, классифицировать, применить корректное техническое решение и контролировать.

Помните: ваша цель — не просто убрать дубли из индекса, а направить весь вес и все сигналы на одну, сильную, каноническую версию каждой страницы. Это очищает сканирующий бюджет, укрепляет SEO-профиль и дает вам четкую картину для дальнейшей работы над продвижением.

Удачи в работе! Если остались вопросы — вы знаете, где меня найти.

Возражения и FAQ по GET-параметрам и дублям страниц

Возражения и FAQ по GET-параметрам и дублям страниц

Распространенные возражения и их развенчание

«У нас небольшой сайт, это не проблема»
Реальность: даже на сайте из 50 страниц дубли могут отнимать до 80% сканирующего бюджета. робот тратит время на служебные страницы вместо индексации полезного контента.
«Google умный, сам разберется»
Реальность: алгоритмы действительно улучшились, но полагаться на автоопределение — рисковать. в 40% случаев Google выбирает не ту версию, которую хочет владелец сайта.
«Это техническая сложность, не стоит времени»
Реальность: настройка canonical-тегов и robots.txt занимает 2-3 часа, а эффект проявляется уже через 2-4 недели в виде роста позиций и улучшения индексации.
«Параметры нужны для аналитики»
Реальность: UTM-метки и служебные параметры должны обрабатываться на уровне аналитических систем, а не в основном индексе сайта.
«У нас уникальный контент для каждого параметра»
Реальность: если страницы с параметрами действительно уникальны, им нужны отдельные meta-теги, заголовки и канонические ссылки на самих себя.

Часто задаваемые вопросы (FAQ)

❓ Влияют ли GET-параметры на ранжирование сайта?
Ответ: прямого негативного влияния нет, но косвенные последствия серьезны. дубли страниц размывают ссылочный вес, ухудшают сканирующий бюджет и мешают поисковым системам определить релевантность страницы. в результате основная страница может терять до 60% потенциала ранжирования.
❓ Как проверить, есть ли на сайте дубли из-за параметров?
Ответ: используйте комбинацию методов:
  • Google Search Console → отчет "Покрытие" → поиск ошибок "Дубль"
  • Screaming Frog → анализ игнорирования параметров
  • Site:запрос в Google → site:yourdomain.com ?utm_
  • анализ логов сервера → просмотр сканирования роботами
❓ Что важнее: canonical или noindex?
Ответ: для страниц-дублей всегда используйте canonical, который указывает на основную версию. noindex применяйте только для служебных страниц, которые не должны попадать в индекс (результаты поиска, корзины). canonical сохраняет ссылочный вес, noindex — полностью исключает из индекса.
❓ Нужно ли настраивать ЧПУ, если есть параметры?
Ответ: да, человеко-понятные URL всегда приоритетны. структура site.com/catalog/shoes/nike/ лучше, чем site.com/catalog?category=shoes&brand=nike. ЧПУ улучшают кликабельность в выдаче и упрощают навигацию.
❓ Как обрабатывать пагинацию с параметрами?
Ответ: для страниц пагинации (?page=2, ?page=3) устанавливайте canonical на каждую страницу отдельно и добавляйте rel="prev"/"next" для указания связи между страницами. это помогает роботам понять структуру без потери сканирующего бюджета.
❓ Что делать с UTM-метками и ссылками из соцсетей?
Ответ: настройте 301-редирект или canonical на основную версию. в Google Analytics используйте настройку исключения параметров, чтобы метки не влияли на учет страниц. современные CMS позволяют обрабатывать UTM без создания дублей.
❓ Как быстро поисковики отреагируют на исправления?
Ответ: первые изменения появляются через 2-4 недели после корректной настройки. полное обновление индекса занимает 1-2 месяца в зависимости от частоты обхода сайта роботами. результат — рост видимости на 15-40% при правильной реализации.
❓ Можно ли полностью запретить параметры в robots.txt?
Ответ: да, но с осторожностью. запрещайте только служебные параметры (сессии, UTM), оставляя функциональные (фильтры, сортировка). помните: запрет в robots.txt не гарантирует исключение из индекса, только из сканирования.

Профессиональная SEO-оптимизация включает не только работу с контентом, но и техническую корректность сайта.
устранение дублей — один из самых эффективных способов улучшить видимость без создания нового контента.

Полный блэк-лист GET-параметров для SEO

Полный блэк-лист GET-параметров для исключения из индексирования

Этот список содержит GET-параметры, которые следует исключить из индексации поисковыми системами, чтобы предотвратить создание дублей страниц и улучшить SEO-показатели сайта.

Аналитика и отслеживание

Параметры, используемые системами аналитики и отслеживания поведения пользователей.

utm_source
Источник трафика
utm_medium
Тип канала
utm_campaign
Название кампании
utm_term
Ключевые слова
utm_content
Идентификатор контента
utm_referer
Реферер кампании
utm_ya_campaign
Яндекс.Директ кампания
yabizcmpgn
Яндекс.Бизнес кампания
utm_candidate
Кандидат в кампании
gclid
Google Click Identifier
yclid
Yandex Click Identifier
yclod
Yandex Click Order
yclad
Yandex Click Ad
fbclid
Facebook Click Identifier
msclkid
Microsoft Click Identifier
twclid
Twitter Click Identifier
li_fat_id
LinkedIn Click Identifier
mc_cid
MailChimp Campaign ID
mc_eid
MailChimp Email ID
_hsenc
HubSpot Encoding
_hsmi
HubSpot Marketing ID
_ke
Klaviyo Email ID
trk_contact
HubSpot Tracking Contact
trk_msg
HubSpot Tracking Message
trk_module
HubSpot Tracking Module
trk_sid
HubSpot Tracking Section
icid
Internal Click ID
pk_source
Piwik Source
pk_medium
Piwik Medium
pk_campaign
Piwik Campaign
pk_keyword
Piwik Keyword
pk_content
Piwik Content
mtm_source
Matomo Source
mtm_medium
Matomo Medium
mtm_campaign
Matomo Campaign
mtm_keyword
Matomo Keyword
mtm_content
Matomo Content

Сессионные параметры

Параметры, связанные с сессиями пользователей и временными идентификаторами.

PHPSESSID
PHP Session ID
sid
Session ID
sessionid
Session Identifier
jsessionid
Java Session ID
aspsessionid
ASP Session ID
cfid
ColdFusion ID
cftoken
ColdFusion Token
sessid
Session Identifier
viewid
View ID
userid
User ID
uid
User ID
token
Access Token
auth
Authentication Token
login
Login Identifier
logout
Logout Flag
remember
Remember Me Flag

Социальные сети и рефералы

Параметры, связанные с социальными сетями и реферальными ссылками.

ref
Referral Source
referrer
Referrer URL
referer
Referrer (alternate spelling)
source
Traffic Source
fb_ref
Facebook Referral
fb_action_ids
Facebook Action IDs
fb_action_types
Facebook Action Types
fb_source
Facebook Source
igshid
Instagram Share ID
igsh
Instagram Share
tt_medium
TikTok Medium
tt_source
TikTok Source
tt_campaign
TikTok Campaign
tt_content
TikTok Content
li
LinkedIn Identifier
trk
LinkedIn Tracking
vd_source
VK Source
from
Source Platform
share
Share Identifier
shared
Shared Content
social_source
Social Media Source

Фильтрация и сортировка

Параметры, используемые для фильтрации, сортировки и поиска контента.

sort
Sort Order
order
Sort Order
filter
Filter Criteria
q
Search Query
search
Search Term
query
Search Query
keyword
Search Keyword
category
Category Filter
category_id
Category ID
tag
Tag Filter
price
Price Filter
color
Color Filter
size
Size Filter
brand
Brand Filter
characteristics
Product Characteristics Filter
limit
Results Limit
per_page
Items Per Page
page
Page Number
offset
Results Offset
view
View Type
display
Display Mode
layout
Page Layout

Технические параметры

Параметры, связанные с технической реализацией и функциональностью сайта.

amp
AMP Version
ajax
AJAX Request
format
Response Format
output
Output Format
callback
JSONP Callback
debug
Debug Mode
test
Test Mode
preview
Preview Mode
version
API Version
v
Version
api_key
API Key
access_token
Access Token
device
Device Type
platform
Platform Type
browser
Browser Type
os
Operating System
mobile
Mobile Version
responsive
Responsive Design
print
Print Version
pdf
PDF Version

Рекламные параметры

Параметры, связанные с рекламными кампаниями и отслеживанием эффективности.

adgroup
Ad Group
adgroupid
Ad Group ID
adid
Ad ID
campaign
Campaign Name
campaignid
Campaign ID
creative
Creative ID
placement
Ad Placement
target
Target Audience
network
Advertising Network
position
Ad Position
block
Ad Block
retargeting
Retargeting Flag
remarketing
Remarketing Flag
affiliate
Affiliate ID
aff_id
Affiliate ID
affiliate_id
Affiliate ID
partner
Partner ID
partner_id
Partner ID

Внутренние параметры

Параметры, используемые для внутренней функциональности сайта.

cm_id
Content Management ID
type
Content Type
etext
Encoded Text
sbclid
Sub Click ID
icliyd
Internal Click ID
cx
Context Parameter
iclyd
Internal Click ID
icllcd
Internal Click Location
yklld
Yandex Click Location
ykild
Yandex Click ID
ykilt
Yandex Click Time
ykilp
Yandex Click Position
yqilp
Yandex Query Position
yqipl
Yandex Query Position
yqpil
Yandex Query Position
yaqpil
Yandex Advanced Query
yclud
Yandex Click User Data
ybqpil
Yandex Basic Query
ypppil
Yandex Page Position
clckid
Click ID
yqppel
Yandex Query Position
yprqee
Yandex Priority Query
ypppel
Yandex Page Position
yycleed
Yandex Click Event
ycllcd
Yandex Click Location
ylecd
Yandex Location Event
yhyd
Yandex History Data
yiclyd
Yandex Internal Click
erid
Error ID
added
Added Date/Time
site
Site Identifier
ychyd
Yandex Cache Data
ctime
Creation Time
quot
Quotation Identifier
loadme
Load Mechanism
hl
Highlight Parameter
region
Region Code
region_name
Region Name
gtm_latency
GTM Latency
ybaip
Yandex Basic IP

Пример реализации блокировки в robots.txt

Для блокировки сканирования URL с указанными параметрами добавьте следующие директивы в файл robots.txt:

User-agent: *
Disallow: /*?utm_*
Disallow: /*?gclid=*
Disallow: /*?yclid=*
Disallow: /*?fbclid=*
Disallow: /*?PHPSESSID=*
Disallow: /*?sid=*
Disallow: /*?sessionid=*
Disallow: /*?ref=*
Disallow: /*?sort=*
Disallow: /*?order=*
Disallow: /*?filter=*
Disallow: /*?characteristics=*
# Добавьте другие параметры по аналогии

Для более точного контроля используйте тег canonical на страницах или мета-тег noindex для полного исключения из индексации.