Представьте себе ситуацию:
site.com/product?utm_source=google&utm_campaign=spring_sale
.site.com/product?utm_source=facebook&share_id=12345
.site.com/product?utm_source=newsletter&utm_medium=email
.Для вас, как для маркетолога, это разные источники трафика. Но для поискового робота (краулера) Яндекс или Google — это, по сути, три разных URL с одним и тем же содержанием. Контент на странице product
идентичен, меняются только параметры в строке запроса.
Именно для решения этой проблемы и была создана директива Clean-param
.
Clean-param
— это специализированная директива файла robots.txt
, которая указывает поисковым системам (в первую очередь, Яндекс), что определенные параметры URL-адреса не влияют на содержание страницы.
Проще говоря, вы говорите роботу Яндекса: "Эй, смотри, параметры utm_source
и session_id
— это просто служебная информация. Игнорируй их, когда сканируешь и индексируешь страницы. Всегда бери за основу основной URL".
Важное уточнение: на момент написания статьи директива Clean-param
поддерживается и полностью понимается только поисковой системой Яндекс. Google официально не поддерживает эту директиву. Для Google следует использовать другие методы борьбы с дубликатами, такие как тег rel="canonical"
.
Синтаксис директивы строгий и выглядит следующим образом:
Clean-param: param_name[¶m_name2¶m_name3...] /path_pattern
Давайте разберем каждую часть:
Clean-param:
— ключевое слово. Пишется именно так, с двоеточием.param_name
— имя параметра, который нужно игнорировать. Это часть, которая идет после знака ?
и до знака =
.
site.com/page?utm_source=fb
имя параметра — utm_source
.[¶m_name2&...]
— необязательный список дополнительных параметров, разделенных амперсандом &
. Можно перечислить несколько.
utm_source&utm_medium&utm_campaign
/path_pattern
— обязательный путь (маска), к которому применяется правило. Это критически важный момент./path_pattern
Путь определяет, к каким разделам сайта применяется правило. Он работает как маска.
/
— правило применяется ко всем страницам сайта.
Clean-param: utm_source /
/blog/
— правило применяется только к страницам, чей путь начинается с /blog/
.
Clean-param: share_id /blog/
/*
— звездочка *
является wildcard (символом подстановки) и означает "любая последовательность символов". Часто используется для охвата всех страниц в глубоких вложенностях.
Clean-param: ref /*
Рассмотрим ситуации из реальной практики.
Самая распространенная ситуация. Мы хотим, чтобы Яндекс игнорировал все стандартные UTM-метки на всех страницам сайта.
Файл robots.txt:
User-agent: Yandex Clean-param: utm_source&utm_medium&utm_campaign&utm_term&utm_content /
Что происходит:
site.com/course/seo?utm_source=google&utm_campaign=promo
utm_source
и utm_campaign
нужно отбросить.site.com/course/seo
На сайте есть система корзины, которая добавляет к URL параметр sid
(session ID). Этот параметр уникален для каждого пользователя и сессии, но содержимое страницы корзины (пустая корзина или с товарами) по сути одно и то же для системы. Мы не хотим, чтобы робот сканировал миллионы уникальных URL корзин.
Файл robots.txt:
User-agent: Yandex Clean-param: sid /cart/
Что происходит:
site.com/cart/?sid=abc123def456
будет преобразована в site.com/cart/
.site.com/product/phone?sid=abc123def456
, так как путь /product/phone
не совпадает с маской /cart/
.У вас есть блог, где используются параметры для сортировки (sort
) и фильтрации по тегам (tag
), но при этом основное содержание поста остается прежним. Также в блогу добавляются UTM-метки.
Файл robots.txt:
User-agent: Yndex Clean-param: sort&tag&utm_source&utm_medium /blog/*
Что происходит:
/blog/
(например, /blog/
, /blog/seo-article
, /blog/category/marketing
).site.com/blog/seo-article?tag=direct&utm_source=yandex&sort=date
робот отбросит ВСЕ параметры и будет работать с site.com/blog/seo-article
.Опытный специалист должен знать не только как использовать инструмент, но и где он может сломаться.
rel="canonical"
).?utm_source=fb&utm_campaign=spring
и ?utm_campaign=spring&utm_source=fb
будут обработаны корректно.Clean-param
для параметров, которые меняют содержание страницы! Это приведет к катастрофе.
?view=mobile
, ?lang=en
, ?category=books
. Их игнорирование приведет к тому, что робот проиндексирует не ту версию страницы.Clean-param
. Найдите техническое решение для канонизации на стороне сервера.robots.txt
на наличие синтаксических ошибок. Одна опечатка может сделать директиву бесполезной.Индексирование -> Анализ параметров в URL
). Это покажет, какие параметры чаще всего сканирует робот Яндекса.rel="canonical"
. Директива Clean-param
— это дополнительный, мощный технический инструмент для помощи роботу./
), если параметр используется только в одном разделе. Указывайте точный путь. Это снижает риск ошибок.Clean-param
вместе с Host
и Sitemap
для полного контроля над сканированием Яндекса.
User-agent: Yandex Host: site.com Clean-param: utm_source&ref / Sitemap: https://site.com/sitemap.xml
Как убедиться, что директива работает?
Индексирование -> Файл robots.txt
.Clean-param
работает, вы увидите это в результатах анализа.Директива Clean-param
— это не просто строчка в техническом файле. Это признак зрелого, профессионального подхода к SEO. Это инструмент для тонкой настройки диалога между вашим сайтом и самым важным посетителем — поисковым роботом.
Правильное применение Clean-param
позволяет:
Потратьте время на её грамотную настройку. Как и многие технические детали в SEO, она не даст мгновенного видимого роста позиций, но станет одним из кирпичиков в прочном фундаменте вашего успешного и хорошо оптимизированного сайта.
Хотя директива действительно является нативной для Яндекса, многие наблюдения показывают, что Googlebot начал учитывать ее как дополнительный сигнал. Однако основная ценность заключается в комплексном подходе: Clean-param для Яндекса + канонические ссылки для всех поисковых систем.
Канонические ссылки — важный инструмент, но они работают на уровне отдельной страницы. Clean-param в robots.txt задает глобальные правила краулинга для всего сайта, предотвращая сам факт сканирования дублирующих URL и экономя краулинговый бюджет.
Риск возникает только при неправильной настройке. Профессиональный подход включает тщательный анализ параметров через Яндекс.Вебмастер и логи сервера перед внедрением, что полностью исключает возможность ошибки.
Синтаксис директивы Clean-param прост и состоит из одной строки в robots.txt. Основная сложность — не в реализации, а в анализе параметров, который является стандартной процедурой SEO-аудита.
Даже на небольших сайтах UTM-метки, параметры сессий и tracking-параметры создают сотни дублей. Очистка этих параметров ускоряет индексацию нового контента и концентрирует ссылочный вес на основных страницах.
Директива Clean-param — это специальное правило в файле robots.txt, которое указывает поисковому роботу Яндекса игнорировать определенные параметры URL при сканировании сайта. Это помогает объединить дублирующиеся страницы с UTM-метками, параметрами сессий и другими служебными параметрами в один canonical URL.
Рекомендуется очищать параметры, которые не влияют на содержание страницы: UTM-метки (utm_source, utm_medium), идентификаторы рекламных кампаний (yclid, gclid, fbclid), параметры сессий (sid, sessionid, phpsessid), а также служебные параметры аналитики и отслеживания.
Синтаксис директивы: Clean-param: param_name[¶m_name2] [Path]. Например, для очистки UTM-меток по всему сайту: "Clean-param: utm_source&utm_medium&utm_campaign /". Для точечной настройки в определенном разделе: "Clean-param: sid /catalog/".
Официально Google не поддерживает директиву Clean-param. Для Google рекомендуется использовать канонические ссылки (rel="canonical") и настройку параметров в Google Search Console. Однако есть наблюдения, что Googlebot учитывает Clean-param как дополнительный сигнал.
Clean-param работает на уровне краулера, предотвращая сканирование дублей, а канонические ссылки указывают поисковику, какая версия страницы является основной уже после скачивания контента. Эти методы дополняют друг друга в комплексной SEO-стратегии.
Для проверки используйте инструменты Яндекс.Вебмастера: "Индексирование" → "Страницы в поиске" → "Параметры в URL". Также анализируйте логи сервера для отслеживания поведения робота и используйте отчеты по дублирующемуся контенту в SEO-сервисах.
Нет, это опасная ошибка. Параметры пагинации (?page=2) и фильтров (?color=red) изменяют содержание страницы. Их очистка приведет к тому, что робот перестанет индексировать важный контент. Для таких случаев используйте отдельные стратегии работы с пагинацией и faceted navigation.