Представьте себе ситуацию:
site.com/product?utm_source=google&utm_campaign=spring_salesite.com/product?utm_source=facebook&share_id=12345site.com/product?utm_source=newsletter&utm_medium=emailДля вас, как для маркетолога, это разные источники трафика. Но для поискового робота (краулера) Яндекс или Google — это, по сути, три разных URL с одним и тем же содержанием. Контент на странице product идентичен, меняются только параметры в строке запроса.
Что происходит дальше?
Именно для решения этой проблемы и была создана директива Clean-param.
Clean-param — это специализированная директива файла robots.txt, которая указывает поисковым системам (в первую очередь, Яндекс), что определенные параметры URL-адреса не влияют на содержание страницы.
Проще говоря, вы говорите роботу Яндекса: "Эй, смотри, параметры utm_source и session_id — это просто служебная информация. Игнорируй их, когда сканируешь и индексируешь страницы. Всегда бери за основу основной URL".
Важное уточнение: на момент написания статьи директива Clean-param поддерживается и полностью понимается только поисковой системой Яндекс. Google официально не поддерживает эту директиву. Для Google следует использовать другие методы борьбы с дубликатами, такие как тег rel="canonical".
Синтаксис директивы строгий и выглядит следующим образом:
Clean-param: param_name[&name2&name3...] /path_pattern
Давайте разберем каждую часть:
Clean-param: — ключевое слово. Пишется именно так, с двоеточием.param_name — имя параметра, который нужно игнорировать. Это часть, которая идет после знака ? и до знака =.
site.com/page?utm_source=fb имя параметра — utm_source.[&name2&...] — необязательный список дополнительных параметров, разделенных амперсандом &. Можно перечислить несколько.
utm_source&utm_medium&utm_campaign/path_pattern — обязательный путь (маска), к которому применяется правило. Это критически важный момент./path_patternПуть определяет, к каким разделам сайта применяется правило. Он работает как маска.
/ — правило применяется ко всем страницам сайта.
Clean-param: utm_source //blog/ — правило применяется только к страницам, чей путь начинается с /blog/.
Clean-param: share_id /blog//* — звездочка * является wildcard (символом подстановки) и означает "любая последовательность символов". Часто используется для охвата всех страниц в глубоких вложенностях.
Clean-param: ref /*Рассмотрим ситуации из реальной практики.
Самая распространенная ситуация. Мы хотим, чтобы Яндекс игнорировал все стандартные UTM-метки на всех страницах сайта.
Файл robots.txt:
User-agent: Yandex Clean-param: utm_source&utm_medium&utm_campaign&utm_term&utm_content /
Что происходит:
site.com/course/seo?utm_source=google&utm_campaign=promoutm_source и utm_campaign нужно отбросить.site.com/course/seoНа сайте есть система корзины, которая добавляет к URL параметр sid (session ID). Этот параметр уникален для каждого пользователя и сессии, но содержимое страницы корзины (пустая корзина или с товарами) по сути одно и то же для системы. Мы не хотим, чтобы робот сканировал миллионы уникальных URL корзин.
Файл robots.txt:
User-agent: Yandex Clean-param: sid /cart/
Что происходит:
site.com/cart/?sid=abc123def456 будет преобразована в site.com/cart/.site.com/product/phone?sid=abc123def456, так как путь /product/phone не совпадает с маской /cart/.У вас есть блог, где используются параметры для сортировки (sort) и фильтрации по тегам (tag), но при этом основное содержание поста остается прежним. Также в блогу добавляются UTM-метки.
Файл robots.txt:
User-agent: Yandex Clean-param: sort&tag&utm_source&utm_medium /blog/*
Что происходит:
/blog/ (например, /blog/, /blog/seo-article, /blog/category/marketing).site.com/blog/seo-article?tag=direct&utm_source=yandex&sort=date робот отбросит ВСЕ параметры и будет работать с site.com/blog/seo-article.Опытный специалист должен знать не только как использовать инструмент, но и где он может сломаться.
rel="canonical").?utm_source=fb&utm_campaign=spring и ?utm_campaign=spring&utm_source=fb будут обработаны корректно.Clean-param для параметров, которые меняют содержание страницы! Это приведет к катастрофе.
?view=mobile, ?lang=en, ?category=books. Их игнорирование приведет к тому, что робот проиндексирует не ту версию страницы.Clean-param. Найдите техническое решение для канонизации на стороне сервера.robots.txt на наличие синтаксических ошибок. Одна опечатка может сделать директиву бесполезной.Индексирование -> Анализ параметров в URL). Это покажет, какие параметры чаще всего сканирует робот Яндекса.rel="canonical". Директива Clean-param — это дополнительный, мощный технический инструмент для помощи роботу./), если параметр используется только в одном разделе. Указывайте точный путь. Это снижает риск ошибок.Clean-param вместе с Host и Sitemap для полного контроля над сканированием Яндекса.
User-agent: Yandex Host: site.com Clean-param: utm_source&ref / Sitemap: https://site.com/sitemap.xml
Как убедиться, что директива работает?
Индексирование -> Файл robots.txt.Clean-param работает, вы увидите это в результатах анализа.Директива Clean-param — это не просто строчка в техническом файле. Это признак зрелого, профессионального подхода к SEO. Это инструмент для тонкой настройки диалога между вашим сайтом и самым важным посетителем — поисковым роботом.
Правильное применение Clean-param позволяет:
Потратьте время на её грамотную настройку. Как и многие технические детали в SEO, она не даст мгновенного видимого роста позиций, но станет одним из кирпичиков в прочном фундаменте вашего успешного и хорошо оптимизированного сайта.
Как опытный SEO-специалист с 10-летним стажем, я часто сталкиваюсь с недопониманием и мифами вокруг директивы Clean-param. В этом блоке я разберу самые частые возражения и отвечу на популярные вопросы, чтобы помочь вам принять взвешенное решение.
Контраргумент: да, Google действительно не поддерживает эту директиву, но Яндекс — вторая по значимости поисковая система в рунете. Использование Clean-param позволяет:
Для Google используйте связку canonical + параметры в Search Console.
Контраргумент: это разные инструменты с разным назначением. Canonical указывает предпочтительную версию страницы, а Clean-param предотвращает сканирование дублей. Вместе они работают эффективнее:
Контраргумент: синтаксис Clean-param действительно требует внимательности, но инструменты проверки минимизируют риски:
Ошибка в Clean-param менее критична, чем неправильный canonical.
Контраргумент: проблемы могут быть неочевидны:
Проанализируйте логи и отчет "Параметры URL" в Яндекс.Вебмастере.
Контраргумент: Clean-param влияет только на поисковых роботов, но не на пользователей или системы аналитики:
Директива Clean-param в файле robots.txt указывает поисковому роботу Яндекса, что определенные параметры URL не влияют на содержание страницы. Она помогает бороться с дубликатами контента, возникающими из-за UTM-меток, ID сессий и других служебных параметров.
Нет, Google официально не поддерживает директиву Clean-param. Для управления параметрами URL в Google используйте:
Параметры перечисляются через амперсанд & без пробелов:
Clean-param: utm_source&utm_medium&utm_campaign&ref / Обязательно указывайте путь, к которому применяется правило. Для всего сайта используйте /.
Это приведет к серьезным проблемам с индексацией. Робот будет игнорировать параметр и индексировать только основную версию страницы. Никогда не используйте Clean-param для параметров, которые:
?lang=en)?view=mobile)?sort=price)?region=msk)Используйте следующие методы проверки:
Нет, это не рекомендуется. Параметры пагинации (?page=2, ?p=3) действительно меняют контент страницы. Для управления пагинацией используйте:
Это принципиально разные директивы:
Disallow блокирует доступ, Clean-param — нормализует URL перед сканированием.
Да, рекомендуется регулярно проводить аудит и обновлять директиву. Особенно если:
Раз в квартал анализируйте логи и отчеты Вебмастера.
Директива Clean-param — это мощный инструмент для технической SEO-оптимизации, но требующий взвешенного подхода. Правильное применение позволяет значительно улучшить эффективность краулинга и устранить проблемы с дубликатами в Яндексе. Помните:
Грамотное использование Clean-param — признак профессионального подхода к SEO.