Дубли страниц MODX Evolution, Revolution. Google Панда

Дубли страниц MODX Evolution, Revolution. Google Панда

Сообщение msd777 »

У меня любимый движок это MODX. Я давно уже использую MODX Evolution для очень простых сайтов. Для продвинутых решений очень хорошо подходит CMS MODX Revolution.
Но сейчас у них есть одна проблема, связанная с дублями страниц в поисковой системе Google. И как оказалось это серьёзная неприятность, т.к. алгоритм Гугл – хорошая сволочь и это мягко говоря.
Но я буду писать по Evolution. Все решения подходят и для MODX Revo. Движок генерирует дубли главной страницы вида: mysite.ru/index.php.
И любую чепуху после знака вопрос «?», например, mysite/index.php?бла-бла-бла.

И вот таких URL с любой чепухой после знака вопрос алгоритм Google у меня нашёл много. Точнее он сам набивал эту чепуху и выдавал как дубль домашней страницы сайта. И таких дублей у меня было одно время штук 8. Все они находились в скрытых результатах выдачи Гугл, это если сделать поисковый запрос site:mysite.ru.

Яндекс такие дубли тоже видит, но для него достаточно редиректа на главную и запрета в файле robots.txt. И в Яндекс проблем с дублями не будет.
Последовательность действий. В файл htaccess вставляем такие строки:
Код: Выделить всё
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php
RewriteRule ^index\.php$ / [L,R=301]
RewriteCond %{THE_REQUEST} \?
RewriteRule ^(index\.php)?$ /? [R=301,L]

Тут получим редирект со всех дублей на основной URL – _http://www.mysite.ru/
А в robots.txt такие строки:
Код: Выделить всё
Disallow: /index.php
Disallow: /*?*
Disallow: /*?

Полный вид файлов htaccess и robots.txt как у меня можно посмотреть в теме Как настроить https на MODX Evolution. SSL сертификат

Но главная проблема в виде Google остаётся, его алгоритм просто клал и на редиректы, и особенно на файл robots.txt. У меня лично Гугл после этих действий убрал только половину дублей, а остальные оставил в скрытых результатах, пометив их, что описание недоступно из-за ограничений в файле robots.txt.

И главная неприятность. Как я заметил, пока есть дубли – сайт пессимизируется. Тут думаю участвует пресловутый алгоритм Google Панда. То есть один алгоритм Гугл кладёт на все запреты со стороны вебмастера и упёрто находит и держит в индексе дубли. А другой алгоритм (фильтр Панда) за эти дубли страниц начинает накладывать санкции. Красивая схема. Нет проблем – так поможем их создать. :-D :mad:

Как я это заметил? Когда появились дубли главной страницы, она полностью вылетела из выдачи по общему запросу из двух слов, соответствующему title. Сначала она ранжировалась в поиске Google на второй странице по этому запросу. А потом пропала из видимости вообще. И по этому запросу в выдаче Гугл появилась другая внутренняя страница с моего сайта, где просто в тексте упоминался этот ключ, появилась на 64-м месте (но она не была оптимизирована под этот ключ).

В то же время та же главная страница по более точному вхождению в Тайтл – запросу из трёх слов, ранжировалась на первой строчке ТОП в том же Google. Такая вот скрытая пессимизация. И сразу можно не понять, что на самом деле находишься под санкциями.
И эти санкции за дубли фактически распространяются на весь сайт. Но схема тут такая же, как у Минусинска от Яндекс, где некоторые страницы могут попасть в ТОП, но в то же время большинство других слетает на 20-30 позиций вниз минимум. А в глаза это сразу и не бросается.

И тоже самое у меня получилось в Google. Сначала заметно ранжирование ухудшилось по всему сайту. Потом парочка страниц подросла в выдаче. А вот когда я полностью избавился от дублей, то эффект сразу бросился в глаза.

Например, главная по упоминаемому ранее запросу из двух слов сразу вернулась на вторую страницу выдачи Google. Многие другие страницы сайта, которых ранее не видно было в выдаче, очень заметно подросли в ней. А одна моя страница по своему ключу сразу прыгнула в ТОП6 – тут очень удивительно, так как до этого она была где-то глубоко на дне.

Но тут стоит учесть имеющуюся уже мобильную адаптацию, высокую скорость работы согласно PageSpeed Google, протокол https и микроразметку.

Как удалить дубли домашней страницы окончательно в Google? Необходимо, во-первых, чтобы стояли редиректы на неё со всех дублирующих URL. Во-вторых, в HTML коде главной страницы в мета тегах должен стоять канонический адрес. У меня это <link rel="canonical" href="https://www.mysite.ru/" />

Для этого в MODX Evolution придётся создать TV-параметр и привязать его к шаблону домашней страницы. Тип вывода например Textarea; с пустым значением по умолчанию. И вставить вывод этого TV параметра в html код шаблона главной страницы сайта.

Но у меня была вторая проблема. Когда сайт ещё работал по протоколу http тот же зловредный Гугл нашёл у меня дубль по адресу _https://mysite.ru/m/. Даже без www. Я поражался его умению дубли откапывать и создавать мне этим проблемы.
Последний дубль вообще вёл на специально созданную в CMS MODX Evolution страницу ошибки 404. Но Гугл упёрто не хотел его удалять. А пока есть хоть один дубль – Панда будет пессимизировать весь сайт.

Я вообще удалил этот дублирующий URL через специальную форму в Гугл Вебмастере. Google Search Console: Индекс Google – Удалить URL адреса. Но из-за особенностей Вебмастера пришлось послать запрос на удаление с www, т.е. по адресу _https://www.mysite.ru/m/. Тут зловредный Гугл понимает, но удаляет адрес всего на пять суток.

Но перед этим вместо страницы ошибки 404 с текстом и ссылкой на главную, я создал ссылку-страницу (функция MODX). Вообще по статистике подавляющее большинство посетителей, попавших на страницу 404 не переходят на основной сайт, а просто уходят. И с этой точки зрения гораздо лучше делать сразу перенаправление на домашнюю страницу, где случайный посетитель с высокой вероятностью уже задержится.

То есть в документе, отведённом для страницы 404 в MODX Evolution, в настройках указываем тип документа: веб-ссылка. И в специальном поле вводим URL _https://www.mysite.ru/. И любой посетитель, который попадёт на сайт по несуществующему адресу будет тут же перенаправлен на домашнюю страницу. При этом в её html коде стоит rel="canonical" и никаких дублей не возникнет. И Гугл отстанет.

Кстати после всех этих действий и удаления последнего дубля через Search Console, который вёл на страницу 404, после истечения срока удаления Google не вернул этот дублирующий URL в индекс. И как следствие фильтр Панда не стал пессимизировать сайт.

То есть дубли CMS надо удалять на постоянной основе. Если их временно убрать через Search Console, то Панда снимет санкции с сайта. Но по их возвращении в индекс, а корявые дубли страниц Гугл возвращает очень быстро, фильтр Панда мгновенно накладывает пессимизацию на сайт снова. Тут быстро железка работает, даже смешно становится.

My Name is the brand! :bomb:

За это сообщение автора msd777 поблагодарили: 3
birds, k0ttee, Malpertui
Аватара пользователя
msd777

 
Группа: Супермодераторы
Сообщения: 1748
Зарегистрирован: 03 ноя 2011
Средств на руках: 236.35
Статус: не указан
Спонсор
 
Re: Дубли страниц MODX Evolution, Revolution. Google Панда

Сообщение k0ttee »

В который раз убеждаюсь, что на гумне сметану не сделать. Вот в моем то движке все сделано так, как должно быть и никак иначе.

За это сообщение автора k0ttee поблагодарил:
msd777
Аватара пользователя
k0ttee

 
Группа: Супермодераторы
Сообщения: 5590
Рефералы: 2
Зарегистрирован: 02 май 2014
Средств на руках: 1.85
Статус:
Спонсор
 
Re: Дубли страниц MODX Evolution, Revolution. Google Панда

Сообщение msd777 »

k0ttee писал(а):В который раз убеждаюсь, что на гумне сметану не сделать. Вот в моем то движке все сделано так, как должно быть и никак иначе.

Хвались, хвались своим движком. :-D MODX вполне неплох, но Гугл как на зло долбит его нещадно.

Кстати опять я опростоволосился. Пять дней в Google всё было в ажуре, а сейчас опять все позиции послетали. А дублей то уже нет. Получается незаконченное сео-наблюдение.
Раньше идеально совпадало: удалю кривые дубли через Вебмастер и позиции по многим страницам сразу хорошо вверх.
Сейчас дублей нет и позиции просели назад. Правда остались ещё две страницы по протоколу http, глючный Гугл их никак не уберёт. Поработаю с ними. :-D
Но в итоге вопросов больше чем ответов.
My Name is the brand! :bomb:
Аватара пользователя
msd777

 
Группа: Супермодераторы
Сообщения: 1748
Зарегистрирован: 03 ноя 2011
Средств на руках: 236.35
Статус: не указан
Спонсор
 
Re: Дубли страниц MODX Evolution, Revolution. Google Панда

Сообщение k0ttee »

вполне неплох

Да все движки неплохи, если научиться их готовить. Просто я вместо войны с WP написал код, который полностью удовлетворяет моим потребностям.
Аватара пользователя
k0ttee

 
Группа: Супермодераторы
Сообщения: 5590
Рефералы: 2
Зарегистрирован: 02 май 2014
Средств на руках: 1.85
Статус:
Re: Дубли страниц MODX Evolution, Revolution. Google Панда

Сообщение Malpertui »

Когда начал читать пост, сразу подумал: "Зачем мучиться? Есть Google Search Console. Весь мусор оттуда можно удалить". А когда закончил, сразу мысль: "Блин-а-а-а-а! Надо проверять все свои сайты, может Гугл вернул весь удаленный мусор в индекс!" :D
v-zdor.com – блог о копирайтинге, маркетинге и SEO

За это сообщение автора Malpertui поблагодарил:
msd777
Аватара пользователя
Malpertui

 
Группа: Интересующийся
Сообщения: 92
Зарегистрирован: 14 авг 2016
Средств на руках: 3.06
Статус: SEO
Re: Дубли страниц MODX Evolution, Revolution. Google Панда

Сообщение msd777 »

Malpertui писал(а):Когда начал читать пост, сразу подумал: "Зачем мучиться? Есть Google Search Console. Весь мусор оттуда можно удалить". А когда закончил, сразу мысль: "Блин-а-а-а-а! Надо проверять все свои сайты, может Гугл вернул весь удаленный мусор в индекс!" :D

Да он временно удаляет. И если в консоли стоит - время истекло, то скорее всего вернул уже.
У меня тут был глюк Гугловский, остались пара дублей по http протоколу. Я вчера вернул http версию в Search Console и удалил их вручную. Так Гугл сволочь у меня убрал из индекса и нормальные https страницы вместе с дублями. :mad: Сейчас отменил.
С этих двух страниц у меня картинки хорошо ранжировались, стояли в ТОП3 по своим запросам. А сейчас они вылетели. cray

Ах ты Google. ]:-> И кстати моя главная страница после этих удалений снова взлетела на вторую страницу выдачи Гугл по запросу из двух слов. Я хренею от такой фигни.
My Name is the brand! :bomb:
Аватара пользователя
msd777

 
Группа: Супермодераторы
Сообщения: 1748
Зарегистрирован: 03 ноя 2011
Средств на руках: 236.35
Статус: не указан

Вернуться в Внутренняя оптимизация сайта

 


  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 7



*** заработок на сайте, выплаты еженедельно, в долларах ***
-= покупка и продажа кликов и трафика =-