В третьей части серии статей о методах уникализации контента речь пойдет об автоматических методах уникализации и грабберах.
Первые две части можно найти здесь:
Часть 1 (Введение)
Часть 2 (Уникализация контента вручную)
В предыдущей статье из этой серии мы говорили о том, как делать контент уникальным вручную. Все бы хорошо, но это слишком трудозатратно. Конечно времени тратится намного меньше, чем на написание контента с нуля, но все равно уникализировать контент ручками в сколько-нибудь серьезных количествах получается долго и муторно. Естественно возникает идея написать скрипт, который будет делать это автоматом.
Но задача эта непростая. Сразу скажу, что интересны методы, которые меняют текст, делая его уникальным, но при этом текст остается читаемым. Изуродовать текст так, чтобы он был суперуникальным, но при этом представлял из себя полный бред, несложно, но нам это не нужно.
Для чего все это нужно? Как правило, задача автоматической уникализации контента возникает при использовании так называемых грабберов. Граббер - это скрипт, который автоматически заходит на заданные сайты, опять же автоматически тырит заимствует оттуда контент и выкладывает на вашем сайте. В результате получается готовый говносайт сайт с заимствованным контентом. Кроме полноценного сайта, с помощью такой технологии можно также организовать раздел со статьями или новостями на каком-либо сайте.
Грабберов существует достаточно много. Самые примитивные просто берут RSS с других сайтов, более крутые умеют по ссылке из RSS выдирать статью целиком (ведь в RSS чаще всего только анонсы) или парсить сам код страницы и выдирать из него текст статьи для тех сайтов, у которых экспорта в RSS нет вообще. В качестве примера грабберов можно привести NewsGrabber, граббер Вадима Ласто, NewsGrabberJC (это компонент для Joomla).
Понятно что сам по себе граббленый (блин слово то какое:) ) контент абсолютно неуникален и благополучно выкидывается из выдачи поисковыми системами. Однако если такой граббер будет уметь хотя бы немного уникализировать контент, то такой сайт будет иметь шанс.
Как же это делается?
-
Замена по словарю - наиболее очевидный способ. Для использования нужен словарь синонимов. С помощью этого словаря слова заменяются на синонимы. Здесь есть две сложности. Во-первых, нужен хороший словарь. Я видел очень много готовых словарей, но пригодных для использования из них считанные единицы. Большинство словарей представляют собой оцифрованные бумажные словари синонимов. Такие словари практически непригодны, так как не учитывают то многие слова являются синонимами только в некоторых контекстах и их не всегда можно заменять одно на другое. Фактически хороший словарь для граббера должен составляться вручную, что требует очень много времени. Во-вторых, возникают проблемы с всевозможными словоформами (падежи, склонения, времена и прочее). В английском языке (и видимо в большинстве латинских языков) все достаточно просто, там словоформ намного меньше, но в русском это большая проблема. Сделать алгоритм, учитывающий все словоформы в русском языке наверное можно, но это очень сложно. Более простой выход забивать в словарь все словоформы или регулярные выражения, которые эти словоформы учитывают. При этом менять можно только слова, у которых словоформы строятся одинаково. Опять же такой словарь составляется только вручную.
Нужно также заметить, что помимо отдельных слов имеет смысл заменять по словарю устойчивые выражения из нескольких слов.
- Добавление куска текста из заданного набора в начало или конец изменяемого текста. Если тематика всех текстов на сайте одна и та же, то можно написать несколько стандартных вариантов втуплений и заключений и добавлять их к тексту по рандому.
- Добавление текстовых объявлений в начало/конец/середину изменяемого текста. В качестве таких тектовых объявлений может быть текстовая реклама каких-нибудь партнерок по тематике сайта, анонсы других статей и т.п. Если вставляется реклама, то она обязательно должна быть текстовая, javascript (например adsense или бегун) по понятным причинам не подойдет.
- Добавление в заголовок текста и title страницы своих фраз из заданного набора. В прошлой статье я уже писал, что очень важно менять заголовки в тексте и название страницы. Это простой способ изменять их автоматически.
- Исключение ненужной разметки - лишние теги, ссылки, картинки и т.п. - это нужно делать всегда, прежде всего удалять ненужные ссылки. Картинки должны либо скачиваться автоматически на свой сайт, либо удаляться. Ссылок на картинки на сайте, откуда взят текст конечно быть не должно.
- Добавление внутренних тегов в слова - например в исходном тексте было <b>уникализация</b>, а в конечном тексте будет <b>уникали</b><b>зация</b>
- Манипуляция тегами <noindex> - отдельные куски текста по рандому обрамляем тегами <noindex>. В результате эти куски текста не будут индексироваться и Яндекс будет “видеть” не весь текст. Работает только для Яндекса конечно.
- Замена некоторых букв на похожие по написанию латинские - например буквы о, р, с, к и т.д. Все они имеют такие же по написанию латинские буквы. Для пользователя текст будет выглядеть также, а для ПС уже по-другому. Главное не переборщить - не надо менять все буквы, иначе изменятся все ключевые слова и трафика на такую страницу не будет
- Перемешивание слов идущих подряд через запятую - обычно если в тексте идет большое количество слов (от 4) подряд через запятую, то это представляет собой перечисление каких-то понятий и в 99% случаев порядок в таком перечислении не важен. Поэтому такие слова можно перемешивать.
- Перемешивание пунктов в ненумерованных списках - аналогично предыдущему пункту в ненумерованных списках можно перемешивать пункты.
И напоследок несколько слов о способах, которые часто встречаются в различных готовых скриптах, но толку от них никакого. Причина для всех этих способов одна - текст в результате получается абсолютно нечитаемый, а точнее представляет из себя полный бред.
- Автоматическое перемешивание абзацев/предложений - автоматически меняются местами абзацы в тексте или как вариант предложения внутри абзаца. Понятно что получится полный бред.
- Автоматический микс двух статей - берутся две (или еще круче - несколько) статьи и из них составляется новая статься, в которой вперемешку идут абзацы из первой и второй статьи. Все это суперуникально, но читать невозможно.
- Автоперевод - текст автоматически переводится с одного языка на другой. Кто хоть раз пользовался автоматическим переводчиком, тот знает какой бред обычно получается, особенно для русского языка.
Конечно, при наличии фантазии способов можно придумать много, но тех которые здесь описаны вполне достаточно. При комбинации нескольких методов и правильном построении сайта вполне можно добиться нормальной индексации.
На сегодня это все. Продолжение следует…..
——————————————
Simple опубликовал финансовый стриптиз за апрель
——————————————
Михаил, автор блога DesignFreak, предлагает всем блоггерам создание креативных RSS иконок бесплатно
—————————————–
Популярность: 52%



