Лингвистика на службе SEO.

  • Дата:02.03.2012
  • Автор:Татьяна Гаврилина
Лингвистика – наука о языках: их понятийных и структурных аспектах, элементах, особенностях и т.д. Об этом известно, наверное, каждому. Но далеко не все знают о существовании такого понятия, как «компьютерная лингвистика». Что это? Об этом мы и поговорим.


Априори лингвистика всегда считалась гуманитарной наукой, не имеющей четко выраженной связи с математикой. Но научно-технический прогресс доказал обратное, подтверждением чему послужит компьютерная лингвистика. Ее относят к прикладной лингвистике, которая, в свою очередь, отвечает за применение теоретических знаний о языке на практике. Другими словами, прикладная лингвистика ищет практические пути решения теоретических задач, связанных с использованием естественного языка в той или иной сфере.

Особенно интересна компьютерная лингвистика в контексте SEO.
Как ни крути, а в оптимизации и продвижении сайтов без семантического ядра не обойтись. В свою очередь составление семантического ядра, а также проведение сопутствующих работ по поисковому продвижению невозможны без знаний в области лингвистики.
Seo-специалистам наверняка известно, насколько затратной по времени и силам является работа с семантикой. Достижения же компьютерной лингвистики направлены на оптимизацию этой процедуры.
В данном случае имеет место кластеризация – автоматический поиск и выделение семантически похожих между собой групп документов среди фиксированного количества заданных документов. В чем плюсы предлагаемого процесса?

1. Обеспечивается более широкий охват семантики, чем это было при ручной обработке.


2. Есть возможность исключать лишенные смысла и далекие по значению от ключевиков слова.


3. Можно получить критически важные для seo-оптимизации кластеры, которые нам бы не удалось найти вручную.


4. На основе полученных данных обеспечивается классификация и объединение интересов большого количества пользователей.


5. Определяются лендинги (страницы, на которые попадает пользователь из поиска или других источников), подходящие под заданную семантику. При ручном прописывании лендингов и подборе ключевиков «с потолка» многие страницы могут упускаться из виду, а, соответственно, важные ключи – не учитываться.


6. Экономится время на обработку семантического поля, что позволяет переключаться и на другие задачи.


Составление правильного семантического ядра – не единственная сложность в работе seo-оптимизаторов. Важной является также борьба с некачественными текстами. И здесь уместно сказать о коллокациях. Коллокациями принято называть сочетания слов, связанных между собой семантически и синтаксически. Мы активно оперируем ими в повседневном общении, мы даже думаем коллокациями – то есть наполненными смыслом фразами. Если брать, к примеру, коллокации, которые относятся к ключевому слову «телевизор», мы получим следующее: четкое изображение, плоский экран, качество звука. Коллокации выражают заинтересованность человека в чем-то. В данном случае – в качестве телевизора.

Коллокации – это прямая противоположность энграммам – сочетаниям слов, никак не связанных между собой. Как правило, энграммами выступают корявые ключи, под которые затачивается сео-текст: купить телевизор Киев, TV Харьков и т.д. Если количество энграмм в анализируемом тексте зашкаливает – речь идет уже о спаме:


Переспамленные тексты мешают законному продвижению сайтов. На их позиции плохо влияет также «вода» в текстах. Копирайтеры часто грешат, увлекаясь детальным описанием очевидных фактов. Задача оптимизаторов – уметь разграничивать тексты «для людей» и для поисковиков. Здесь стоит остановиться на таком понятии, как статистическая лингвистика. Она изучает количественные характеристики естественного языка, которые отображаются в текстах. Считается, что анализ определенного количества текстового материала позволяет дать характеристику тому или иному языку и его функциональным стилям. Что имеется в виду? Установлено, что для каждого естественного языка или отдельного стиля свойственна своя частота употребления лексических и других языковых единиц: букв, слогов, слов, словосочетаний, частей речи и т.д. Интересно, что в «человеческих» текстах чаще всего встречается местоимение «вы», если это отзывы – то «я».

Чтобы понимать, какие тексты читабельные, а какие – искусственные, то есть лишенные логики, смысла и пользы, во внимание берутся текстовые корпуса общей и узкой тематики, энциклопедические корпуса и др. Сопоставление коллокаций из правильных текстов и текстов, подозреваемых в переспаме, позволяет увидеть реальную картину: количество продающих, естественных и др. коллокаций:

Полученные результаты, то есть – частотность употребления тех или иных слов, даст нам понимание – этот текст для людей или для роботов?
Следует сказать, что ТОП самых частотных слов для «человеческих» текстов составляют предлоги, союзы, частицы, местоимения. И если в этот список вдруг попадет, к примеру, то же слово «телевизор», волей-неволей задумаешься о спамности текста.

Для естественных текстов существуют свои качественные и количественные характеристики, которые практически одинаковы по отношению к любому нормальному тексту. Сюда относится средняя длина слов и предложений, их разброс по тексту, расстояние между словами, которые чаще всего встречаются, разброс между ключевиками, распределение знаков препинания, употребление частей речи и т.д. К слову говоря, разнообразие частей речи позволяет определить, к какому жанру принадлежит текст, если он, разумеется, нормальный.

Столь придирчивый анализ сео-текстов дает возможность выявить также тексты, написанные с помощью синонимайзеров. Для них характерны неестественные биграммы (сочетание 2-х слов), к примеру, «созерцать телевизор» вместо адекватного «смотреть телевизор».

Таким образом, можем сказать: анализ текста – довольно кропотливая работа. И для максимального правдивого анализа понадобятся действенные инструменты, над разработкой которых трудятся как IT-специалисты, так и лингвисты.