Google SMITH - новый алгоритм для обработки длинных текстов

  • Дата:16.02.2021
  • Автор: Команда TurboSEO

Новый алгоритм обработки длинного текста: Google SMITH

Создан модернизированный алгоритм, который обрабатывает длинные тексты по объемным запросам. Новая усовершенстованная система может способствовать оптимизации сайта.

Если говорить о качестве ответа, то SMITH по многим параметрам лучше, чем BERT. Главный плюс в том, что он может «понимать» смысл текстовых фрагментов. У предыдущего алгоритма смысл определяется по отдельным частям текстов.

Исследования с выборками показали, что система SMITH более усовершенствована, нежели модели для обработки длинных текстов: SMASH, HAN, а также BERT. Усовершенствованная система работает с намного более длинными предложениями. Компания еще официально не подтвердила использование алгоритма в целях обработки запросов поиска.

Особенности работы SMITH

Обработка текста проводится в два этапа. Сначала текст разбивается на отдельные блоки. В них может быть один или несколько предложений. Далее в каждом блоке определяется соответствие поискового запроса.

Второй уровень характеризуется обработкой последовательности блоков. Регистрируются соответствия запросу в документе. Система определяет, насколько предложения соответствуют запросам в пределах блока. Далее определяется, насколько весь текст соответствует заявленным требованиям.

Для разбивки текста на фрагменты, алгоритм использует метод под названием “greedy sentence filling”. Суть в том, что в один блок помещаются естественные предложения. Алгоритм создает блоки конкретной длины. Сами предложения блоками не разрываются. Если предложение не поместилось в блок, то его переносят в следующий.

Чем SMITH отличается от BERT

Все зависит от объема рабочей единицы и вариантов обучения алгоритмов. BERT это алгоритм, прогнозирующий слова, скрытые в предложениях. SMITH это система, которая кардинально лучше. Она обучена делать прогнозы скрытых слов в смысловых блоках и предложениях. Всегда учитывается, каким будет очередной текстовый фрагмент.

Для SMITH используется перечень материалов, поставляемых Википедией, а также ACL Anthology Network.

Трансформация текста в блоки с помощью SMITH

Алгоритм сокращает предложение, если оно длиннее блока. Таким образом, предложение помещается в один блок. На входе документ превращается в последовательность блоков предложений: {S1,S2,…,SLd}. Блок «S» представляется, как последовательность слов: {Wi1,Wi2,…,WiLs}. Длина документа по числу блоков указывается «Ld». А длина блока по количеству слов — «Ls».

Затем определяется соответствие запросу на уровне блоков, предложений и текста в целом. Берется во внимание число вхождений, а также позиция вхождения по каждому изучаемому фрагменту. Если обрабатывается блок, то изучается позиция вхождения в конкретном предложении и позиция этого предложения во всем блоке.

Новый алгоритм от Гугл SMITH занимается обработкой текста на разных уровнях. Изучается смысл всего документа, а не только отдельные фразы и предложения.

Что будет дальше со SMITH

Система будет и дальше совершенствоваться. Компания Гугл пока держит в тайне планы по использованию системы в поиске. Нет достоверной информации о том, как это отразится на формировании поисковой выдачи и продвижении интернет-магазинов. Скорее всего, алгоритм пока работать на небольшом количестве поисковых запросов. Некоторые эксперты считают, что Google собирается глобально трансформировать поисковые запросы. В последнее время пользовательские запросы стали более длинными и развернутыми.

Возможно, алгоритм будет использован для улучшения качества тематического контента. Он будет изучать, что просматривал человек и на основе этой информации делать правильные прогнозы. Новый алгоритм может отразиться на оптимальной стоимости продвижения магазинов и сайтов.