Google SMITH - новый алгоритм для обработки длинных текстов
- Дата:16.02.2021
- Автор: Команда TurboSEO
Создан модернизированный алгоритм, который обрабатывает длинные тексты по объемным запросам. Новая усовершенстованная система может способствовать оптимизации сайта.
Если говорить о качестве ответа, то SMITH по многим параметрам лучше, чем BERT. Главный плюс в том, что он может «понимать» смысл текстовых фрагментов. У предыдущего алгоритма смысл определяется по отдельным частям текстов.
Исследования с выборками показали, что система SMITH более усовершенствована, нежели модели для обработки длинных текстов: SMASH, HAN, а также BERT. Усовершенствованная система работает с намного более длинными предложениями. Компания еще официально не подтвердила использование алгоритма в целях обработки запросов поиска.
Особенности работы SMITH
Обработка текста проводится в два этапа. Сначала текст разбивается на отдельные блоки. В них может быть один или несколько предложений. Далее в каждом блоке определяется соответствие поискового запроса.
Второй уровень характеризуется обработкой последовательности блоков. Регистрируются соответствия запросу в документе. Система определяет, насколько предложения соответствуют запросам в пределах блока. Далее определяется, насколько весь текст соответствует заявленным требованиям.
Для разбивки текста на фрагменты, алгоритм использует метод под названием “greedy sentence filling”. Суть в том, что в один блок помещаются естественные предложения. Алгоритм создает блоки конкретной длины. Сами предложения блоками не разрываются. Если предложение не поместилось в блок, то его переносят в следующий.
Чем SMITH отличается от BERT
Все зависит от объема рабочей единицы и вариантов обучения алгоритмов. BERT это алгоритм, прогнозирующий слова, скрытые в предложениях. SMITH это система, которая кардинально лучше. Она обучена делать прогнозы скрытых слов в смысловых блоках и предложениях. Всегда учитывается, каким будет очередной текстовый фрагмент.
Для SMITH используется перечень материалов, поставляемых Википедией, а также ACL Anthology Network.
Трансформация текста в блоки с помощью SMITH
Алгоритм сокращает предложение, если оно длиннее блока. Таким образом, предложение помещается в один блок. На входе документ превращается в последовательность блоков предложений: {S1,S2,…,SLd}. Блок «S» представляется, как последовательность слов: {Wi1,Wi2,…,WiLs}. Длина документа по числу блоков указывается «Ld». А длина блока по количеству слов — «Ls».
Затем определяется соответствие запросу на уровне блоков, предложений и текста в целом. Берется во внимание число вхождений, а также позиция вхождения по каждому изучаемому фрагменту. Если обрабатывается блок, то изучается позиция вхождения в конкретном предложении и позиция этого предложения во всем блоке.
Новый алгоритм от Гугл SMITH занимается обработкой текста на разных уровнях. Изучается смысл всего документа, а не только отдельные фразы и предложения.
Что будет дальше со SMITH
Система будет и дальше совершенствоваться. Компания Гугл пока держит в тайне планы по использованию системы в поиске. Нет достоверной информации о том, как это отразится на формировании поисковой выдачи и продвижении интернет-магазинов. Скорее всего, алгоритм пока работать на небольшом количестве поисковых запросов. Некоторые эксперты считают, что Google собирается глобально трансформировать поисковые запросы. В последнее время пользовательские запросы стали более длинными и развернутыми.
Возможно, алгоритм будет использован для улучшения качества тематического контента. Он будет изучать, что просматривал человек и на основе этой информации делать правильные прогнозы. Новый алгоритм может отразиться на оптимальной стоимости продвижения магазинов и сайтов.