По словам разработчиков, он превосходит BERT в распознавании документов.
Google опубликовал исследовательский документ о своем новом поисковом алгоритме, получившем название SMITH. Это модель для распознавания целых документов, он превосходит BERT в понимании длинных запросов или объемных документов. Каждый кусочек текста может быть воспринят как часть большего, в отличие от BERT, который анализирует лишь сами отрывки текста.
Официального заявления о том, что SMITH используется в Поиске от Google пока не поступало. Однако, в том же документе критикуется BERT и вся технология алгоритмов-трансформеров, ссылаясь на их ограниченность в емкости текста.
SMITH направлен на предугадывание не отдельных слов в контексте, а на целые блоки, содержащиеся в документе. Таким образом, у него значительно больший потенциал для работы с объемными поисковыми запросами и документами. При этом, важно понимать, SMITH не вытесняет из работы BERT, а дополняет его, когда дело касается большого объема текста.
Источник