Google演算法會更新嗎？ SMITH演算法：最新技術研究報告

2020年底， Google發表了一篇有關於新的演算法 SMITH (Siamese Multi-depth Transformer-based Hierarchical) 的研究報告，報告指出，在長篇文章處理方面，SMITH的表現勝過目前所使用的 Google演算法 BERT (Bidirectional Encoder Representations from Transformers)，能夠更完整地理解長篇文章的內容。

文章內容

BERT是什麼？

SMITH和 BERT都是一種「自然語言處理」（Natural Language Processing, NLP）的技術，自然語言處理能夠幫助搜尋引擎以更貼近人類的方式理解網頁內容。

而 BERT是目前 Google最好的自然語言處理技術，它可以雙向理解句子的每一個字，能夠十分完整地理解文句的意義。例如，在理解「台灣人到日本旅遊」這個句子時， BERT不會將其錯誤解釋為「日本人到台灣旅遊」。然而， BERT能夠處理的範圍仍然侷限於篇幅較短的文章或句子，限制是 512個單詞（token）。

SMITH的運作方式

SMITH能夠用 BERT理解字詞和文句的方式，來理解段落，甚至是整篇文章。

SMITH會將文本分隔成它可以處理的大小，接著，它會分別處理每個區塊，理解每個部分的文意，再轉換為文本。此外， SMITH將最大輸入文本長度從 512個單詞增加到 2048個單詞， SMITH能夠分批進行，並在離線時處理資料。

透過上述兩點， SMITH能夠更完整地了解長篇文章的內容，進而能夠做到長文對長文的語意匹配（semantic matching），例如新聞推薦、相關文章推薦等較為困難的工作。

長文語意匹配

研究內容指出，長文對長文的語意匹配較為困難和複雜，也是過往比較少被研究或開發的部分。

困難的原因可以分為兩點：

第一，兩邊的文本較長時，所要配對的文句之間距離就相對較遠，需要對文意有更深的了解。

第二，長文中充滿了句子和段落等內部結構，結構對於人們閱讀文本時的理解非常重要，演算法亦需要理解這些結構的布局。因此， SMITH的研究正好補足了 BERT對長文匹配的不足。

BERT會被取代嗎？

雖然， SMITH在長文處理方面勝過 BERT，但 BERT仍然能夠更加快速、有效率地理解篇幅較短的文章。想想看我們平常搜尋的問題，「台北天氣」、「最新歌曲」、「附近美食」，都是一些簡短的提問， BERT可以成功地推薦最相關的內容，因此，它並不會很快地被 SMITH取代，大家可以不用擔心。

結語

SMITH目前雖然並不在 Google的算法中， Google也沒有聲明 SMITH是否會在未來被運用，但根據目前 SMITH在長文理解方面優異的表現，我們可以猜測， SMITH有可能會與 BERT相輔相成，出現在未來的 Google演算法中。

不論演算法怎麼改變，請持續優化您的網站，提供最相關、最有意義的內容，為演算法的調整做好準備，讓 BERT和 SMITH一起看見您的網站價值，提高搜尋排名！