2020年底, Google發表了一篇有關於新的演算法 SMITH (Siamese Multi-depth Transformer-based Hierarchical) 的研究報告,報告指出,在長篇文章處理方面,SMITH的表現勝過目前所使用的 Google演算法 BERT (Bidirectional Encoder Representations from Transformers),能夠更完整地理解長篇文章的內容。

BERT是什麼?

SMITH和 BERT都是一種「自然語言處理」(Natural Language Processing, NLP)的技術,自然語言處理能夠幫助搜尋引擎以更貼近人類的方式理解網頁內容。

而 BERT是目前 Google最好的自然語言處理技術,它可以雙向理解句子的每一個字,能夠十分完整地理解文句的意義。例如,在理解「台灣人到日本旅遊」這個句子時, BERT不會將其錯誤解釋為「日本人到台灣旅遊」。然而, BERT能夠處理的範圍仍然侷限於篇幅較短的文章或句子,限制是 512個單詞(token)。

SMITH的運作方式

SMITH能夠用 BERT理解字詞和文句的方式,來理解段落,甚至是整篇文章。

SMITH會將文本分隔成它可以處理的大小,接著,它會分別處理每個區塊,理解每個部分的文意,再轉換為文本。此外, SMITH將最大輸入文本長度從 512個單詞增加到 2048個單詞, SMITH能夠分批進行,並在離線時處理資料。

透過上述兩點, SMITH能夠更完整地了解長篇文章的內容,進而能夠做到長文對長文的語意匹配(semantic matching),例如新聞推薦、相關文章推薦等較為困難的工作。

長文語意匹配

研究內容指出,長文對長文的語意匹配較為困難和複雜,也是過往比較少被研究或開發的部分。

困難的原因可以分為兩點:

第一,兩邊的文本較長時,所要配對的文句之間距離就相對較遠,需要對文意有更深的了解。

第二,長文中充滿了句子和段落等內部結構,結構對於人們閱讀文本時的理解非常重要,演算法亦需要理解這些結構的布局。因此, SMITH的研究正好補足了 BERT對長文匹配的不足。

BERT會被取代嗎?

雖然, SMITH在長文處理方面勝過 BERT,但 BERT仍然能夠更加快速、有效率地理解篇幅較短的文章。想想看我們平常搜尋的問題,「台北 天氣」、「最新歌曲」、「附近 美食」,都是一些簡短的提問, BERT可以成功地推薦最相關的內容,因此,它並不會很快地被 SMITH取代,大家可以不用擔心。

結語

SMITH目前雖然並不在 Google的算法中, Google也沒有聲明 SMITH是否會在未來被運用,但根據目前 SMITH在長文理解方面優異的表現,我們可以猜測, SMITH有可能會與 BERT相輔相成,出現在未來的 Google演算法中。

不論演算法怎麼改變,請持續優化您的網站,提供最相關、最有意義的內容,為演算法的調整做好準備,讓 BERT和 SMITH一起看見您的網站價值,提高搜尋排名!

 

延伸閱讀:

Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching

.

Credit Cover Photo by Solen Feyissa on Unsplash

分享此文章
SEO 教學SEO 進階趨勢Google演算法會更新嗎? SMITH演算法:Google最新技術研究報告