搜索引擎工作原理–預(yù)處理 - 提取文字

時(shí)間：2012-03-29 15:10 次來(lái)源：未知

搜索引擎工作原理 – 預(yù)處理 -- 提取文字

在我們過(guò)去說(shuō)讀的一些關(guān)于SEO優(yōu)化的書中，把“預(yù)處理”也簡(jiǎn)稱為“索引”，因?yàn)樗饕龝r(shí)預(yù)處理最主要的步驟。

搜索蜘蛛抓取原始頁(yè)面，并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫(kù)中的頁(yè)面數(shù)都在數(shù)萬(wàn)億級(jí)別上,用戶輸入搜索詞后，如果靠排名程序?qū)︖@么多頁(yè)面進(jìn)行分析計(jì)算。計(jì)算量太大。不可能在一兩秒內(nèi)返回結(jié)果。因此抓取來(lái)的頁(yè)面必須經(jīng)過(guò)預(yù)處理，存入數(shù)據(jù)庫(kù)，為后面查詢排名做準(zhǔn)備。

爬行和抓取一樣，預(yù)處理也是在后臺(tái)提前完成的，用戶搜索時(shí)感覺(jué)不到這個(gè)過(guò)程。

現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取HTML頁(yè)面中的代碼，除了用戶在瀏覽器可以看到的文字之外，還包含了大量的HTML格式標(biāo)簽、JavaScript程序等無(wú)法用于排名的內(nèi)容，搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序。提取可以用于排名的網(wǎng)頁(yè)頁(yè)面文字內(nèi)容。

除了可見(jiàn)文字之外，搜索引擎也會(huì)提取一些特殊的包含文字信息的代碼，如Mate標(biāo)簽中的文字、如片替代文字、Flash文件的替代文字、鏈接錨文字。

售后服務(wù)
投訴建議

寶雞網(wǎng)站建設(shè)公司

0917 3876090

搜索引擎工作原理–預(yù)處理 - 提取文字