<i id="mhy79"><optgroup id="mhy79"></optgroup></i>

      1. 客服
        咨詢
      2. 公告3

        最新資訊 寶雞網(wǎng)絡(luò)公司最新新聞動(dòng)態(tài)
      3. 關(guān)注

        關(guān)于時(shí)代 更多優(yōu)惠活動(dòng)等您來(lái)拿!
        寶雞網(wǎng)絡(luò)公司微信 掃一掃關(guān)注——微信公眾號(hào) 時(shí)代手機(jī)瀏覽 掃一掃立即手機(jī)瀏覽
      4. 關(guān)閉
      5. 頂部
      6. 搜索引擎工作原理–預(yù)處理 - 提取文字

        時(shí)間:2012-03-29 15:10 來(lái)源:未知
        搜索引擎工作原理 – 預(yù)處理 -- 提取文字

        在我們過(guò)去說(shuō)讀的一些關(guān)于SEO優(yōu)化的書中,把“預(yù)處理”也簡(jiǎn)稱為“索引”,因?yàn)樗饕龝r(shí)預(yù)處理最主要的步驟。

        搜索蜘蛛抓取原始頁(yè)面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫(kù)中的頁(yè)面數(shù)都在數(shù)萬(wàn)億級(jí)別上,用戶輸入搜索詞后,如果靠排名程序?qū)@么多頁(yè)面進(jìn)行分析計(jì)算。計(jì)算量太大。不可能在一兩秒內(nèi)返回結(jié)果。因此抓取來(lái)的頁(yè)面必須經(jīng)過(guò)預(yù)處理,存入數(shù)據(jù)庫(kù),為后面查詢排名做準(zhǔn)備。

        爬行和抓取一樣,預(yù)處理也是在后臺(tái)提前完成的,用戶搜索時(shí)感覺(jué)不到這個(gè)過(guò)程。

        現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取HTML頁(yè)面中的代碼,除了用戶在瀏覽器可以看到的文字之外,還包含了大量的HTML格式標(biāo)簽、JavaScript程序等無(wú)法用于排名的內(nèi)容,搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序。提取可以用于排名的網(wǎng)頁(yè)頁(yè)面文字內(nèi)容。

        除了可見(jiàn)文字之外,搜索引擎也會(huì)提取一些特殊的包含文字信息的代碼,如Mate標(biāo)簽中的文字、如片替代文字、Flash文件的替代文字、鏈接錨文字。
        久久亚洲精品1区2区,国产美女一级A作爱在线,亚洲日韩亚洲另类,国产精品亚洲一区
          <i id="mhy79"><optgroup id="mhy79"></optgroup></i>