目前主流的搜索引擎按照其功能大致可以分為可劃分為下載、分析、索引、查詢(xún)4大系統(tǒng)。其中分析系統(tǒng)在搜索引擎的架構(gòu)中主要承擔(dān)了網(wǎng)頁(yè)結(jié)構(gòu)化、網(wǎng)頁(yè)消重、文本分詞及網(wǎng)頁(yè)重要性的計(jì)算(例如谷歌的PR)這四項(xiàng)基本任務(wù)??梢哉f(shuō),搜索引擎的分析系統(tǒng)在網(wǎng)站排名等方面起著決定性的作用,通過(guò)分析搜索引擎的分析系統(tǒng),可以更好的指導(dǎo)我們進(jìn)行網(wǎng)站的優(yōu)化工作,在這里,筆者根據(jù)自己的一些見(jiàn)解。
首先,筆者對(duì)搜索引擎的分析系統(tǒng)的工作步驟做了簡(jiǎn)單的介紹:
第一.讀取Page庫(kù)中下載系統(tǒng)通過(guò)爬蟲(chóng)下載到的原始網(wǎng)頁(yè)。
第二.通過(guò)建立標(biāo)簽樹(shù)并從網(wǎng)頁(yè)中抽取有價(jià)值的屬性,完成從原始網(wǎng)頁(yè)打包成一個(gè)網(wǎng)頁(yè)對(duì)象的過(guò)程,即網(wǎng)頁(yè)結(jié)構(gòu)化的過(guò)程。
第三.丟棄冗余的頁(yè)面,僅保留一個(gè)相似或相同的網(wǎng)頁(yè)傳給分詞模塊,實(shí)現(xiàn)網(wǎng)頁(yè)消重。
第四.文本分詞模塊將網(wǎng)頁(yè)的正文切分成企業(yè)官網(wǎng)設(shè)計(jì)以詞匯為單位的集合。
第五.最后將分析的結(jié)果發(fā)往索引模塊,進(jìn)行索引入庫(kù)。
了解到了搜索引擎的分析系統(tǒng)的工作流程,那么,筆者認(rèn)為,我們應(yīng)該針對(duì)搜索引擎的分析系統(tǒng)做好以下的優(yōu)化工作。
1.從分析系統(tǒng)的第一步和第二部過(guò)程,告訴我們要明確需要保留的信息
網(wǎng)頁(yè)是有HTML語(yǔ)言編寫(xiě)而成是一個(gè)半結(jié)構(gòu)化的對(duì)象,要將其中有價(jià)值的信息,例如標(biāo)題和正文保留下來(lái),而將無(wú)用的信息丟棄,例如HTML標(biāo)簽,主要是通過(guò)網(wǎng)頁(yè)結(jié)構(gòu)化,一般來(lái)說(shuō),TITLE標(biāo)簽,MEAT標(biāo)簽,H標(biāo)簽是搜索引擎認(rèn)為最重要的網(wǎng)頁(yè)信息。搜索引擎,比如,針對(duì)TITLE標(biāo)簽,在搜索引擎蜘蛛爬行的過(guò)程中,與之間的內(nèi)容往往是蜘蛛們第一個(gè)獲取到網(wǎng)頁(yè)的文字內(nèi)容。除此之外,錨文本,網(wǎng)頁(yè)正文都是有價(jià)值的信息,要加以保留和重視。
2.從分析系統(tǒng)的第三步來(lái)看,告訴我們要重視網(wǎng)頁(yè)的內(nèi)容建設(shè)
網(wǎng)絡(luò)中的網(wǎng)頁(yè)數(shù)以?xún)|計(jì),對(duì)海量網(wǎng)頁(yè)進(jìn)行存儲(chǔ)和處理是一項(xiàng)艱巨的任務(wù),而且這些網(wǎng)頁(yè)中又包含很多相同或者類(lèi)似的頁(yè)面。所以搜索引擎的分析系統(tǒng)在正式對(duì)網(wǎng)頁(yè)進(jìn)行分析之前首先要做的工作就是網(wǎng)頁(yè)消重。搜索引擎中把這4種頁(yè)面看做是相同或相似的,兩個(gè)網(wǎng)頁(yè)的內(nèi)容和格式上完全相同、兩個(gè)網(wǎng)頁(yè)的內(nèi)容完全相同,但格式不同、兩個(gè)網(wǎng)頁(yè)有部分重要的內(nèi)容相同并且格式相同、兩個(gè)網(wǎng)頁(yè)有部分重要的內(nèi)容相同,但格式不同。從搜索引擎的分析系統(tǒng)看網(wǎng)站優(yōu)化,可見(jiàn)網(wǎng)頁(yè)內(nèi)容的獨(dú)特性很重要,所以做好原創(chuàng)是有企業(yè)官網(wǎng)設(shè)計(jì)意義的。
3.從網(wǎng)頁(yè)重要性的計(jì)算,也就是分析系統(tǒng)的第四五部來(lái)看,做好網(wǎng)頁(yè)的權(quán)重是很有意義的
在這里,拿谷歌的PR值舉例,它是Google用來(lái)標(biāo)識(shí)網(wǎng)頁(yè)的等級(jí)/重要性。百度也有類(lèi)似的系統(tǒng),所以我們應(yīng)該根據(jù)它們的算法,做好提高網(wǎng)頁(yè)重要性的工作,比如導(dǎo)入高質(zhì)量的鏈接,寫(xiě)一些高質(zhì)量的軟文帶上網(wǎng)頁(yè)鏈接并發(fā)布到大型網(wǎng)站,比如提供有價(jià)值的網(wǎng)頁(yè)內(nèi)容,這些都可以提高網(wǎng)頁(yè)的權(quán)重,具體的做法,站長(zhǎng)朋友都知道,這里不再詳述。
版權(quán)聲明:以上文章信息來(lái)源于網(wǎng)絡(luò),等僅代表原作者本人的觀(guān)點(diǎn)。除了已經(jīng)標(biāo)注原創(chuàng)的文章外,其它文章版權(quán)和文責(zé)屬于原作者。文章中出現(xiàn)的商標(biāo)、專(zhuān)利和其他版權(quán)所有的信息,其版權(quán)屬于其合法持有人。對(duì)可以提供充分證據(jù)的侵權(quán)信息, 我們將在確認(rèn)后的1小時(shí)內(nèi)刪除。
本網(wǎng)站之聲明以及其修改權(quán)、更新權(quán)和最終解釋權(quán)均屬?gòu)V州古柏廣告策劃有限公司所有。
掃一掃關(guān)注古柏
GOOBAI AD.
Brand Whole Case Design
4000-882-993
tian520.cn
微信加好友咨詢(xún)
廣州古柏廣告策劃有限公司
地址:廣州市天河區(qū)東圃長(zhǎng)盛商務(wù)大廈B213-215
Copyright?2004-2020 GOOBAI Inc.All rights reserved
粵公網(wǎng)安備: 44010602001481號(hào)
備案號(hào):粵ICP備09222445號(hào)
與古柏對(duì)話(huà)
關(guān)注古柏