掃描二維碼關(guān)注博盈官方微信公眾號
立享網(wǎng)站建設(shè)優(yōu)惠
一、蜘蛛抓取差異
我一直喜歡觀察蜘蛛行蹤,筆者在許多站長群里面被稱為“蜘蛛俠”,就是來源于我的這個(gè)習(xí)慣和愛好。這次上新站這樣的機(jī)會是肯定不能錯(cuò)過的。網(wǎng)站內(nèi)容上傳完畢后,首先去幾個(gè)門戶論壇發(fā)帖回復(fù)引蜘蛛,幾個(gè)小時(shí)后訪問日志已經(jīng)產(chǎn)生了,百度蜘蛛的速度較快,在谷歌之前來到了網(wǎng)站。通過日志查看,谷歌的蜘蛛非常有趣,反復(fù)爬取robots文件10多次以后才小心翼翼的抓取首頁,之后一邊爬取robots一邊抓取網(wǎng)站內(nèi)頁。而百度蜘蛛則顯得比較著急,我的網(wǎng)站是制作了robots文件的,但是百度并不爬取此文件,直接去抓取網(wǎng)站首頁,而且顯得非常饑餓和瘋狂,在1分鐘內(nèi),反復(fù)爬取首頁20多次,之后再去抓取內(nèi)頁。返回狀態(tài)碼200 0 0,表示全部抓取成功。感興趣的朋友可以到我的網(wǎng)站查看昨天的蜘蛛抓取日志,一個(gè)新站的抓取過程,對于研究蜘蛛的規(guī)律和性格有非常不錯(cuò)的參考價(jià)值。
從上面的過程可以看出,谷歌的蜘蛛比較有禮貌和注重禮儀規(guī)矩,會反復(fù)敲門得到陌生新主人許可后才進(jìn)去,之后的每一個(gè)行為都參照robots規(guī)則來進(jìn)行內(nèi)頁的抓取,讓我想起了解放軍的三大紀(jì)律八項(xiàng)注意,在這里贊一個(gè)。而百度蜘蛛忽略robots,進(jìn)門反復(fù)咬首頁10多口才放手的行為,讓人感覺很暴力很野蠻,蜘蛛吃完首頁繼續(xù)吃內(nèi)頁,這個(gè)過程中百度蜘蛛完全無視r(shí)obots文件的存在。
二、網(wǎng)站收錄差異
幾小時(shí)后site谷歌,已經(jīng)收錄了新站的2個(gè)頁面,其次是搜搜在24小時(shí)內(nèi)收錄了首頁。新站到現(xiàn)在為止已經(jīng)誕生30多小時(shí)了,而百度至今還沒放出首頁。由于搜索機(jī)制和規(guī)則不一樣,目前來說新站收錄效率來講谷歌最給力,百度慢了好幾拍。
以上分享的是筆者的新站在谷歌和百度抓取和收錄過程中的差異,希望通過這個(gè)案例,給研究SEO的朋友和需要上新站的朋友一些學(xué)習(xí)參考和靈感,讓你更了解谷歌百度的抓取規(guī)則和收錄流程。