撰寫本文的出發(fā)點(diǎn):由于最近項(xiàng)目改版,需要用到新的域名。于是每天開始對蜘蛛及用戶的訪問日志進(jìn)行分析,以并發(fā)現(xiàn)不正常的請求及站內(nèi)錯誤。廢話不多講,直奔主題。
步驟:
NO1、改版后服務(wù)器環(huán)境搭好,優(yōu)化好各項(xiàng)配置參數(shù)并測試好對外開放新域名。
NO2、1-2天百度收錄、谷歌收錄。(注:在權(quán)重極高的首頁掛了一下)
NO3、10天了,百度還只收錄首頁,內(nèi)頁動也不動。 GOOGLE已經(jīng)好幾萬了。
NO4、觀察日志LOG,GOOGLE 全是 200 0 0 狀態(tài)碼,百度 200 0 64 全是這些狀態(tài)碼
NO5、搜索大量資料分析這些狀態(tài)碼。其中的資料主要來自A5和CHINAZ,發(fā)現(xiàn)一些根本不懂的人也在亂講,導(dǎo)致搜出來的內(nèi)容并不科學(xué)占了主導(dǎo)意思。
網(wǎng)絡(luò)上的主要意思大概有下面幾個觀點(diǎn),本人一一作出解答。
1、K站的表現(xiàn),這一說法主要來自被K過站的站長,然后在散播說,只要留下200 0 64 就表示百度要K你了。
答:錯誤,這只能說是一種偽科學(xué)。你有啥證據(jù)?百度官方說了嗎。我們站在科學(xué)的角度分析:200 0代表連接成功,大家都明白。后面的64 查詢MSDN后得到是網(wǎng)絡(luò)不可用。本人開發(fā)C++ 3年,C# 4年的經(jīng)驗(yàn)判斷,出現(xiàn)這一現(xiàn)象,主要是因?yàn)榫W(wǎng)絡(luò)被重置,或者TCP通訊時哪一方主動被斷開。 因?yàn)楸救怂鶑氖碌墓ぷ饕步?jīng)常是網(wǎng)絡(luò)開發(fā)。只要一方不正常斷開,另一方會導(dǎo)致異常,程序就要去做相應(yīng)的異常處理,IIS也是個程序,百度蜘蛛也是個程序。那么雙方都會去處理這個異常。其中IIS日志就會記錄200 0 64。 本人觀察正常的瀏覽器也會產(chǎn)生200 0 64 碼,原因也是如此。只要瀏覽器在DEBUG時然后中斷連接,日志就會產(chǎn)生這種狀態(tài)碼。
再說,我一個新域名,也沒有啥優(yōu)化過度,做個啥的弊,被K啥。
2、網(wǎng)絡(luò)廣為流傳的代表64位操作系統(tǒng)。
答:狗屎,滾蛋。中國的互聯(lián)網(wǎng)正是因?yàn)橛辛四銈冞@些人,才會有那么多的垃圾彈窗。
3、GZIP優(yōu)化后,導(dǎo)致這一情況產(chǎn)生。
答:本人著重針對這一點(diǎn)進(jìn)行分析,GZIP的原理不說了,為什么做也不說了。那么GOOGLE,和市面上大多數(shù)瀏覽器也是支持GZIP的,百度的蜘蛛也是支持GZIP的。這一點(diǎn)可以從百度的官方得到認(rèn)可,百度官方的搜索引擎優(yōu)化指南也提倡這一做法。本人的服務(wù)器已經(jīng)開啟GZIP,得到的狀態(tài)碼大多數(shù)如下:
2013-03-23 00:11:18 W3SVC766747422 113.10.187.98 GET http://http://www.yeencms.com/r_1 80 - 123.125.71.98 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
2013-03-23 00:18:26 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/sf/r_3- 80 - 220.181.108.181 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
2013-03-23 01:37:23 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/sf/r_2 80 - 123.125.71.56 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64
于是本人關(guān)閉GZIP進(jìn)行跟蹤觀察,第二天發(fā)現(xiàn)的日志如下:
2013-03-24 01:46:05 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/r_6 80 - 220.181.108.165 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0
2013-03-24 01:46:08 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/r_4 80 - 123.125.71.16 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0
2013-03-24 01:38:54 W3SVC766747422 113.10.187.98 GET http://www.yeencms.com/r_5 80 - 123.125.71.114 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0
為什么會這樣子呢?我的分析如下:
1、百度在請求頁面內(nèi)容的時候,得到GZIP加密串,然后進(jìn)行解密。這一過程沒有及時的將剩余的資源讀取完畢就干自己的事了。導(dǎo)致服務(wù)方出現(xiàn)異常,所以產(chǎn)生了網(wǎng)絡(luò)被重置,網(wǎng)絡(luò)名不可用的日志。 GOOGLE這一方面做的非常好,完全按照流程辦事。 其實(shí)這也是沒有關(guān)系的。因?yàn)榘俣纫呀?jīng)得到了自己想要的內(nèi)容。
2、百度在請求頁面內(nèi)容的時候,得到GZIP加密串,解密失敗。哈哈。這說不過去吧。。。。這正是廣大站長最擔(dān)心的,百度也沒有解釋。我認(rèn)為這點(diǎn)倒不致于。
3、有些人說,我沒有啟用GZIP為什么也會有200 0 64 ,因?yàn)橹┲朐谧ツ愕膬?nèi)容的時候,你的內(nèi)容沒有發(fā)生變化,它只判斷內(nèi)容流的前部分就直接關(guān)閉這次通訊。導(dǎo)致你的服務(wù)器程序出現(xiàn)網(wǎng)絡(luò)不可用或者網(wǎng)絡(luò)名不存在,也就是64。其實(shí)百度這么做是為了提高抓取效率。
通過本人的分析,推薦大家關(guān)閉GZIP先。其實(shí)也就是個心理有個放心。什么網(wǎng)上所謂的K站前兆,64位系統(tǒng)都是沒有證據(jù)的,不必理會。
另,根據(jù)本人的親測,百度確實(shí)有個新站考察期,時間為,1周-2月不等。