網(wǎng)站日志是網(wǎng)站管理員和搜索引擎對(duì)話溝通的途徑。通過日志,了解搜索引擎蜘蛛的訪問情況。
從日志中,挑出一段來,就是如下的形式:
2015-12-01 01:05:03 202.173.122.109 GET /atang_1859.html - 80 - 123.125.71.13 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 1981
蜘蛛名稱:百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider
在日志文件里,搜索以上蜘蛛名稱。就可以看到蜘蛛抓取的痕跡。
我們分析的主要點(diǎn)是,HTTP狀態(tài)碼,如以上的200和301。
" 200 0 0 1981 " 代表正常抓取,這次抓取了1981個(gè)字節(jié)。
不同的服務(wù)器或虛擬主機(jī)設(shè)置的日志記錄內(nèi)容不同。
有的如:200 0 5583 207 823 我們通過多看幾條記錄,觀察規(guī)律,可以判斷第三個(gè)數(shù)字代表字節(jié)數(shù)。
有的如:200 0 0或200 0 64 這是沒有記錄抓取字節(jié)數(shù)。注意:200 0 0和200 0 64 沒代表什么問題。所謂200 0 64代表要被K的言論沒有根據(jù),一般的網(wǎng)站都有64代碼。
在日志里,發(fā)現(xiàn)比較多的HTTP狀態(tài)碼是,200(正常)、304(沒變化)、404(錯(cuò)誤鏈接)。
304代表,自從上次抓取后,該內(nèi)容沒有更新。一般情況下,網(wǎng)站的圖片經(jīng)常會(huì)返回該值。
404代表,訪問的這個(gè)鏈接是錯(cuò)誤鏈接。這個(gè)錯(cuò)誤鏈接,一方面來自原本存在后來刪除了網(wǎng)頁(yè),另一方面可能來自本來就不存在,但其他人外鏈了這么個(gè)死鏈接。
需要對(duì)日志統(tǒng)計(jì)分析,可以下載一些日志分析工具進(jìn)行分析。