如何分析網(wǎng)站日志

2015年12月3日00:44:44 發(fā)表評(píng)論 4,074 ℃

網(wǎng)站日志是網(wǎng)站管理員和搜索引擎對(duì)話溝通的途徑。通過日志,了解搜索引擎蜘蛛的訪問情況。

從日志中,挑出一段來,就是如下的形式:

2015-12-01 01:05:03 202.173.122.109 GET /atang_1859.html  - 80 - 123.125.71.13 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 0 1981

蜘蛛名稱:百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider

如何分析網(wǎng)站日志

在日志文件里,搜索以上蜘蛛名稱。就可以看到蜘蛛抓取的痕跡。

我們分析的主要點(diǎn)是,HTTP狀態(tài)碼,如以上的200和301。

" 200 0 0 1981 " 代表正常抓取,這次抓取了1981個(gè)字節(jié)。

不同的服務(wù)器或虛擬主機(jī)設(shè)置的日志記錄內(nèi)容不同。

有的如:200 0 5583 207 823  我們通過多看幾條記錄,觀察規(guī)律,可以判斷第三個(gè)數(shù)字代表字節(jié)數(shù)。

有的如:200 0 0或200 0 64  這是沒有記錄抓取字節(jié)數(shù)。注意:200 0 0和200 0 64 沒代表什么問題。所謂200 0 64代表要被K的言論沒有根據(jù),一般的網(wǎng)站都有64代碼。

在日志里,發(fā)現(xiàn)比較多的HTTP狀態(tài)碼是,200(正常)、304(沒變化)、404(錯(cuò)誤鏈接)。

304代表,自從上次抓取后,該內(nèi)容沒有更新。一般情況下,網(wǎng)站的圖片經(jīng)常會(huì)返回該值。

404代表,訪問的這個(gè)鏈接是錯(cuò)誤鏈接。這個(gè)錯(cuò)誤鏈接,一方面來自原本存在后來刪除了網(wǎng)頁(yè),另一方面可能來自本來就不存在,但其他人外鏈了這么個(gè)死鏈接。

需要對(duì)日志統(tǒng)計(jì)分析,可以下載一些日志分析工具進(jìn)行分析。

【騰訊云】云服務(wù)器、云數(shù)據(jù)庫(kù)、COS、CDN、短信等云產(chǎn)品特惠熱賣中

發(fā)表評(píng)論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: