19禁羞羞电影院在线观看,欧美午夜精品久久久,欧美激情啊啊啊

2015年10月21日12:06:22 發(fā)表評論 4,064 ℃

動態(tài)網(wǎng)站并不值得擔心，搜索引擎可以正常抓取動態(tài)鏈接，但利用robots文件可以輕松提高動態(tài)網(wǎng)站的抓取效率。我們都知道，robots協(xié)議（也稱為爬蟲協(xié)議、機器人協(xié)議等）的全稱是“網(wǎng)絡爬蟲排除標準”（Robots Exclusion Protocol），網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。Robots協(xié)議的本質是網(wǎng)站和搜索引擎爬蟲的溝通方式，用來指導搜索引擎更好地抓取網(wǎng)站內容。

百度官方是推薦所有的網(wǎng)站都使用robots文件，以便更好地利用蜘蛛的抓取。其實robots不僅僅是告訴搜索引擎哪些不能抓取，更是網(wǎng)站優(yōu)化的重要工具之一。

robots文件實際上就是一個txt文件。其基本的寫法如下：

User-agent: * 這里的*代表的所有的搜索引擎種類，*是一個通配符 Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄　 Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄　 Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄　 Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)?！?Disallow: /*?* 禁止訪問網(wǎng)站中所有的動態(tài)頁面　 Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片　 Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。　 Allow: /cgi-bin/　這里定義是允許爬尋cgi-bin目錄下面的目錄　 Allow: /tmp 這里定義是允許爬尋tmp的整個目錄　 Allow: .htm$ 僅允許訪問以".htm"為后綴的URL?！?Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片

在網(wǎng)站優(yōu)化方面，利用robots文件告訴搜索引擎哪些是重要的內容，不重要的內容均推薦用robots文件來禁止抓取。不重要的內容的典型代表：網(wǎng)站的搜索結果頁面。

對于靜態(tài)網(wǎng)站來說，我們可以利用Disallow: /*?*來禁止動態(tài)頁面抓取。但對于動態(tài)網(wǎng)站來說，就不能簡單地這樣做了。不過對于動態(tài)網(wǎng)站的站長來說，也無需過于擔心，搜索引擎現(xiàn)在可以正常地抓取動態(tài)頁面。那么在寫的時候，就要注意了，我們可以具體到搜索文件的名稱來寫。比如你的站是search.asp?后面一大串，那么可以這樣寫：

Disallow: /search.asp?*

這樣就可以屏蔽搜索結果頁面了，寫好了可以到百度站長平臺檢測robots一下，看看有沒有錯誤！可以輸入網(wǎng)址檢測一下，是不是正常生效了。

在這里站長網(wǎng)建議動態(tài)網(wǎng)站的站長，一定要用robots文件屏蔽不重要的內容動態(tài)鏈接，提高蜘蛛的抓取效率！