首頁(yè) > 新聞列表 > 干貨分享：什么是robots.txt協(xié)議文件？

干貨分享：什么是robots.txt協(xié)議文件？

發(fā)布時(shí)間： 2016-09-13 13:24

什么是robots.txt協(xié)議文件：robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁(yè)面。

robots.txt文件特點(diǎn)：

必須放置在一個(gè)站點(diǎn)的根目錄下，而且文件名必須全部小寫。

robots.txt文件在SEO中作用：鑒于網(wǎng)絡(luò)安全與隱私的考慮，搜索引擎遵循robots.txt協(xié)議。通過根目錄中創(chuàng)建的純文本文件robots.txt，網(wǎng)站可以聲明不想被robots訪問的部分。每個(gè)網(wǎng)站都可以自主控制網(wǎng)站是否愿意被搜索引擎收錄，或者指定搜索引擎只收錄指定的內(nèi)容。當(dāng)一個(gè)搜索引擎的爬蟲訪問一個(gè)站點(diǎn)時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果該文件不存在，那么爬蟲就沿著鏈接抓取，如果存在，爬蟲就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍。

robots.txt文件的格式：

User-agent: 定義搜索引擎的類型。

Disallow: 定義禁止搜索引擎收錄的地址。

Allow: 定義允許搜索引擎收錄的地址。

格式如：

robots.txt文件的寫法：

User-agent: * 這里的“*”代表的所有的搜索引擎種類，“*”是一個(gè)通配符。允許所有的搜索引擎來收錄，包括百度、google、yahoo等。

Disallow: /web/ 這里定義是禁止爬尋web目錄下面的目錄。

Disallow: /dedecms/ 這里定義是禁止爬尋dedecms目錄下面的目錄。

Disallow: /ppc/ 這里定義是禁止爬尋ppc目錄下面的目錄。

Disallow: /SEO 是屏蔽A目錄下的所有文件，包括文件和子目錄，還屏蔽 /SEO*.*的文件。

Disallow: /seo-study/*.htm 禁止訪問/seo-study/目錄下的所有以".htm"為后綴的URL(包含子目錄)。

Disallow: /*?* 禁止訪問網(wǎng)站中所有帶“?”的URL。

Disallow: /.jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片。

Disallow:/dedecms-label/arclist.html 禁止爬取dedecms-label文件夾下面的arclist.html文件。

Allow:/linxige/ 這里定義是允許爬尋linxige目錄下面的目錄。

Allow: /seo 這里定義是允許爬尋seo的整個(gè)目錄。

Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。

Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片。

常用的搜索引擎類型有： (User-agent區(qū)分大小寫) 1.google蜘蛛：Googlebot，2.百度蜘蛛：Baiduspider，3.360蜘蛛：360Spider， 4.yahoo蜘蛛：Yahoo!slurp，5.alexa蜘蛛：ia_archiver，6.bing蜘蛛：MSNbot，7.altavista蜘蛛：scooter，8.lycos蜘蛛： lycos_spider_(t-rex) ，Soso蜘蛛:Sosospider， Google Adsense蜘蛛:Mediapartners-Google，有道蜘蛛:YoudaoBot等

通過robots.txt可以刪除被收錄的內(nèi)容：

1、當(dāng)你的網(wǎng)頁(yè)已被收錄，但想用robots.txt刪除掉，一般需要1-2個(gè)月。

2、結(jié)合Google網(wǎng)站管理員工具，你可以馬上刪除被Google收錄的網(wǎng)頁(yè)。

3、結(jié)合百度的站長(zhǎng)平臺(tái)，通可以盡快刪除被百度收錄的頁(yè)面

使用robots.txt應(yīng)遵循幾個(gè)原則：

1、不要屏蔽首頁(yè)的后綴，比如：index.php，index.html 等;

2、不要寫太多帶星號(hào)的，盡量簡(jiǎn)潔一些，我們看百度和Google的robtos.txt帶星號(hào)的寫法幾乎沒有，太多帶星號(hào)的，就可能存在誤傷;

3、不用什么都屏蔽，某些頁(yè)面即使被收錄了也不影響什么的，就建議可以不用屏蔽。

注：搜索引擎遵守robots的相關(guān)協(xié)議，請(qǐng)注意區(qū)分您不想被抓取或收錄的目錄的大小寫，我們會(huì)對(duì)robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配，否則robots協(xié)議無法生效。

以上就是什么是robots.txt協(xié)議文件的內(nèi)容了，更多精彩內(nèi)容請(qǐng)關(guān)注海淘科技。

欧美国产一区二区三区激情无套,午夜无码片在线观看影院,国产精品无码一区二区三区,国产丝袜一区视频在线观看

熱線電話

干貨分享：什么是robots.txt協(xié)議文件？

robots.txt文件特點(diǎn)：

robots.txt文件的格式：

robots.txt文件的寫法：

通過robots.txt可以刪除被收錄的內(nèi)容：

使用robots.txt應(yīng)遵循幾個(gè)原則：

相關(guān)文章：

欄目分類

最新新聞

新聞推薦

關(guān)于海淘

海淘業(yè)務(wù)

繽紛海淘

行業(yè)案例

旗下站點(diǎn)：

上海市長(zhǎng)寧區(qū)天山路1718號(hào)