robots.txtの書き方
robots.txtの書き方をまとめたメモ。今まで何となく適当に記述していたものの、正式な書式を調べてみた。
記述例
Sitemap: http://example.com/sitemap.xml
User-agent: *
Disallow: /cgi-bin/
Allow: /public*/
Disallow: /*?sessionid
Crawl-delay: 5
まず対象クローラ(検索エンジン)を指定する。
「User-agent: *」は「全てのクローラ」という意味。
主要な検索エンジンのエージェント名。
User-agent: Slurp
User-agent: Googlebot
User-agent: msnbotSlurpはヤフーのクローラ。
Googlebotはグーグルのクローラ。
msnbotはMSNのクローラ。
次に、空白行なしで、対象クローラへの制御を続けて書く。
Allowはアクセス許可、Disallowは拒否を意味する。
AllowやDisallowのあとの記述は、大文字と小文字を区別するので注意。
AllowやDisallowの行の始めの「/」はルートディレクトリ(ドメイン直下)を意味する。
「/cgi-bin/」はドメイン直下の/cgi-bin/というディレクトリという意味。
*は任意の文字列を意味する。「/public*/」は「public」という文字列を含むディレクトリ全てという意味になる。
?は任意の文字。「/*?sessionid」はURLの途中に「sessionid」を含むという意味。
「Crawl-delay」はクローラが巡回する頻度を秒数で指定する。「Crawl-delay: 5」は、5秒以上の間隔を開けてアクセスせよ、という意味。
Sitemap: http://example.com/sitemap.xml
は、サイトマップの場所。robots.txtのどの場所に書いても良い。





トラックバックURL