
robots.txtとは?検索エンジンのクロール制御の重要性
「robots.txt(ロボッツ テキスト)」は、ウェブサイトのルートディレクトリに配置することで、検索エンジンのクローラーに対してアクセス許可や制限を指示するためのテキストファイルです。正しく設定することで、サイトのSEOを向上させたり、不要なクロールを避けてサーバーの負荷を軽減したりすることが可能になります。
robots.txtの「読み方」は、一般的に「ロボッツ テキスト」と呼ばれることが多いです。
robots.txtの基本構造と書き方
robots.txtの記述はシンプルですが、適切なルール設定が重要です。以下のような構造が一般的です。
User-agent: *
Disallow: /private/
Allow: /public/
記述のポイント
- User-agent: クローラーを指定(例:Googlebot、Bingbot)
- Disallow: クローラーにアクセスを禁止するページやディレクトリを指定
- Allow: クローラーにアクセスを許可するページやディレクトリを指定
robots.txtでクロールを拒否する方法
特定のディレクトリやページのクロールを防ぐ場合、以下のように記述します。
User-agent: *
Disallow: /admin/
また、Googlebotのみをブロックする場合は次のようにします。
User-agent: Googlebot
Disallow: /
Disallowの書き方のコツ
/
を指定するとサイト全体をクロール拒否/example/
ならexample
ディレクトリ以下を拒否/example/page.html
なら特定ページのみ拒否
robots.txtの記述ミスによって、意図しないページが検索結果から除外される可能性もあるため、設定は慎重に行う必要があります。
robots.txtの正しい配置場所とは?
robots.txtは、ウェブサイトのルートディレクトリに配置する必要があります。
正しい配置例
https://example.com/robots.txt
間違った配置例
https://example.com/folder/robots.txt
間違った場所に配置すると、検索エンジンがファイルを認識できず、期待したクロール制御が適用されないため注意しましょう。
robots.txtのバリデーション(robots.txt validator)
robots.txtの構文確認には、「robots.txtテスター」を使用できます。Googleはこの機能をGoogle Search Consoleに統合し、より簡単に検証できるようにしました。
テスト手順
- Google Search Console にログインします。
- 「robots.txtテスター」のページを開きます。
- 画面下部のURL入力欄に確認したいURLパスを入力します。
- 右下にある「テスト」ボタンをクリックします。
- テスト結果が表示され、エラーや警告があれば詳細が確認できます。
- 必要に応じて修正を行い、更新後のファイルをサーバーにアップロードします。
- 再度テストを実施し、問題が解決したことを確認します。
Googleは、2014年のアップデートでrobots.txtテスターを改善し、特定のURLに対する許可・禁止の状態をリアルタイムで確認できるようにしました。これにより、誤った設定を即座に発見し、修正することが可能になりました。
このツールを利用することで、robots.txtの誤記や設定ミスを事前に防ぐことが可能です。
robots.txtの設定を確認する方法
robots.txtが正しく動作しているかどうかを確認するには、以下の方法があります。
1. ブラウザで直接確認
URLバーに https://example.com/robots.txt
と入力し、ファイルが表示されるか確認しましょう。
2. Google Search Consoleのクロールテスト
Google Search Consoleの「URL検査ツール」を活用して、特定のページがクロール可能か確認できます。
3. コマンドラインで確認
ターミナルやコマンドプロンプトで以下のコマンドを実行します。
curl -I https://example.com/robots.txt
これにより、ステータスコード(200 OKなど)とともにファイルの設置状況を確認できます。
robots.txtとsitemap.xmlの連携
robots.txtにサイトマップ(sitemap.xml)のURLを追加することで、検索エンジンにクロールを促し、SEOを強化できます。
記述例
Sitemap: https://example.com/sitemap.xml
この一文を追加することで、検索エンジンがサイトマップを認識し、サイト全体をより効率的にクロールできます。
まとめ
robots.txtは、検索エンジンのクローラーを適切に制御するために欠かせないファイルです。SEOを強化し、サーバーリソースの最適化を図るためにも、適切な設定が重要です。
重要ポイント
- robots.txtはサイトのルートディレクトリに配置
User-agent
やDisallow
の記述に注意robots.txt テスター
でエラーを事前にチェックSitemap
を記載して検索エンジンにクロールを促す
誤った設定が原因で重要なページが検索結果に表示されなくなることを避けるため、慎重に運用することが大切です。