FIVE FOUR

メニュー
HOME > 検索結果にサイトを表示させたくない?! – 制作の現場から

検索結果にサイトを表示させたくない?! – 制作の現場から


弊社が提供している主なサービスの一つにSEOがあります。
しばしば起こる検索エンジンの大規模アップデートの後には、社内が騒がしくなる事もあります。

この記事ではサイトや特定のページを検索結果に表示させないようにする検索ロボット対策について取り上げます。

検索エンジンロボットに対する制御を行う際によく使われる方法として、以下があります。

  1. HTMLタグのmeta要素robotsによる制御
  2. robots.txtによる制御
  3. .htaccessによる制御

検索結果から表示を除外させる対策はあまり頻繁に行う業務ではなく、
自分自身でもあいまいな部分があったので、よく使われる1と2の違いについて
今後のために書いておきたいと思います。

実装方法の違いについて

まず二つの実装方法の違いについて、簡単ではありますが説明します。

HTMLタグのmeta要素robotsによる制御
文字通りHTMLタグの一つであるmeta要素robotsで検索エンジンのクローラーを制御するもので、検索エンジンにindexさせたくないページの<head>セクション内に以下のタグを挿入します。
<meta name=”robots” content=”noindex”>
robots.txtによる制御
robots.txtファイルを作成し、ドメインのルートにアップロードする
(※ドメインのルートへのアクセス権限がない場合は、robots メタ タグを使用してアクセスを制限)

検索結果におけるそれぞれの違い

ここからが本題ですが、実装方法ではなく検索結果に着目します。

  • meta要素robotsによる制御は検索エンジンロボットのアクセス(クロール)は許可するが、検索結果ページに表示されない
  • robots.txtによる制御は検索エンジンロボットのアクセス(クロール)は許可しないが、検索結果ページに表示されてしまうことがある

さて、どういう事でしょうか?

  • meta要素robotsによる制御の方法で対策したページは、検索結果に表示されません
  • robots.txtによる制御の方法で対策したページは、検索結果ページで以下のように表示されることがあります

なぜでしょうか?

robots.txt でブロックされているページのコンテンツがクロールまたはインデックス登録されることはありませんが、ウェブ上の他のページに表示されている URL はインデックスに登録される可能性があります。このため、ページの URL、またサイトへのリンクのアンカー テキストや Open Directory Project(www.dmoz.org)(英語)のタイトルといった他の公開情報が Google の検索結果に表示される可能性があります。

robots.txt ファイルを使用してページをブロックまたは削除する より引用)

 
Googleは、検索結果に表示させたくないページについてはmeta要素robotsによる制御をすすめています。

他のサイトからリンクされている場合であっても、ページのコンテンツが Google のウェブ インデックスに一切登録されないようにするには、noindex メタ タグまたは x-robots-tag を使用します。Googlebot はページを取得するときに、noindex メタ タグを認識してウェブ インデックスにそのページを表示しないようにします。x-robots-tag HTTP ヘッダーは、画像や他のドキュメントなど、HTML 以外のファイルに対するインデックス登録を制限する場合に特に便利です。

robots.txt ファイルを使用してページをブロックまたは削除する より引用)

 
「じゃあ、なんかよくわかんないし~、両方やったらいいんじゃない?」

robots.txt ファイルを使ってそのページをブロックした場合、タグは認識されません

メタ タグによるサイトへのアクセスのブロック より引用)

 
言われてみれば当然ですね。
クローラーのアクセスが出来ないのであればそのページに記載されているコンテンツ(タグ)を読むことも出来ないからです。

ですから、「絶対に検索結果に表示させたくない」場合にはHTMLタグのmeta要素robotsによる制御を行うのがよい様です。

ページランクの受け渡しについて

またページランクについても以下のように違いがあります。

  • meta要素robotsによる制御はリンク先ページにページランクの受け渡しが可能
  • robots.txtによる制御はリンク先ページにページランクの受け渡しが不可(アクセスができないため)

結論ですが、meta要素robotsでの対策で大体の場合は事足りるという事が言えると思います。

まとめ

  • HTMLタグのmeta要素robotsによる制御は検索結果に表示させたくない場合に使うとよい
  • robots.txt はcgi-binディレクトリや画像ファイルなど検索エンジンロボットがクロールする必要のないコンテンツを制御するのに向いている
  • meta要素robotsによる制御とrobots.txtによる制御は併用しない

参考にさせていただいた記事

最後に

本記事の内容については、どちらの方法に関しても、全ての検索エンジンロボットに対して絶対の効果があるわけではありません。
アクセスされたくない情報に関しては.htaccessでのリンク元の制限やパスワードをかけるなどの対応が必要です。

(そもそもウェブでアクセス可能なところに絶対公開したくない情報をおいてはいけないという事には、本記事ではとりたてて言及いたしません…)

ファイブフォー株式会社 制作担当
やまもと