Google Search Consoleの「カバレッジ」の「除外」ステータスでは次の2種類のインデックス未登録項目があります。それぞれの違いはこの表をご覧ください。
検出 – インデックス未登録 | クロール済み – インデックス未登録 | |
---|---|---|
該当箇所 | 検出 – インデックス未登録 | クロール済み – インデックス未登録 |
URLのリスト作成 | 完了 | 完了 |
クロール | 完了していない | 完了 |
インデックス | 完了していない | 完了していない |
それぞれ原因と対策が異なりますので、以下のリンクからGoogleのメッセージに適した対応を行ってください。
GoogleのSearch Consoleのカバレッジは、「エラー」や「有効(警告あり)」以外も頻繁ではなくとも定期的に目を通しておきましょう。「除外」ステータスの項目の中にもクロールやインデックス処理に関する問題点が潜んでいる場合があります。
「検出 – インデックス未登録」とはどのような状態か?
検出 – インデックス未登録とは、Googleのクローラーはサイトマップやサイト内のリンク経由でページの存在を検知している状態ではあるものの、まだクロールまでは実施されていない状態です。二つの理由が考えられます。
原因① クロール処理でウェブサイトに過剰な負荷を与えないため
クロール処理自体は対象のウェブサイトに多少なりとも負荷を与えます。クロールと同時に一般のウェブサイト訪問者もアクセスしている為、これらが重なればウェブサイトの処理にも影響を与えます。Googleはウェブサイトに負荷をかけないように、同時にクロールするURLの数や間隔を調整しています。
このような仕組みで、ウェブサイトに過剰な負荷を与えてしまうと予測された場合には、クロールの再スケジュールを判断します。この場合、レポート上では最終クロール日が空欄になります。
原因② リソースを割く価値がないと判断された場合
低品質コンテンツや重複コンテンツが多い場合など、過去のウェブサイトの状態などからその時点ではURLの構造上クロールやインデックス処理にリソースを割く価値が無いと判断されることもあります。
GoogleのJohn Mueller氏がその原因と解決方法について解説していましたのでご紹介します。
多くのページで「検出 – インデックス未登録」と表示される場合の問題点
大きく分類すると以下の二点の何れかが原因となっている場合が多いようです。
- サイト内部のリンクの問題
- コンテンツの問題
サイト内部のリンクの問題
サイト内のリンクの形式が統一されていない場合には、多くの重複URLが生成されてしまう事になります。
または無限にURLが生成されるようなリンクの張り方を誤って行っている場合が考えられます。
この他、WordPressやはてなブログなどCMSの設定によっては、大量のアーカイブページやタグページなどが生成されてしまい、クロールする価値のないURLとして判断されて今う可能性もあります。インデックス数ばかりを気にしてしまうとできる限り多くのページを自動生成しようとしてしまいがちですが、重要なのはサイト全体の品質とユーザーの利便性です。
コンテンツの問題
検索結果に表示する必要の無いコンテンツとしてGoogleに判断されている場合もあるようです。
例えばデータベースから自動的にコンテンツを生成しているケースを想定してみましょう。
既にGoogleでインデックス済みのページ(自身のぺージや競合のページも含めて)と比べて自身のコンテンツと似たようなコンテンツが多く存在している場合は、Googleは「全てを検索結果に表示させる必要は無い」と判断してしまうでしょう。
確認すべきポイントと修正方法
まずは技術的な点を確認するようお勧めしています。
全てのページの存在を検索エンジンに伝えるために、 XMLサイトマップ は追加していた方が良いですが、「検出 – インデックス未登録」の状態はすでにGoogleがクロールすべきリンクのリストは取得できている為、本問題の修正方法には含めていません。
Search Consoleの「ウェブに関する主な使用」を確認して、エラーがないことを確認しましょう。「ウェブに関する主な指標」は「コアウェブバイタル」とも呼び、ユーザー体験に影響する重要な要素です。詳しくは「コアウェブバイタル改善でページの放棄率を抑える」をご覧ください。
そのほかに、「検出 – インデックス未登録」の対象となっているページやサーバーを含めてウェブサイトの表示速度やGoogleのクロールに問題が生じていないことを確認するために、ページスピードインサイトでテストしてみましょう。ページ表示速度で考慮すべき点やテストの方法については、「ページ表示・読み込み速度の測定とウェブサイト高速化」をご覧ください。
サーバーの負荷についても、サーバー側で提供されているコンソールを確認しておきましょう。場合によってはサーバーのアップグレードが必要となることもあります。
URLのパラメータ、大文字小文字などの違いなどを含め、重複するパターンのURLが無いか確認して統一(正規化)しましょう。
Googleは重複するパターンのURLを見つけた場合、それが大量にあった場合には、全てのパターンのURLをクロールする事はなく、途中でやめてしまいます。
この場合の対処方法としては、 canonical 属性の記述、 301リダイレクト 等でURLを正規化する必要があります。
全てのページに対して正しくクロールが完了するかテストする必要があります。
方法としては、「screaming frog」などが紹介されていますが、SE Rankingの「サイトSEO検査」機能でもテストできます。
「クロール済みページ」サブセクションのURLを見ていく事で、統一したURLパターン(http/httpsやwwwあり無し、ディレクトリ階層のスラッシュなど)の内部リンクとなっているかを確認できます。
もし1、2、3、の部分で問題が無ければ、コンテンツの品質に問題がある可能性が高いようです。
類似のコンテンツがサイト内外にあるようであれば、それと比較してオリジナルの情報を追加したり、検索ユーザーが求める情報をリサーチして、必要なトピックを追加して、コンテンツの差別化を図り、品質を改善させる必要があります。
またはインデックスされていないコンテンツのうち内容の薄いコンテンツは、別のコンテンツと統合するなどしてページの数を調整するという方法も有効かもしれません。
更新頻度が重要という意見も見かけますが、当社のクライアントの事例を見る限りは、低品質や重複コンテンツの量産が根本的な問題の原因です。そのため、予約で自動投稿するような方法での更新頻度ありきの運営はあまり重要ではなく、良質なコンテンツに作り替えるという意味での更新が重要となります。
詳しくは「コンテンツの更新頻度、日付と順位の関連性」でも解説しています。
HTMLコーディングについてもそれほど重要ではありません。特にGoogleはChromeをベースにページをレンダリングして表示し、コンテンツを理解します。Chromeは誤ったHTMLコードでも自動補正してレンダリングします。ブラウザで正しく表示されていれば、Googleによるコンテンツの理解に影響は与えることはありません。ページの表示速度も体感できるほど遅くならない(例えばレンダリングに何十秒もかかるなど)限りは問題とはならないでしょう。詳しくは「正しいHTMLは検索順位に影響する?」でも解説しています。
Search Consoleの左メニュー「URL検査」から該当URLを検査し、「公開URLをテスト」ボタンをクリックして問題がないことを確認しましょう。インデックス処理を促す場合には、「インデックス登録をリクエスト」をクリックしてください。
その他にSearch Consoleのカバレッジの項目で気になる項目としては、404エラーに関連する項目が挙げられます。「エラー」や「除外」どちらにしても念の為に内容を確認する事をおすすめします。
404エラーの対応方法については以下のページが参考になるかもしれません。