Googleに効率よくウェブサイトをクロールしてもらう為には、XMLサイトマップを作成する事が一つ上げられます。
Google本国のWebmaster Central Blogで、このXMLサイトマップとRSS/Atomフィードを組み合わせたベストプラクティスがアナウンスされていましたので、ご紹介します。
XMLサイトマップとRSS/Atomフィードの仕組み
サイトマップの送信はウェブサイト最適化の一つの重要な要素です。
サイトマップは検索エンジンにウェブサイト上の全てのページを見つけさせ、ページが更新された際に素早くダウンロードさせる事ができます。
クロールの最適化を行うには、XMLサイトマップとRSS/Atomフィード両方を使用する事をおすすめします。
ここではサイトマップで重要な部分や、XMLサイトマップとRSS/Atomフィードを使用するケースや、Googleへ最適化する方法を解説します。
サイトマップとフィード
サイトマップはXMLサイトマップ、RSS、またはAtom形式があります。
これらの形式の重要な違いとして、XMLサイトマップはサイト内の全てのURLを記述し、一方でRSS/Atomフィードは最近の変更を記述します。
- XMLサイトマップ
-
- 検索エンジンに対してウェブサイト上の全てのページに関する情報を提供。
- XMLサイトマップのサイズは通常大きい。
- 検索エンジンに参照される頻度はRSS/Atomフィードよりも少ない。
- RSS/Atomフィード
-
- あなたのウェブサイトの最も最近更新したページの情報を提供。
- RSS/Atomフィードのサイズは小さい。
- 検索エンジンに参照される頻度はXMLサイトマップよりも多い。
ただし、サイトマップとフィードの送信はそれらのURLのインデックスを確約するものではありません。
XMLサイトマップの例
<?xml version="1.0" encoding="utf-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://example.com/mypage</loc> <lastmod>2011-06-27T19:34:00+01:00</lastmod> <!-- optional additional tags --> </url> <url> ... </url> </urlset>
RSSフィードの例
<?xml version="1.0" encoding="utf-8"?> <rss> <channel> <!-- other tags --> <item> <!-- other tags --> <link>http://example.com/mypage</link> <pubDate>Mon, 27 Jun 2011 19:34:00 +0100</pubDate> </item> <item> ... </item> </channel> </rss>
Atomフィードの例
<?xml version="1.0" encoding="utf-8"?> <feed xmlns="http://www.w3.org/2005/Atom"> <!-- other tags --> <entry> <link href="http://example.com/mypage" /> <updated>2011-06-27T19:34:00+01:00</updated> <!-- other tags --> </entry> <entry> ... </entry> </feed>
※”other tags”は、任意にそれぞれ標準とされるタグを参照します。
※Google検索に加えてこれらのフィードを使用する他のサービスにも表示されるように、必要とされるタグを定義することをおすすめします。
ベストプラクティス
重要な項目
XMLサイトマップとRSS/Atomフィードの内部は、URLに付随するメタデータとともにURLのリストが含まれます。
Googleにとって2つの最も重要な情報部分は、URLそれ自身とLast Modification Time(最終更新日)です。
URL
XMLサイトマップとRSS/AtomフィードのURLは以下のガイドラインに従って記述します。
- Googlebotに取得されたいURLのみを含めます。
よくある失敗として、robots.txtで制限をしているURLを含めてしまったり(この場合はGooglebotは取得できません。)、存在しないページのURLを含めてしまっている事があります。 - canonical URLのみを含めます。
良くある失敗として、複製ページ(重複)のURLを含めてしまっている事があります。この場合はインデックス促進ではなく、サーバー負荷が増えます。
※canonical(URLの正規化)については以下のページをご参照ください。
Last modification time(最終更新日)
XMLサイトマップとRSS/Atomフィード内の各URLに最終更新日を明記します。
任意の項目ですが、ここは正確に最終更新日の記述を行うとクロールの優先度が高くなります。この日付は W3C Datetime形式で記述します。必要な場合は、時刻の部分を省略して YYYY-MM-DD の形式で記述することもできます。
ページに重要な要素の更新を加えた際にこの日付を変更しましょう。例えば、メインコンテンツや構造化データ、ページ上のリンクは重要な要素とみなされます。一方でコピーライトなどは重要な要素ではありません。軽いデザインやテキストの変更程度であれば日付を更新する必要はありません。
- XMLサイトマップで使用 <lastmod>
- RSSで使用 <pubDate>
- Atomで使用 <updated>
最終更新日の時刻は正確に記述してください。
- 正しいフォーマットに日付時刻を明記します。
XMLサイトマップは、W3C Datetime / Atomは、RFC3339 / RSSはRFC822 - 意味のあるコンテンツ更新の場合のみ最終更新日をアップデート
- サイトマップやフィードに関して常に現在の日付・時刻を最終更新日に設定してはならない。
RSS/Atom
RSS/Atomフィードはあなたのウェブサイトの最新の更新を伝えます。
これらは大抵小さく、更新が頻繁です。これらのフィードは以下をおすすめします。
- 新規ページが追加、または既存のページの意味のある更新があった際に、URLと最終更新日をフィードに追加します。
- Googleに更新情報を見過ごされないようにするには、RSS/Atomフィードは少なくとも前回Googleにダウンロードされた最終時刻以降の全ての更新日をその中に含める必要があります。
XMLサイトマップとAtom/RSSフィードの両方を生成する事は、Googleや他の検索エンジンにとってあなたのサイトへのクロールを最適化する良い方法です。
当サイトでも早速RSSフィードをSearch Consoleのサイトマップに登録してみました。
XMLサイトマップの定期更新については、Sitemap Creatorを使用して自動化しています。
検索エンジンにウェブサイトの最新の更新情報を細かく伝えるにはRSS/Atomフィード、サイト内の全ページの状態を伝えるにはXMLサイトマップを活用していきましょう。
Googleはページ上の情報から日付の情報を取得します。日付の情報は単独では順位に影響することはありませんが、最新情報を追加した際に日付も更新する事で、Googleにそのコンテンツの鮮度を評価してもらえるかもしれません。コンテンツの更新頻度と日付の関係性については以下の記事をご覧ください。