サイトマップについて: Python での作り方など

UB3/informatics/html/sitemap_make

このページの最終更新日: 2023/06/19

  1. 概要: サイトマップとは
  2. サイトマップの作り方: 作ってくれるウェブサイトなど
  3. サイトマップの作り方: Python で自作する

広告

概要: サイトマップとは

サイトマップとは、以下のようにウェブサイトの各ページについて URL およびその他の情報を一覧にしたものである。

一般には、ウェブサイトの所有者がサイトマップを作成し、Google に送信するもので、それによってウェブサイトのページが Google にインデックスされやすくなる。

<?xml version="1.0" encoding="UTF-8"?>
<urlset
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xhtml="http://www.w3.org/1999/xhtml" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <!-- www.check-domains.com sitemap generator -->

<url>
   <loc>https://ultrabem.com/</loc>
   <lastmod>2020-02-10T02:27:40+00:00</lastmod>
   <changefreq>monthly</changefreq>
   <priority>1.0000</priority>
</url>
<url>
   <loc>https://ultrabem.com/experiments/safety/waste_drain</loc>
   <lastmod>2020-02-10T02:27:40+00:00</lastmod>
   <changefreq>monthly</changefreq>
   <priority>0.6400</priority>
</url>
<url>
   <loc>https://ultrabem.com/other_topics/genetics/population_genetic_drift</loc>
   <lastmod>2020-02-10T02:27:40+00:00</lastmod>
   <changefreq>monthly</changefreq>
   <priority>0.6400</priority>
</url>

このサイトでは、sitemap.xml のようなファイルをサーバーにアップロードし、その URL を Google Search Console で提出している。以下の表示を見るに、新しいサイトマップを作っても、同じ名前で同じところに置いておけば、Google が自動で読みに来てくれそうである。

Googleにサイトマップを提出

xml サイトマップの重要事項

  • 含められる URL は 50,000 まで。それ以上になる場合は、フォルダごとに分割する。
  • 画像も含めて良い。

サイトマップの作り方: 作ってくれるウェブサイトなど

Web ツールを使う方法が一番簡単だろう。ultrabem.com などの URL をサブミットすると、xml のサイトマップがダウンロードできるようになる。

xml sitemap generator であれば、ついでに broken link なども教えてくれる。


サイト 説明

xml sitemap generator

無料でページ数無制限 という優れもの。長い間使っていたが、全てのページをクロールしていないという疑惑も (検証はしていない)。

sitemap.xml Editor 1000 ページまで。
XML-Sitemaps.com 500 ページまで。

使ったことはないが、インストールして使うソフトもあるので、一応調べたものをリストアップしておく。

サイト 説明
GSiteCrawler

フリーウェア。Windows 7 まで対応、10 では動かなかった。

thesitemapper

Windows にインストールして使うタイプのシェアウェア。$30 と高いので試していない。


サイトマップの作り方: Python で自作する

文献 1 の Python3 script を使って作っている。詳細は時間があれば追加。まずは、以下のシェルスクリプトを実行して、全ての URL を csv ファイルとして保存する。

/Users/username/Library/CloudStorage/Dropbox/ub_canonical/ の部分は、ウェブサイトの html ファイルが入っているフォルダである。このなかにいくつかサブフォルダがあり、サイトマップに含めたいフォルダが folderlist という変数に入っている。

ls 関数 をうまく使えばもっとエレガントにできるのかもしれないが、現在ではこの方法をとっている。

次に、以下の python3 script (1) を実行すると、xml サイトマップが出力される。これを Google search console が認識するところまで確認。


広告

コメント欄

サーバー移転のため、コメント欄は一時閉鎖中です。サイドバーから「管理人への質問」へどうぞ。

References

  1. Create a Simple XML Sitemap With Python. Link: Last access 2023/06/11.