Wayback Machineの使い方!過去のWebページの閲覧方法や削除方法を解説!
Wayback Machineの使い方を解説します。Wayback Machineは過去のWebページを閲覧できる便利なアーカイブサイトです。非営利団体Internet Archiveが運営するサイトで、誰でも無料で利用できます。
目次
- 1Wayback Machineとは?
- ・Internet Archive が保存している過去のサイトが閲覧できる
- ・検索欄にURLを入力して利用する方法
- ・キーワードで検索する方法
- 2Wayback Machineの使い方:過去のWebページを見る
- ・Wayback Machineに過去のデータを参照する方法
- 3Wayback Machineからサイトを削除する
- ・Wayback Machineのサイト情報を削除する方法
- 4Wayback Machineのアクセスを制限する
- ・ドメインでアクセスの制限をする方法
- ・ディレクトリでアクセスを制限する方法
- ・個別ページでアクセスを制限する方法
- 5Wayback Machineにサイトページをアーカイブする
- ・アーカイブする方法は2種類ある
- ・自動保存する方法
- ・手動保存する方法
- 6Wayback Machineは過去のサイトを見ることができる
Wayback Machineとは?
インターネットを閲覧していて、いつも閲覧していたWebサイトを久しぶりに開いたら「サイトが見当たりません」というメッセージが表示されて、Webサイトのページが全て閉鎖されていたという経験はありませんか?
特定のWebサイトをいつも閲覧していると、勝手な思い込みで、Webサイトは永久になくならないような勘違いをしてしまいがちです。しかし、「必要な時にみれば良い」とたかをくくって、大事な情報と思っていてもメモせずにいると、突然Webサイトが閉鎖して泡を食ってしまうことがあります。
そんなときに頼りになるのが、今回紹介する「Wayback Machine」というサービスサイトです。「Wayback Machine」を利用すれば、閉鎖してしまったWebサイトでも、後から閲覧できる可能性があります。
以下、失ったWebサイト情報の閲覧に利用できる便利サイト「Wayback Machine」の特徴と使い方についてレビューします。
Internet Archive が保存している過去のサイトが閲覧できる
「Wayback Machine」は、Internet Archiveという非営利団体が運営するサービスサイトです。Internet Archiveは1996年に米国で発足した団体で、1996年以降の世界中のWebサイトページのアーカイブを収集し続けています。
Internet Archiveの運営は寄付金で賄われているため、一般ユーザーはすべてのWebサイトページのアーカイブデータを無料で利用できます。Internet Archiveが収集したWebサイトページのアーカイブデータに関しては、2016年10月の調べでは2,790億以上のデータが保存されていることが確認されています。
検索欄にURLを入力して利用する方法
「Wayback Machine」の基本的な使い方が、「Wayback Machine」のホーム画面に表示されている検索欄にURLを入力して利用する方法です。「Wayback Machine」の公式サイトにアクセスして、過去のWebページのURLを入力します。
WebサイトのURLを検索すると、カレンダーでWebサイトがアーカイブされた日付がカラーマーキングされて表示されます。
閲覧したいアーカイブの日付をクリックすると、アーカイブされた時刻がポップアップで表示されます(同じ日付で複数回アーカイブされた場合は複数の時刻が項目表示されます)。閲覧を希望するアーカイブの保存時刻をクリックすると、該当するWebサイトのページが表示されます。
キーワードで検索する方法
また、「Wayback Machine」では、WebサイトのURL以外に、キーワードで検索する方法・使い方もあります。
キーワードで検索する手順
「Wayback Machine」でキーワードで検索する使い方も基本的な手順は同じです。URLと同じように検索欄にキーワードを入力して検索すると、キーワードに関連すると思われるWebサイトが一覧表示されます。
一覧表示の中から閲覧を希望するWebサイトのURLもしくはサムネイルをクリックすると、URL検索と同じようにカレンダーでアーカイブ履歴が表示されます。それ以降の手順・使い方はURL検索と同じです。
Wayback Machineの使い方:過去のWebページを見る
次に、Wayback Machineで過去のWebページを閲覧する際の、具体的な手順・使い方を解説します。
Wayback Machineに過去のデータを参照する方法
まず、「Wayback Machine」の公式サイトにアクセスしましょう。以下のリンクからアクセスできます。
過去のデータを参照する手順
公式サイトにアクセスしたら、画面上方に表示されている検索枠に、過去にアーカイブされたデータを閲覧したいWebサイトのURLを入力して検索します(既に閉鎖されたWebサイトのURLでも構いません)。
検索結果が表示されると、該当するWebサイトのアーカイブ履歴が表示されるので、まず、閲覧を希望するアーカイブ年(Webサイトデータが保存された年)を選択します。
アーカイブ年を選択すると画面下方にその年のカレンダーが表示されます。丸くカラーリングされている日付がアーカイブデータがある日付なので、任意の日付をクリックするとアーカイブ時刻がポップアップ表示されます。
時刻のリンクをクリックすると、アーカイブされたWebサイトページが表示されます。
Wayback Machineからサイトを削除する
次に、「Wayback Machine」から、過去にアーカイブされたWebサイトデータを削除する手順を解説します。
Wayback Machineのサイト情報を削除する方法
まず、「Wayback Machine」から、過去にアーカイブされたWebサイトデータを削除するには、基本的に「Wayback Machine」の管理サイド「Internet Archive」のinfoメール([email protected] )宛に、削除依頼のメールを送る必要があります。
サイト情報を削除する手順
「Wayback Machine」にアーカイブされたWebサイトデータの削除は、「Wayback Machine」の管理サイド「Internet Archive」が削除依頼主をそのWebサイトの管理者と確認できた時点で受諾されます。そのため、自分をWebサイトの管理者として認めてもらうために、「Wayback Machine」の管理サイド「Internet Archive」と情報のやり取りを行う必要があります。
「Wayback Machine」のWebサイト上の操作で、アーカイブされたWebサイトデータを削除することはできないことを留意しておきましょう。
Wayback Machineのアクセスを制限する
「Wayback Machine」は「クローラー」と呼ばれるロボットプログラムで日々、自動的にインターネット上のWebサイトを巡回して、Webサイトページのデータをアーカイブしていますが、この「クローラー」のアクアセスを拒否して、自分のWebサイトのページデータを「Wayback Machine」にアーカイブさせないように管理する方法があります。
ドメインでアクセスの制限をする方法
クローラーとは、検索エンジンの管理・質の向上のために使われるロボットプログラムですが、クローラーのアクセスを管理するための命令文を記述するファイルを「robots.txt」と言います。
「robots.txt」にクローラーのアクセス許可に関する条件を記述して、Webサイトを設置しているデータサーバー内のディレクトリに保存すれば、記述した条件通りにクローラーのアクセスを管理できます。
ドメインでアクセスの制限をする手順
ドメイン単位(Webサイト全体)で、「Wayback Machine」のクローラーのアクセスを制限する場合は、まず、テキストファイルに以下の命令文を記述して保存します。
User-agent: ia_archiver
Disallow: /
ファイル名は「robots」として保存します。保存されたファイルのファイル名は、拡張子を含めると「robots.txt」となるはずです。
作成したテキストファイルは、Webサイトデータを保存しているデータサーバー内のルートディレクトリ(一番上の階層のディレクトリ)の中にアップロード(保存)します。
ディレクトリでアクセスを制限する方法
次に、ディレクトリ単位で、「Wayback Machine」のクローラーのアクセスを制限する手順を説明します。
ディレクトリのアクセスを制限する手順
ディレクトリ単位で、「Wayback Machine」のクローラーのアクセスを制限する場合は、テキストファイル内の記述で、「Disallow: /」以下にディレクトリ名を記述します。
User-agent: ia_archiver
Disallow: /ディレクトリ名/
複数のディレクトリのアクセスを制限する場合は、ディレクトリ名ごとに1行ずつ記述します。例えば、「image1」「image2」という2つのディレクトリのアクセスを制限する場合は、以下のように記述します。
User-agent: ia_archiver
Disallow: /image1/
Disallow: /image2/
作成したテキストファイルは、同じようにWebサイトデータを保存しているデータサーバー内のルートディレクトリ(一番上の階層のディレクトリ)の中にアップロード(保存)します。
個別ページでアクセスを制限する方法
またさらに細かく、ページ単位で「Wayback Machine」のクローラーのアクセスを制限することもできます。
個別ページのアクセスを制限をする手順
ページ単位で「Wayback Machine」のクローラーのアクセスを制限する場合は、テキストファイル内の記述で、「Disallow: /」以下にディレクトリ名に続いてページファイル名を記述します。
User-agent: ia_archiver
Disallow: /ディレクトリ名/ページファイル名
例えば、「file」というディレクトリ内にある「site.htm」というページファイルに対してアクセスを制限する場合は以下のように記述します。
User-agent: ia_archiver
Disallow: /file/site.htm
作成したテキストファイルは、同じようにWebサイトデータを保存しているデータサーバー内のルートディレクトリ(一番上の階層のディレクトリ)の中にアップロード(保存)します。
Wayback Machineにサイトページをアーカイブする
次に「Wayback Machine」にWebサイトページをアーカイブする方法・使い方を解説します。
アーカイブする方法は2種類ある
「Wayback Machine」で、Webサイトページをアーカイブする方法・使い方は2種類あります。自動保存する方法と手動保存する方法です。
自動保存する方法
「Wayback Machine」は自動でWebサイトページをアーカイブしています。「Wayback Machine」が自動でデータをアーカイブしているWebサイトは、申請されたWebサイトというわけではなく、「Wayback Machine」のクローラーが、任意のWebサイトを周回して、Webサイトページのデータをアーカイブしています。
「クローラー」とは、検索エンジンの精度を高めるために、インターネット上に存在するWebサイトを巡回してインデックスデータを収集するロボットプログラムです。
例えばGoogleなども、この「クローラー」を使って自社の検索エンジンの質を高めています。そのため、Webサイトの管理者がSEOとしてWebサイトの検索順位を上げてもらうためには、この「クローラー」に効率よく巡回してもらう必要があります。
自動保存する手順
「Wayback Machine」の自動アーカイブに関しては、Webサイトの管理側から働きかける必要はありません。「Wayback Machine」のクローラーによる自動アーカイブ機能が自主的に稼働します。
ただ、自分のWebサイトが確実にアーカイブされるか、またいつアーカイブされるかは「Wayback Machine」の管理サイド「Internet Archive」の運営に依存することになります。
手動保存する方法
「Wayback Machine」の自動アーカイブ機能は、いつWebサイトページをアーカイブするか読めないため、確実にアーカイブしたい場合は、手動保存する方法・使い方が用意されています。
手動保存する手順
「Wayback Machine」に、手動でWebサイトページをアーカイブする方法・使い方は、まず、「Wayback Machine」のホーム画面の下方に表示されている「Save Page Now」の項目下の手動保存用の入力フォームにアーカイブするWebサイトのURLを入力し、その隣にある「SAVE PAGE」のリンクをクリックします。
その後、数分の保存処理が行われ、データ保存が完了するとアーカイブしたWebサイトが表示されて、作業終了です。
Wayback Machineは過去のサイトを見ることができる
Wayback Machineはアーカイブされた過去のWebサイトを閲覧できる便利なサイトです。非営利団体Internet Archiveが運営するサイトなので誰でも無料で利用できます。
Wayback Machineの過去のWebサイトのデータは、自動でインターネット上のWebサイトをクローラーが巡回してアーカイブしますが、手動でWebサイトのURLをサイトに登録してアーカイブすることもできます。
Wayback Machineにアーカイブされた過去のWebサイトのデータを削除するには、Wayback Machineの運営元のInternet Archiveに削除依頼のメールを送って、削除依頼主がそのWebサイトの管理者であることが承認されなくてはいけません。
また、「robots.txt」という、クローラーのWebサイトへのアクセス条件を記述したテキストファイルを利用すると、クローラーのWebサイトへのアクセスを制限できます。