archive.isをブロック（拒否）する方法

2016/06/122017/11/15

code

・Webフォームから削除依頼を出しても、無視された
・Twitterで削除依頼しても、無視された

私自身はそんな感じ。検索で調べても削除の実績を確認できないので、無駄なんじゃないかなぁと思う。

そんな感じなので、IPアドレスではじくしかないかと思います。
個人的には、Googleにそのページをインデックスさせないのならよいと思うんですが・・。

order allow,deny
Allow from all
deny from 94.242.63.255/18 
deny from 46.166.136.0/21
deny from 78.46.0.0/15
deny from 78.108.176.0/20
deny from 139.162.192.0/19
deny from 146.0.72.0/24
deny from 146.0.75.0/24
deny from 151.236.216.0/21
deny from 178.62.128.0/17

.htaccessではじくなら、こんな感じ。
ただし、archive.isってクロールするIPが良く変わるんですね。
また、複数のサーバーからクロールにくるので、１つはじいた程度では無理だったりします。

・archive.is サーバーIPアドレス一覧 « REIMA's Blog

IP一覧は上記の記事が詳しいです。

追記：2017/11/15
.htaccessが使えない時は、忍者バリアというサービスをつかうと疑似的に可能だと思う。

「忍者バリア」を用いて、archive.isを拒否する方法 – ブログ運営のためのブログカスタマイズ

クロールのIPの調べ方

<?php
// IPアドレスを取得する
$ip = $_SERVER["REMOTE_ADDR"] ;
$today = date("Y-m-d H:i:s");

$file = 'ip.txt';
$out = $today." | ".$ip."\n";
file_put_contents($file, $out , FILE_APPEND | LOCK_EX);
echo "<br/>";

上記のようなphpを作成して、実際のそのページをアーカイブすれば、そのときのクロールしているサーバーのIPは判明します。上記例だと、ip.txtというファイルが同じフォルダに作成されて記録されるので、そのファイルをみればわかります。

・IPひろば：メイン
・IPアドレスの持ち主を調査(Whois IP) | Magonote-tools
・RIPE Database — RIPE Network Coordination Centre

IPからその所有者をみつけだし、IPが割り当てられている範囲分すべてブロックしてしまうというようなことをします。

参考

コードを見てみると、GoogleAnalytics関連は無効化されているので余計なログは残らないしGoogleのポリシーにも違反しないのは良いところだけれど・・・
元ページなんかを示すcanonicalタグは書き換えられていました。
まあどのサイトをキャッシュしたかはキャッシュページに記載されているから「どのサイトかわからない」って事はないけれど、重要なcanonicalを削除するのはひどいなあ。
アーカイブ拒否を無視するarchive.isをブロックする « REIMA's Blog

まあ、REIMAさんもおっしゃるとおり、canonical書き換えんなよ、とは思いますけどね。あと削除の指針は示してもらいたい。

たとえばコンテンツをパクろうとする悪い輩がいたとして、対象ページの魚拓をarchive.isに取り、内容をパクった上で、しれっと「出典：archive.is」とか言い張ることもできるわけです。そんな戯れ言が通用するかはともかく。
2016年、再びarchive.isについて | やわなべ.net

archive.is に魚拓取られてイヤな思いをしている子はいねがー | やわなべ.net

クロールのIPの調べ方

参考

関連記事

関連記事