Posts tagged ‘web bot’

別件※の試行でサーバのアクセスログを見ていたら、見掛けないボット・クローラー(Barkrowler*)からのアクセスが連続していた。調べると、SEO関係の事業で使うようで、Googleなどと違って こちらには何のメリットもなさそうだ。全体的なアクセス頻度やデータ転送量は多くないから余裕があるものの、気分が良くないのでブロックしたくなった。

以前もブロックしたことがあるが、アクセス頻度やデータ転送量が多くない(ガラガラ)のと、(最後に書いたが、)自分からネットに公開していることもあって、「まあいいか」と思って止めた。

そもそもSEOは嫌いだ。それのせいで、しょうもないページが検索の上位に来て迷惑だ。だから、SEOに協力する気はない。

※このブログの少しちゃんとした英語対応を検討したが、簡単ではないことが分かった。: あとで書きたい。

*サイト名は"babbar.tech"と 妙な連想をさせるが、きっと ちゃんとした名前なのだろうw

それで、他にもないか調べると、以下が多かった。

2023年4月の概算アクセス回数が多かった順に:

  • 10000回以上
    • ブロック: AhrefsBot, MJ12bot, DotBot
    • 許可: bingbot, Googlebot(+Googlebot-Image)
  • 1000回以上
    • ブロック: SemrushBot(+SemrushBot-BA), PetalBot, Linespider, MegaIndex.ru, DataForSeoBot, Barkrowler
    • 許可: Applebot, PetalBot
  • 200回以上
    • ブロック: magpie-crawler, MBCrawler, trendictionbot
    • 許可: YandexBot

他に、回数は少ないものの、以下は(嫌な感じなので)ブロックした。

  • 360Spider, YisouSpider, Bytespider, Pinterestbot

上位3つの多さが目に付く。それらはいずれもSEO関係に使われるようで、切っ掛けのBarkrowlerと同様に、こっちには何のメリットもない。他人が作った情報を無料で取って勝手に商売に使う、タダ乗り・フリーライダーだ。その他も大方はSEOだ。

Pinterestbotは初めて知ったのだが、(写真を)Piterestに「ピン」するとかいう機能のようで、勝手に そういうことは されたくない。基本的には、このページの右下の「著作権について」に従って欲しい。せめて、ホスト名などのクレジットを書くのは当たり前だ。

なお、Linespiderは迷ったが、LINEのユーザと このブログは被る範囲が全く なさそうだし(しかも、ここがLINEで検索する対象だとは思えない)、LINEは信用していないうえにアクセス頻度が多いのでブロックした。Baiduspiderも迷ったが、百度のサービスは使ったことがあるのとアクセス頻度が少ない(先月は100回未満)ので許可した(信用しているかと言えば、そうではない)。YandexBotのアクセス頻度は少なくないし、サービスを使ったことも ほとんどない(採用しなかったが、翻訳は悪くなさそうだ)が、迷った末に許可した。

(5/3 18:22) その後、PetalBotはHuaweiの(スマフォ用の?)検索エンジン、PetalSearch※のものだと分かった。PCでもアクセスできるので、オープンなようだ。百度やYandexを許可するなら これも許可するのが妥当だが、はてどうするか・・・ → アクセス頻度がクソほどは多くないので、とりあえず許可した。

※なんかGのパクリ感満載だが・・・

全く余計なことだが、それでもLINEは許可しない。嫌いだからだ。例えば、あのウサギがキモい。それに、名前をspiderにして検索しにくくしているのは、卑怯だ。

 

ブロックの方法(概略)

最初はWPのプラグインAll in one security(AIOS)のブラックリストに設定したが、もっと きっぱりと遮断したくなって、webサーバに設定した(詳細は記載しない)。サーバに、403のような応答すら返さずに切断できる機能があるので、そうした。それだと、こちらから送信するデータ転送量を減らせるのと、相手にちょっとした仕返し(応答がないと、相手はタイムアウトまで待たなければならない)が できそうだからだ。※

※が、応答しないと数回連続してリトライするものがあるので、痛し痒しだ。そのうち忘れてくれるか? → 書いたあとで、"418 I'm a teapot"という人を食ったような応答コードを見付けたので、それを返すことにした。クソ鬱陶しいボットに皮肉が通じれば良いがw (5/2 20:32)

(5/3 18:29) 他に使えそうなコードは、400 Bad Request, 402 Payment Required, 410 Gone, 421 Misdirected Request, 422 Unprocessable Content, 429 Too Many Requests辺りかと思ったが(参照: 応答コードの解説)、ボットには何でも関係ない感じだ。であれば、666や999も おもしろそうだ。

「変なコード」を返すようにすると、アクセスログで検索・集計しやすくなるので便利だ。

あと、検索したら、不正アクセスに対してであるが、ハニーポットにして変なバイナリデータを返すという人も居た。通信データ量が増えてもいいなら、それもおもしろい。攻撃(準備)に対して出来る数少ない反撃か? でも、下手なことをすると却って危なそうだ。

また、ブロックするボット名のパターンを拒否ボット一覧ファイルに設定できるようにしたので、(今一つ信用ならないことのある)AIOSを止めても効果は継続し、追加・削除も容易だ。

ブロックの効果 (5/6 8:10)

ブロックを設定してから数日経ち、効果が見えた。以下に、サーバへのアクセス頻度のグラフを示す。

SEOのボットの拒否などでサーバへのアクセス頻度を減らした。: 5/2 14時頃以降が設定後。

ブロックを設定した中央以降は、外部アクセスだけの時間帯(谷になった部分: 僕のデスクトップPCが停まっていて、そこからのアクセスがない)が1/2くらいに減った(約0.1 → 約0.05アクセス/秒)。最初に書いたように、元々「ガラガラ」で頻度の絶対値は小さいし、データ転送量は ほとんど減っていない。

ただ、余計なアクセスをなくすことで、ログから不正アクセスや攻撃の予兆を見付けやすくなる効果は ありそうだ(ちゃんとしたファイアウォールを使えという意見は正しいが、なかなか容易ではない)。

 

むすび

そもそも論から言えば、自分でネットに公開しているからには「誰でも自由に使って良い」という前提・意識ではあるが、使うにしたって最低限のルール(マナーのようなもの)はあるし、無料で公開されている情報を使った結果はオープンにすべきだと思う(ギブアンドテイク)。※ GoogleやAppleやBingはアクセスが多いが、それぞれ検索エンジンで自由に使えるから許せる。*

※例えば、取得したデータを無料で公開するとか、広く使われている検索エンジンやInternet Archiveに提供するとかだ。

*その点では、Appleは かなり閉鎖的で自由に使えないからメリットがない気がする・・・ が、(SEOと違い、かなり多くの)Apple製品を使っている人の検索に使われているだろうから、とりあえずは良しとする。 ← 調べたら、Appleは検索エンジンを持っていないようだ。地図みたいに、そのうち出すのかも知れない。

なお、ここで問題にしているのは、データ(文章や写真など)をコピー・ダウンロードして使う場合で、法的に妥当な範囲の引用やリンク(いわゆる「直リン」)は問題ない(それでもクレジットは付けて欲しいが)。

 

PS1. ボットごとの回数リストを作る時に頭に来たのは、各ボットのUser-Agentの文字列の書式がバラバラで、簡単にはアクセスログから名前を抽出できないことだ。

ChatGPT(無料版)に方法を聞いたが、さすがに うまく行かなかった。: そういうところから推測すると、前の稿に書いたように、分かっていること切り貼りして出しているようだ。

今回は規則的な処理では不可能なので、うまく行かなくて仕方ないが、そういう回答ができないところが惜しいし、AIなんだから「AI的に何とか(推論など)する」方法を出せないものか? (← そういう質問はしていないので、出ないのも仕方ない?)

PS2. 妙なのは、DuckDuckGoのボットからのアクセスがほとんどなく(先月は100回未満)、しかもファビコンの取得しかしていないことだ。昔調べて分かったが、彼らは他人の褌(Googleとか?)で仕事をしているようで(しかも、そういうことを明示していなかった)、プライバシーの点は いいのかも知れないが、なんか信用できない。

アクセスがないと言えば、OpenAI(ChatGPTなど)からも ない感じだ。まあ、親会社のMS(Bing)のデータやWikipediaなどをメインに使っているのだろうか? いずれにしても、彼らは ある程度無料で使えるから良い。

そういう大口ユーザがWikipediaに寄付してくれればいいのにと思ったが、そうするとWikipediaの独立性が損なわれるので難しい。

PS3. アクセスログを見ていたら、USの有名セキュリティ企業Pからのアクセス(アドレススキャン)が鬱陶しい。ブロックすると別のアドレスからスキャンして来るから しつこい。頻度は高くないけど嫌なので、完璧にブロックしたくなる。ご丁寧に、アクセス時のUser Agentに「停めて欲しければ連絡しろ」などと書いてある。

「自分たちは正義だから何しても正しい!」という、いかにもUSの思想なんだろうと想像するが、糞喰らえだ。大体、お前らは私企業で、UAに書いているとおり、客(自分)のためにしているだけ だろうが。 (5/6 8:10)

 

(5/6 8:10 ブロックの効果を追加, 書式などをわずかに追加・修正)

  •  0
  •  0
Keys: , , , , , ,