Seit einiger Zeit kommt auf verschiedenen Webseiten ein Bot vorbei welcher u.A. versucht PDF Dateien herunterzuladen. Soweit so gut und auch kein Problem. Allerdings verwendet er beim Crawlen den Dateinamen des Files in Kleinbuchstaben. Also anstelle “example.com?file=Abc.pdf” versucht der Bot “example.com?file=abc.pdf” herunterzuladen – was in einer Fehlermeldung endet.
Etwas ungewöhnlich finde ich die Daten des Robots:
HTTP_USER_AGENT
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729)
REMOTE_ADDR
65.55.110.179
Der Agent ist teilweise unterschiedlich (andere .NET Version). Die IP stammt aber ausschließlich aus dem Microsoft-Netz (Whois) und gehört anscheinend dem “msnbot-65-55-110-179.search.msn.com”. Warum meldet der sich nicht mit einem entsprechendem User-Agent? Warum der “Bug” mit den Kleinbuchstaben?
Ich habe mal eine Mail an den Support von Bing geschickt…
weitere IPs des Bots: 65.55.107.204, 65.55.110.133, 65.55.109.170, 65.55.109.110, 65.55.110.164, 65.55.110.124