HTML, Bildsuche und warum falsch genau richtig sein kann...

HTML, Bildsuche und warum falsch genau richtig sein kann... - (c)Alexander Finger

Was hat HTML mit der Suche nach Bildern im Internet zu tun?

Das ist eine etwas spitzfindige Frage, da die meisten Suchen im Internet auf den Webseiten der Bildanbieter mit einem Browser stattfinden. So sollte man meinen, HTML ist die wesentliche Komponente. Denn im HTML Code einer Seite wird festgelegt was, wie und wo auf einer Seite angezeigt wird. D.h., ohne HTML gäbe es gar keine Seite.

Ebenso weit verbreitet ist die Erkenntnis, dass HTML gewissen Standards entsprechen sollte. Denn nur sauberes HTML, HTML Code der den Anforderungen des W3C Standards entspricht, kann auf allen Browsern einigermaßen identisch angezeigt werden. So die Theorie. Wenn man nun aber die Webseiten der am Markt vertretenen Anbieter genauer unter die Lupe nimmt, wird man auf den Seiten zwischen 50 bis zu 350 Fehler auf einer einzigen Seite finden. Mit Fehlern meine ich nicht das weglassen von Attributen in HTML TAGs, für die bessere Interpretation durch Suchmaschinen Crawler. Ich rede von Fehlern im Sinne von falschem HTML, also Dingen die man einfach nicht tun sollte.

Warum? Ist es den Gestaltern der Seiten schlichtweg egal? Sind es Zugeständnisse an die zur Verfügung stehenden Ressourcen (Zeitknappheit)? Ist es schlichtweg Unwissenheit oder unprofessionelles Arbeiten? Oder ist das Vorsatz?

Ich denke es handelt sich um Vorsatz, denn die HTML Seiten der meisten Bildanbieter lassen sich tatsächlich -- trotz des hohen Anteils an falschem HTML -- noch einigermaßen gut in den Suchmaschinen wie Google finden. Aber die Ergebnisse der Bildsuchen sind ohne einen extremen Aufwand in der Analyse und Programmierung nur sehr schwer automatisch einlesbar. D.h., wenn jemand versuchen würde, eine Suchergebnisseite eines Bildanbieters automatisch durch ein Programm auslesen zu lassen, um die gefundenen Bilder in einer anderen Darstellung anzeigen zu lassen, d.h. wenn jemand versuchen würde die HTML Seiten des Anbieters zu umgehen, dann ist dies aufgrund der Verletzungen des Standards fast unmöglich. Idealerweise würde man nämlich für dieses Unterfangen Module zum einlesen und automatischen Verarbeiten von HTML oder XML verwenden. Aber diese Module gehen -- natürlich -- davon aus, dass der Quelltext "ordentlich" strukturiert ist, und gewissen Mindestanforderungen entspricht.

Also Vorsatz zur Verteidigung der eigenen Plattform. Die aktuellen Browser unterstützen dieses Verhalten insofern, als dass die Darstellung von falschem HTML seit den ersten Generationen ein muss ist. Wäre dem nicht so, hätte das World Wide Web nicht diesen Erfolg gehabt. Würden Browser auf die Einhaltung der Standards bestehen, würden a) unglaublich viele Inhalte gar nicht mehr dargestellt werden, und b) könnten Anbieter von Urheberrechtlich geschützten Inhalten diese nicht auf so einfache und effektive Weise vor dem Zugriff durch automatisierte Verfahren schützen.

Wenn Sie mehr wissen möchten, treten Sie mit mir in Kontakt.

Mit freundlichen Grüßen,

Alexander Finger