So führt Ihr ein AI Visibility Audit durch: SEO im Ohr - Folge 412

Show notes

Auch wenn eine Website in Google gute Rankings erzielt, muss sie in den KI-Ergebnissen von ChatGPT, Perplexity und Claude nicht unbedingt ebenfalls erscheinen. Um mögliche Probleme bei der KI-Sichtbarkeit zu erkennen, lohnt sich ein AI Visibility Audit.

US-Publisher fordern Common Crawl dazu auf, das Erfassen von geschützten Inhalten wie zum Beispiel Paywall-Content einzustellen.

Ein Gericht hat Google dazu aufgefordert, falsche Ergebnisse in den AI Overviews zu entfernen und ein Ordnungsgeld angedroht. Nach Auffassung des Gerichts ist Google für die Richtigkeit der Antworten verantwortlich.

ChatGPT führte zuletzt deutlich mehr Fan-Out-Suchanfragen durch. Gleichzeitig gibt es Hinweise darauf, dass die Daten in Google Trends durch solche KI-Suchanfragen verfälscht werden.

Show transcript

00:00:00: Hallo und herzlich willkommen zu einer neuen Ausgabe von Seeo im Ohr, eurem Seopodcast hier auf Seeo Südwest.

00:00:21: Wie immer mit den aktuellsten Seeo News der Woche.

00:00:25: Eine interessante Meldung in dieser Woche war das ein deutsches Gericht Google dazu aufgefordert hat falsche Informationen aus den AI Overviews zu entfernen und offensichtlich werden also solche KI Antworten vom Gericht anders bewertet als klassische Suche Ergebnisse.

00:00:45: Was ich daraus ergeben könnte, dazu später mehr außerdem.

00:00:48: ChatGPT führt deutlich mehr Fanout queries durch und im Zusammenhang damit irritierende Zahlen in Google Trends durch Fanout Queries die von einer KI ausgelöst wurden.

00:01:01: wir besprechen wie man ein AI Visibility Audit durchführen kann und zu guter Letzt US-Publisher fordern das Einstellen des Crawlings von Paywall-Inhalten durch Common Crawl.

00:01:13: Ja, all das sind diese Ausgabe von Seom Ohr, schön dass ihr dabei seid.

00:01:17: Fangen wir mal an mit der zunächst genannten Meldung.

00:01:20: und zwar hat das Landgericht München I Google zur Unterlassung bestimmter Behauptungen in den AI Overviews aufgefordert und im Fall eines Verstoßes mit einem Ordnungsgeld von bis zu zweihundertfünfzigtausend Euro gedroht.

00:01:35: Und das Urteil zeigt, KI-Antworten sind keine reinen Suchergebnisse.

00:01:39: Zumindest nicht nach Auffassung des Gerichts und das könnte weitere Konsequenzen nach sich ziehen.

00:01:44: Wie wir ja wissen kann KI halluzinieren also Antworten erfinden und damit falsche Informationen liefern.

00:01:50: Das gilt eben auch für die Google AI Overviews, also die zusammengefassten KI Antworte in der Suche.

00:01:56: Falsche Informationen an dieser Stelle könnten für Google zu einem Problem werden.

00:02:01: Das zeigt eben das gerade genannte Urteil und dabei ging es um einen Rechtsstreit zwischen zwei zusammengehörigen Unternehmen, ein Verlagshaus nebst Tochterunternehmen als Klägerin und dann Google als Beklagte.

00:02:15: Und der Grund des Konflikts sind bestimmte Behauptungen die per KI generiert wurden und in den Suchergebnissen von Google als eye-overviews prominent angezeigt worden.

00:02:27: Und wenn Nutzer nach dem Firmennamen der Klägerin in Kombination mit Begriffen wie Betrugsmasche suchten, dann erstellte die KI eigenständige Textauswertungen und diesen Texten wurde behauptet.

00:02:38: Die Klärgerinnen seien für unseriöse Geschäftspraktiken und Betrugsmaschen bekannt würden Kunden in abo-fallen Lockung schriftliche Anfragen ignorieren und mit bestimmten anderen dubiosen Unternehmen in Verbindung stehen Und die Klägerinnen sahen in diesen falschen Darstellungen eine Verletzung ihres Unternehmenspersönlichkeitsrechts.

00:02:57: Google werte sich mit dem Argument man stelle lediglich automatisiert Informationen von Webseiten dritter Damacher, sich diese nicht zu eigen und hafte daher als bloße Vermittlerin erst wenn sie auf eine offenkundige Rechtverletzung hingewiesen werde.

00:03:11: Und das Landgericht München-Eins gab der Klage überwiegend Stadt und verurteilte Google zur Unterlassung der meisten beanstandeten Behauptungen bei Meidung eines Ordnungsgelds von bis zu zweitundfünfzigtausend Euro oder ordnungshaft.

00:03:25: Ja, das Urteil ist besonders interessant weil das Gericht entschied dass Google in diesem Fall als unmittelbare Störerinhafte des Gerichts begründete.

00:03:31: dies damit dass die AI-Overviews weit über das bloße Verlinken von Suchergebnissen hinausgingen.

00:03:37: Die KI erstelle durch das Zusammenfassen eigenes Strukturieren und verknüpfen der Information eigenständige neue Aussagen, die den zugrunde liegenden Quellen teilweise gar nicht in dieser Form enthalten waren.

00:03:48: weil Google diese KI Funktion selbst anbietet und die Algorithmen kontrolliert muss es sich die generierten Inhalte als eigene Äußerungen zurechnen lassen.

00:03:59: Ein geringer Teil der Klage muss man auch noch dazu sagen, wurde abgewiesen.

00:04:01: So darf Google beispielsweise weiterhin behaupten dass die Klägerinnen mit einem Inkasso-Unternehmen zusammenarbeiten weil die Klärgerin die Unwahrheit dieser spezifischen Tatsachenbehauptung vor Gerichten nicht ausreichend glaubbar machten konnten.

00:04:15: und ja was bedeutet das ist konkret für die Suche.

00:04:17: sollte sich die vom gericht vertreten Meinung durchsetzen so hat Google möglicherweise ein Problem.

00:04:21: es muss entweder sicherstellen dass die in den AI Overviews und im AI Mode gelieferte Ergebnisse korrekt sind oder versuchen, die Verantwortung irgendwie von sich zu weisen.

00:04:31: Eine Möglichkeit wäre eine engere Bindung der KI-Antworten an verlinkte Quellen und damit eine stärkere Präsenz von externen Websites in den AI Overviews.

00:04:39: Die Frage ist auch, inwieweit sich das Urteil auf andere KI-Systeme wie zum Beispiel ChatGPT oder Cloud übertragen lässt?

00:04:46: Denn obwohl die zugrunde liegenden Modelle immer leistungsfähiger werden sind dort Fehler nach wie vor möglich.

00:04:53: Kommen wir mal zur ChatGBt Und dort finden derzeit im Hintergrund deutlich mehr sogenannte Fan-Outqueries statt, mit denen Informationen zum Beantworten von Prompts gesammelt werden.

00:05:08: Demnach werden für bestimmte Prompts mehr als dreißig Fanout Queries durchgeführt.

00:05:14: Das habt Chris Long beobachtet und hat es zum Beispiel auf X geteilt, diese Fan-Out-Zurandfragen dienen eben dazu die Antworten von KI System wie ChatGPT oder auch Geminal abzusichern und sie mit aktuellen Informationen anzureichern.

00:05:29: Dazu werden Suchanfragen an klassische Suchmaschinen wie Google-Gesand und die Ergebnisse für die Antwort verwendet.

00:05:34: Und die gestiegene Zahlen der Fanout Queries zeigt, dass es für Websites auch in Zeiten steigender KI-Nutzung wichtig bleibt, in den klassischen Suchergebnissen vorne zu stehen um die Chancen auf Erwähnung oder Links zu erhöhen.

00:05:48: Diese zusätzlichen Fan out Queries haben einen weiteren interessanten Effekt denn die Daten von Google Trends im Laufe des letzten Jahres auch merkwürdige Ausschläge gezeigt.

00:06:02: Und zwar, wenn man den Verlauf von Suchern fragen für beliebige Themen die man einfach mal zufällig auswählt einander gegenüberstellt dann sieht man interessante Parallelen.

00:06:13: also ich habe jetzt zum Beispiel einfach mal Cheesecake Roof und weitere Begriffe die eigentlich so miteinander nicht zu tun haben verglichen Und habe überall mehr oder weniger gleichen Verlauf gesehen und bei den meisten Suchern fragen auch einen deutlichen Anstieg über das Jahr einweg.

00:06:31: Aber das bedeutet es nicht zwangsläufig, dass das Interesse an diesen Themen gestiegen ist sondern wie James Findlissen auf LinkedIn festgestellt hat dürfte die Ursache dieses Verlaufs in den Suchern?

00:06:42: Fragen liegen die KI-Systeme wie ChatGPT oder Perplexity per Queer Refan outstellen.

00:06:50: Ja, das heißt man muss die Zahlen von Google Trends mit Vorsicht genießen.

00:06:56: Also dieser Rat galt auch schon vorher.

00:06:59: Muss aber auch dazu sagen diese Zahlen sind auch nicht komplett ohne Wert denn auch Suchanfragen die von einer KI gestellt werden per Query Fan-Out können letztendlich dazu führen dass eine Website oder eine Marke genannt oder sogar verlinkt wird in den KI Suchergebnissen.

00:07:13: ja und ob und wann Google dieses Problemen Google Trend beheben wird das bleibt abzuwarten.

00:07:19: Wenn ihr wissen wollt, ob eure Website in den KI-System überhaupt sichtbar ist bzw.

00:07:25: ob es grundlegende Probleme gibt, die dazu führen dass sie eben nicht in den KAI Systemen sichtbaus sagen kann dann solltet ihr ein AI Visibility Audit durchführen und damit könnt ihr eben Gründe aufzeigen warum eine Website bei Google ganz oben stehen kann und für Chatchapity, Gemini, Cloud oder PlexiT trotzdem unsichtbar.

00:07:47: Und mit so einem AI Visibility Audit prüft ihr vor allem technische und on-page Faktoren, die dann letztendlich dafür verantwortlich sind ob und wenn ja wie eine Webseite in den KI antworten.

00:08:06: erscheinen kann.

00:08:07: Und das audit um fast fünf Prüfschritte, die da waren zusammen ungefähr anderthalb Stunden und ihr könnt sie mit kostenlosen Werkzeugen durchführen.

00:08:16: Das ganze basiert auf Common Crawl – es ist eine gemeinnützige Organisation – und sie betreibt einen Bot namens CCBot der das offene Web jeden Monat durchsucht und die Ergebnisse als frei downloadbare Archive ablegt.

00:08:31: in der Cloud wurden zu einer der ersten Quellen, aus denen OpenAI und andere Modelle trainiert wurden.

00:08:39: Und ob der CC-Bot eine Website besuchen darf, das entscheidet damit indirekt zumindest darüber, ob deren Inhalte in die Daten gelangen, aus den dann die Modelle lernen oder gelernt haben.

00:08:50: Seit im Jahr zwei Tausend acht sind so über zehn Peter bei zusammengekommen – und pro Monat erfasst der Crawler etwa zwei bis zwei Komma fünf Milliarden im Webseiten über den gesamten Bestand mehr als dreihundert Milliarden.

00:09:01: Einziger Monat Scrawl umfasst rund dreihundfünfzig bis vierhundert Terabyte unkomprimierte Daten.

00:09:08: Ja und zuerst holt sich der CC-Board öffentlich reichbare Seiten ab, folgt dann den Links und hält sich dabei an die Robots TXT.

00:09:16: Und wer nicht gekrawlt wurde, ist auch ein Crawl nicht enthalten.

00:09:19: Die KI Anbieter greifen auf das Archiv zu, filtern nach Qualität und trainieren ihre Modelle mit den Daten.

00:09:25: Am Ende kann das fertige Modell die gelandene Inhalte wiedergeben um formulieren und empfehlen.

00:09:31: Die Aufnahme in diese Trainingsdaten wirkt wie ein Rankingfaktor – auch wenn man bei KISystemen streng genommen ja nicht von Rankings sprechen kann!

00:09:39: Krawl veröffentlicht auch einen Webgraph, der die Linkstruktur des Webs of Host und Domain eben abbildet.

00:09:45: Und daraus leitet die Organisation ein Maß namens Harmonic Centrality Up.

00:09:50: Wir haben hier schon mal drüber gesprochen in diesem Podcast vor einigen Monaten.

00:09:54: Ich weiß nicht ob ihr euch erinnert.

00:09:55: Die Idee dahinter ist eine Domain, die nah am Kern das linken Netz liegt.

00:10:00: Die gilt als zentraler als eine am Rand und zentrale Domains werden beim Krawlen bevorzugt.

00:10:06: Das unterscheidet sich dann vom klassischen Page Rank.

00:10:09: Der Patreon fragt, wie viele wichtige Seiten auf einer Webseite verlinken.

00:10:13: Und HarmonicCentrality fragt – Wie nahe die Webseiten am Kern des Websites?

00:10:19: Ein einziger Link von einer kerneren Seite kann die Centrality stärker heben als dutzende Links von abgelegenen Seiten und für die Praxis bedeutet das link Qualität zahlt sich doppelt aus.

00:10:29: höhere Zentrality bedeutet höher figgere Besuche mehr erfasste Seiten mehr Trainingsmaterial und damit eine größere Chance dass Modelle die Seite kennen und empfehlen.

00:10:39: In der klassischen SEO bringt ein erneuter Crawl, eine Änderung binnen Tagen in den Index.

00:10:44: Bei der Trainingssichtbarkeit dauert das etwas länger.

00:10:47: Eine Seite erscheint – der CC-Borderdeckzieh bei einem späteren Durchlauf, einen Monatscrawl nimmt sie in das Archiv auf und wird veröffentlicht und erst eine spätere Trainingsrunde verarbeitet ziehe.

00:10:57: Und jeder Schritt kostet Zeit!

00:10:58: Diese Form der Sichtbarkeit baut sich damit recht langsam auf.

00:11:01: Zugang und Anbindung sollte man früh richtig setzen weil der Effekt nach dem Zeitplan des Modells eintritt.

00:11:08: Ist dann eine Seite einmal gelistert, dann lebt sie in zwei Schichten.

00:11:11: Die erste ist das parametrische Gedächtnis Inhalte die vor dem Trainingsschichttag erfasst wurden und fest in den Modellgewichten stecken, dass es das Wissen, dass ein Modell abruft ohne nachzuschlagen.

00:11:21: Und die zweite Schicht ist die Liveabfrage auch Retrieval Augmented Generation genannt.

00:11:27: Inhalten, die das Modell zur Laufzeit frisch holen.

00:11:29: Dafür muss die Seite für Such- und Abrufbots zum Zeitpunkt der Abfrage erreichbar sein.

00:11:34: Eine Website kann im parametrischen Gedächtnis stehen, aber für Live-Abfragen gesperrt sein oder umgekehrt.

00:11:40: Ein vollständiges Audit prüft beides und diese Unterscheidung geht auch auf das Rahmenkonzept von Dwayne Forrester zurück.

00:11:49: Jedes Modell hat einen Trainingsstichtag, Inhalte die danach erscheinen Leben zunächst nur in der Liveabfrage, bis die nächste Trainingsrunde sie aufnimmt.

00:11:57: Je weiterer der Stichtag eines Modells zurückliegt, desto stärker hängt es bei aktuellen Themen am Live-Abruf und desto mehr entscheidet der heutige Crawler Zugang darüber ob eine Seite auftaucht.

00:12:09: Chatchi Petit Gemini & Cloud Mission trainiert das Wissen mit Livesuche per Plexity Arbeitet überwiegend mit Liveabfragen Und die konkreten Stichtage ändert sich mit jeder Modellversion.

00:12:19: verlässlich sind nur die Angaben der Anbieter selbst, ihr könnt ja auch jeweils nachschlagen in den Model Cards.

00:12:25: Das sind diese Daten enthalten.

00:12:28: Genau und kommen wir jetzt mal zu den einzelnen fünf Prüfstritten dieses Ornits.

00:12:34: also im Schritt eins prüft er einfach erreicht der Crawler die Seite?

00:12:37: hier prüfte man ob irgendetwas bestimmte KI Crawler aussperrt.

00:12:41: Und da schaut man zunächst in der Robots CXC nach Disallow-Zeilen für CCBot, GPT-Bot Cloudbot oder Google Extended.

00:12:49: Eine saubere Robots cxc sagt aber noch nichts wenn die Firewall den Bot trotzdem abweist.

00:12:54: Deshalb fragt man den Server zum Beispiel mit dem CCBOT User Agent und vergleicht die Antworten mit eines normalen Browsers.

00:13:01: Wenn ihr an zwei Hunderter als Antwort bekommt dann ist das gut.

00:13:08: Bekommt der Browser Zweihundert und der SC-Siebort Vier Null Drei, dann sitzt die Sperre am Rand bzw.

00:13:13: in der Firewall.

00:13:14: Ansatzpunkte sind die Konfigurationen des Content Delivering Networks oder die Einstellung des Web-Servers.

00:13:21: und hier noch ein Hinweis, manche Hosting Anbieter blockieren KI-Bots standardmäßig zum Beispiel beim Shared Hosting.

00:13:28: Hier hilft dann nur ein Gespräch mit dem Support oder einem Wechsel des Anbeters.

00:13:32: Im zweiten Schritt schaut ihr danach, steht die Domain wirklich im Archiv?

00:13:37: Über den Common Crawl Index könnt ihr abfragen ob die Domaine, die ihr prüfen wollt vorhanden ist wenn sie zuletzt gecrawled wurde und wie viele Seiten ungefähr erfasst sind.

00:13:46: Keine Treffer heißt nicht enthalten, wenige Treffer heißen nur oberflächlich erfasst.

00:13:51: Und eine Domain kann offenstehen und trotzdem kaum besucht werden.

00:13:55: das muss man auch wissen.

00:13:57: Ja dann noch einen Zwischenschritt der echte CC-Bot der läuft innerhalb fester IP Bereiche mit Reverse DNS.

00:14:03: Eine geblockte Entschuldigung.

00:14:04: eine gelockte IP prüft man per forward confirmed reverse dns.

00:14:10: Der echte cc bot löst auf einem Hostname unter crawlcomentcrawl.org und der zeigt dann wieder auf dieselbe IP, das also nur wenn ihr es genau wissen wollt.

00:14:23: Im dritten Schritt schaut ihr wie die Domain priorisiert oder zurückgestellt und hier prüft ihr die sogenannte Harmonic Centrality.

00:14:30: Ein niedriger Rang bedeutet zurückgestellt im CrawlBudget, dann besucht der Crawler die Seite selbst bei offenen Zugang nur oberflächig und selten.

00:14:40: Eine niedrige Centrality markiert man als strategisches Risiko- und Ziel für Linkaufbau, der auf Kernnahrseiten zielt.

00:14:47: Am schnellsten geht das aktuell dieser Check mit dem CC Rank Checker und den habe ich euch auch verlinkt im Beitrag auf SEO Südwest, der Stamm von Meteharn Jeselyurt hat das Ganze auf Basis der Webcraft Daten gebaut.

00:15:01: Im vierten Schritt schaut ihr, ob sich die Inhalte sauber abbilden lassen.

00:15:05: Entitäten und strukturierte Daten sind im Training schwerer darzustellen und für Modelle schwerer zuzuordnen.

00:15:11: Auf den wichtigen Seiten prüft ihr deshalb das Schema.org-Markup, Organisationen, Artikel beziehungsweise Produkt, Auto, Breadcrumb usw.

00:15:20: Und das könnt ihr dann auch mit dem Google Rich Results Test prüfen.

00:15:24: Ja und im fünften und letzten Schritt müsst ihr schauen, ob die Inhalte auch ohne JavaScript funktionieren.

00:15:30: Denn viele KI-Crawler verhalten sich wie der Googlebord.

00:15:33: Sie holen sich das HTML, führen aber kein JavaScript aus und werden die wichtigen Inhalten erst nach dem JavaScriptlauf angezeigt.

00:15:39: Dann erfasst der Crawler womöglich eine leere Hülle.

00:15:41: Man gleicht den Ronenabruf mit der gerandeten Seite ab und sucht im RonenHTML nach allen wichtigen Informationen.

00:15:48: Und wenn ihr da fündig werdet... Dann sind die Inhalte für den Crawler sichtbar.

00:15:54: Wenn ihr da nichts findet, dann heißt das Die Inhalter werden per JavaScript nachgeladen und der Crawler sieht möglicherweise nicht.

00:16:00: Ihr könnt zum Test auch eine Website mit im Browser deaktivierten JavaScript laden und sich dann die Ergebnisse anschauen.

00:16:07: Auch Tools wie Screaming Rock können hier bei der Analyse hilfreich sein.

00:16:11: So, das ist also die Schritte Und damit könnt ihr ein relativ gutes und umfassendes AI Visibility Audit durchführen.

00:16:20: Und weil ich gerade von Common Crawl geredet habe, dann auch noch die letzte Meldung, die dazu passt.

00:16:25: Nämlich US Publisher und Nachrichten-Herausgeber, die fordern das Einstellen des Crawlins von Paywall-Inhalten durch Common Crawls.

00:16:36: Denn Common Crawle soll nicht nur frei verfügbare Inhalte gekrawlt haben sondern paywall-Inhalte und Inhalte, die eigentlich nur für Abonnenten zugänglich sind.

00:16:50: Und dagegen wehrt sich der Branchenverband Digital Content Next DCN und per Anwalt haben sie eine Unterlassungsaufforderung geschickt.

00:17:01: Da wird gefordert eben diese Taktik oder Technik einzustellen und auch bereits gekrowte Daten wieder zu löschen.

00:17:13: Ob die Inhalte einer Website in den Daten von Common Crawl enthalten sind, das haben wir ja gerade festgestellt.

00:17:17: Das kann eben darüber entscheiden ob die Websites in den Antworten der KI-Plattform wie TechGPT oder Publicity erscheint.

00:17:24: aber ganz klar ist wenn ihr extra Inhalts als News Publisher hinter eine Paywall steckt dann wollt ihr wahrscheinlich nicht dass genau diese Inhalter dann auch in den kostenlosen Antworten von irgendwelchen KI Systemen erscheinen.

00:17:39: Ja, Common Crawl Geschäftsführer Rich Scranter hat den Vorwurf übrigens zurückgewiesen Verlage blogen zu haben.

00:17:47: Und er betont sein Team reagiere zügig auf Löschwünsche und niemand habe je behauptet dass dieser Prozess sofort und vollständig ab.

00:17:55: Laufen.

00:17:56: und allerdings sagt er auch in November letzten Jahres gegenüber die Atlantic.

00:18:02: Sinn gemäß wer seine Inhalte nicht im Netz haben wollte, der hätte sie dort nicht veröffentlichen sollen.

00:18:07: das klingt dann doch eher auch ein bisschen nach Konflikt.

00:18:11: ja und dazu empfehle ich euch auch sehr gerne den Artikel zum Thema Content.

00:18:18: Dilemma wie Publisher im Zeitalter der KI überleben können den findet ihr auch Auf Seeo Südwest und zwar prominent oben rechts ist ja noch auf der Startseite zu finden, weil das nach wie vor ein sehr aktuelles Thema ist.

00:18:32: Vor allem für diejenigen mit ihren Inhalten Geld verdienen wollen.

00:18:37: Ja und damit sind wir auch schon wieder am Ende dieser Ausgabe von Seeho im Ohr, ich hoffe es war was Interessantes für euch dabei.

00:18:43: und ja ich freue mich sehr aufs nächste Mal!

00:18:45: Ich hoffe ihr schaltet dann auch wieder ein und in etwa einer Woche gibt's dann die nächste Ausgabel von SeeHo im Ohhr.

00:18:52: und nicht vergessen auch in der Zwischenzeit schaut regelmäßig auf Seeho Südwest vorbei.

00:18:56: da gibts auch für euch täglich die aktuellsten Seeho News und das auch am Wochenende nennen was Wichtiges passiert.

00:19:01: Ich wünsche euch eine gute Zeit und sage tschüss bis zum nächsten mal, euer Christian.

Show notes

Show transcript

New comment