KI als Suchmaschine – eine gute Idee?

Wenn Du dich fragst, wann das Fenster erfunden wurde, wie eigentlich ein Eulenküken aussieht oder wer der aktuelle Papst ist, so hättest Du vermutlich noch vor kurzer Zeit mit einer Google-Suche versucht, diesen Fragen auf den Grund zu gehen. Doch mit zunehmender Beliebtheit von KI-Sprachmodellen werden diese immer häufiger als Suchmaschinenersatz genutzt, um vermeintlich schnell und einfach Daten und Fakten zu recherchieren. Nicht nur das, sie werden auch immer mehr von Suchmaschinen wie Google oder Bing in Form von KI-generierten Zusammenfassungen in die klassische Websuche integriert. In diesem Artikel wollen wir uns damit beschäftigen, ob KI-Sprachmodelle sinnvoll für solche Aufgaben nutzbar sind, wie das Ganze funktioniert und auf welche Problematiken man dabei stößt.

Die Wahrheit und nichts als die Wahrheit?

Etwas Hintergrundwissen zum Anfang: ChatGPT, Gemini, Copilot und Co sind in ihrer Funktion als Sprachmodelle, auch Large Language Models oder kurz LLMs genannt, etwas ganz anderes als Suchmaschinen. Während Google oder Bing das Internet nach inhaltlichen Antworten durchsuchen und Nutzer:innen auf andere Websites weiterleiten, werden LLMs im Vorfeld mit großen Datenmengen „gefüttert“, die nach statistischen Parametern ausgewertet werden. Hier gilt nicht: „Welche Aussage ist inhaltlich zutreffend?“, sondern „Welche Begriffe werden häufig in Kombination mit den gefragten Begriffen genannt?“.

Mehr Infos: So funktionieren LLMs

So weiß die KI zum Beispiel nicht, was ein Apfel ist. Sie weiß aber, dass der Begriff „Apfel“, häufig im Zusammenhang mit „Obst“ genannt wird. Sie behauptet deshalb, dass es sich bei einem Apfel um Obst handelt. Sie weiß auch, dass andere Begriffe, wie z.B. „Mond“ oder „Universität“ semantisch weiter entfernt von „Apfel“ sind als es die „Birne“ ist. Die Antworten der KI beruhen also auf sprachlichen Wahrscheinlichkeiten und nicht auf inhaltlicher Richtigkeit. Im Fall des Apfels mag die Antwort stimmen. Ein Problem bei dieser Arbeitsweise ist jedoch das Auftreten von sogenannten „Halluzinationen“, bei denen LLMs frei erfundene Informationen als Fakten präsentieren. Wenn ihr genauer wissen wollt, was das bedeutet und wie das funktioniert, schaut gerne bei unserem Blogeintrag zum Thema vorbei. https://forschendeslernen.blogs.ruhr-uni-bochum.de/halluzinationen-und-ki/

Sprachmodelle mit oder ohne Websuche – Was ist der Unterschied?

Die meisten LLMs wie ChatGPT, Copilot und Gemini haben inzwischen integrierte Web-Suchfunktionen, die bei der Beantwortung bestimmter Fragen und Prompts genutzt werden kann. Die Websuche selbst läuft über Drittanbieter, z.B. ist im Falle von ChatGPT Bing aktuell als offizieller Partner von OpenAI bekannt (Microsoft 2023). Die Suche läuft in der Regel in Form eines RAG-Systems in einem 3-schrittigen Prozess ab (ambersearch 2024). Das funktioniert so: zuerst die relevanten Ergebnisse klassisch über den Algorithmus der Suchmaschine abgerufen werden (Retrieval), bevor diese zusammen mit der Suchanfrage des Nutzers an die generativen KI-Modelle weitergeleitet werden (Augmentation). Daraufhin nutzen die KI-Modelle die Suchergebnisse und die Informationen aus dem Prompt, um eine Antwort auf die Suchanfrage zu generieren (Generation) (ambersearch 2024). Dieser interne Prozess sieht dann z.B. so aus:

Der Nutzer hat die folgende Frage gestellt „Wie entsteht ein Gewitter?“ Das sind die Ergebnisse 1, 2, 3, … Nutze die Ergebnisse, um eine Antwort auf die Frage zu formulieren.

Diese Mischung aus klassischer Websuche und KI-generiertem Inhalt nennt sich auch generative search und wird beispielsweise auch für die KI-Zusammenfassungen von Google- oder Bing-Suchanfragen genutzt. Wie sehr dabei auf die internen Trainingsdaten der Language Models zurückgegriffen wird und wieviel extern per Websuche abgerufen wird, variiert bei verschiedenen Modellen (Kirsten 2025).

Auf die Anwendung der Websuche können Nutzer:innen selbst Einfluss nehmen, sowohl in den Einstellungen der Programme als auch in den Anfragen, die sie stellen. Laut ChatGPT selbst (Stand 07.12.2025) wird eine Websuche, sofern diese in den Einstellungen nicht grundsätzlich deaktiviert wurde, automatisch verwendet, wenn…

  1. …explizit darum gebeten wird,
  2. …es sich um aktuelle Ereignisse/Fakten handelt, (die nach dem knowledge cut-off passiert sind und daher neu überprüft werden müssen) und
  3. … der Prompt selbst sich auf einen Link o.ä. bezieht.

Die Websuche wird nicht verwendet, wenn…

  1. …sie explizit untersagt wird,
  2. …es sich um „allgemeines Wissen und reine Erklärung“ handelt und
  3. …es nicht „notwendig oder sicherheitsrelevant“ ist.

Mehr Infos: So funktionieren LLMs

So weiß die KI zum Beispiel nicht, was ein Apfel ist. Sie weiß aber, dass der Begriff „Apfel“, häufig im Zusammenhang mit „Obst“ genannt wird. Sie behauptet deshalb, dass es sich bei einem Apfel um Obst handelt. Sie weiß auch, dass andere Begriffe, wie z.B. „Mond“ oder „Universität“ semantisch weiter entfernt von „Apfel“ sind als es die „Birne“ ist. Die Antworten der KI beruhen also auf sprachlichen Wahrscheinlichkeiten und nicht auf inhaltlicher Richtigkeit. Im Fall des Apfels mag die Antwort stimmen. Ein Problem bei dieser Arbeitsweise ist jedoch das Auftreten von sogenannten „Halluzinationen“, bei denen LLMs frei erfundene Informationen als Fakten präsentieren. Wenn ihr genauer wissen wollt, was das bedeutet und wie das funktioniert, schaut gerne bei unserem Blogeintrag zum Thema vorbei. https://forschendeslernen.blogs.ruhr-uni-bochum.de/halluzinationen-und-ki/

Die umstrittene Quellenlage

Allgemein ist greift eine generative search auf mehr Quellen zu als eine klassische Websuche (Kirsten 2025). Die Qualität der Quellenlage ist aber umstritten. So hat beispielsweise eine aktuelle Untersuchung von originality.ai ergeben, dass ca. 10,4% der in Google AI-Overviews verwendeten Quellen selbst KI-generiert sind (originality.ai 2025). Neben dem direkten negativen Effekt auf die Qualität der Overviews verweisen sie in diesem Zusammenhang auf das größere Problem einer möglichen rekursiven Schleife bzw. model collapse:

“AI Overviews themselves are not part of training data, but by surfacing AI-generated sources, they boost those sources’ visibility and credibility. This, in turn, increases the likelihood that such material is crawled into future training sets. Over time, models risk learning from outputs of earlier models rather than from human-authored knowledge. That recursive feedback loop can amplify errors, reduce diversity of perspectives, and ultimately degrade the reliability of online information.” (originality.ai 2025).

Darüber hinaus stammen laut den Untersuchungen nur 48% der Quellen aus den top 100 organic results, also den ersten 100 Seiten, die man bei einer regulären Google-Suche angezeigt bekommen würde. Google selbst zweifelt die Vertrauenswürdigkeit dieser Forschungsergebnisse an (Brien 2025 ). Und auch in der Wissenschaft gibt Unstimmigkeit. Eine weiter Studie zum Thema AI-Overviews von Linehan und Guan verortet 85.5% der genutzten Quellen der Ki-Zusammenfassungen in den top 100 organic results, 75% sogar in den top 10 (Linehan 2025).

Insgesamt kommen aktuelle Studien jedoch zu dem Ergebnis, dass die Antworten von KI-Modellen häufig inhaltlich falsch sind. Die Fehlerquote variiert dabei – je nach Studie – zwischen 45% (Archer / de Tender 2025: 3) und 51% (Elliott 2025: 2).  Diese Werte mögen in Zukunft besser werden, weil täglich mehr Daten in die LLMs eingespeist werden – und auch wir Nutzenden tragen mit unseren Eingaben dazu bei, dass die KI mehr Daten bekommt. Aber auf die Antworten ist nicht wirklich Verlass.

KI-Sprachmodelle als selbstbewusste Blender?

Hat jemand schon einmal erlebt, dass die KI auf eine Frage antwortet „Tut mir leid, aber das weiß ich nicht!“? Vermutlich nicht. Denn die KI ist so programmiert, dass sie uns selbstbewusst immer eine Antwort gibt. Auch wenn sie die Antwort nicht weiß, denn – wir wissen es längst – sie „weiß“ es nicht. Sie antwortet auf der Grundlage von Statistiken. Der Text klingt sprachlich inzwischen richtig gut, inhaltlich kann aber dabei auch Unsinn herauskommen. Aber das würde die KI niemals zugeben. Denn sie wurde dazu gemacht, Antworten zu geben – immer!

Wenn man das verstanden hat, wird deutlich, warum man KI als Ratgeber grundsätzlich misstrauen sollte: Die Antwort kann stimmen, muss es aber nicht.

KI-Sprachmodelle als Energiefresser?

Obwohl wir davon nichts unmittelbar wahrnehmen: Für ALLE unsere Aktivitäten im Netz verbrauchen wir Energie – und damit ist nicht nur die Energie gemeint, die unser Laptop, unser Tablet oder unser Handy benötigt, um einen Bildschirm zu betreiben und unsere Eingaben zu verarbeiten. Egal, ob wir Mail abrufen, Filme streamen oder eben eine Frage klären wollen – die angeforderten Daten werden auf Servern bereitgehalten, die irgendwo auf der Welt stehen und das Nachgefragte zu uns schicken. Und diese Server verbrauchen Energie und Ressourcen und Platz. Das gilt ganz besonders für die Server von KI-Modellen, da diese besonders viel Energie durch ihre Arbeitsweise verbrauchen. Wenn man sich nun vorstellt, dass ChatGPT täglich 2,5 Milliarden Anfragen bearbeitet, dann könnte die Version GPT-5 einen täglichen Stromverbrauch verursachen, der dem täglichen Bedarf an elektrischer Energie von 1,5 Millionen US-Haushalten entspricht (Jegham et al. 2025, S. 1).

Fazit: KI-Sprachmodell als Suchmaschine… oder lieber doch nicht?

Es scheint also auf den ersten Blick so, als wären schnelle Recherchen auch mit KI-Modellen wie ChatGPT, Copilot oder Gemini erfolgreich durchzuführen. Im Grunde ist es auch möglich, das Risiko für Falschinformationen ist hierbei aber aus mehreren Gründen hoch. Sie sind in ihrer Funktion als Sprachmodelle nicht primär dazu ausgelegt, korrekte Informationen zu liefern, sondern besonders wahrscheinliche Antworten zu geben. Dazu können veraltete und inkorrekte Trainingsdaten bei Anfragen auf falsche Antworten hinauslaufen. Die Websuch-Funktion kann dem zwar teilweise entgegenwirken, wird jedoch nicht automatisch bei jeder Anfrage eingesetzt und garantiert per se auch keine korrekte oder sinnvolle Antwort. Man sollte also Informationen von KI-Sprachmodellen in jedem Fall gegenprüfen, um auf der sicheren Seite zu sein. Und nicht zuletzt mit Blick auf den enormen Energieverbrauch, der mit vermeintlich einfachen Recherchen per KI einhergeht, stellt sich schlussendlich die Frage: Lohnt es sich wirklich, die KI zu fragen, wenn Du im Endeffekt sowieso deinen eigenen Faktencheck durchführen musst?

Quellen

ambersearch.de (22.05.2024): What is a generative AI search? (https://ambersearch.de/en/generative-ai-search/)

Archer, P. und J.P. de Tender (2025): News Integrity in AI Assistants. An international PSM study. (https://www.ebu.ch/Report/MIS-BBC/NI_AI_2025.pdf)

Brien, J. (2025): AI Overviews: Warum die Google-KI oft andere KI-Quellen zitiert – und warum das ein Problem ist. t3n.de, (https://t3n.de/news/ai-overviews-google-ki-quellen-1706279/)

Elliott, O. (2025): Representation of BBC News content in AI Assistants. (https://www.bbc.co.uk/aboutthebbc/documents/bbc-research-into-ai-assistants.pdf)

Frey, S. (2025): Was ist der Wissensstichtag (Knowledge Cutoff Date) bei Sprachmodellen? Einfach erklärt. (https://www.pylehound.com/de/engineering/wissensstichtag-knowledge-cutoff-date/)

Jegham, N. (2025): How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference. (https://arxiv.org/pdf/2505.09598)

Kirsten et al. (2025): Characterizing Web Search in The Age of Generative AI. ([2510.11560v1] Characterizing Web Search in The Age of Generative AI)

Linehan, L; Guan, X. (2025): 76% of AI Overview Citations Pull From Top 10 Pages. (https://ahrefs.com/blog/search-rankings-ai-citations/#where-content-ranks)

Microsoft (Hg.) (2023): Bing at Microsoft Build 2023: Continuing the Transformation of Search. (https://blogs.bing.com/search/may_2023/Bing-at-Microsoft-Build-2023)

originality.ai (28.10.2025): 10.4% of AI Overview Citations are AI-Generated. (https://originality.ai/blog/ai-overview-ai-citations-study)

Autoren

Schreibe einen Kommentar