KI im Kundenservice 2026: Käuferleitfaden

Die meisten Helpdesk-Anbieter werden euch erzählen, ihre KI sei besonders. Sie ist es fast nie. Sie laufen alle auf Claude, GPT oder Gemini in unterschiedlichen Wrappern, und die Wrapper kosten ungefähr gleich viel zu bauen. Was den Vertrag entscheidet, sind zwei Dinge: wie der Anbieter die KI abrechnet, und was er das Modell lesen lässt, bevor es antwortet. Bei einem davon falsch entschieden, und ihr werdet die nächsten zwei Jahre gegen eure Rechnung ankämpfen.

Wie Anbieter KI abrechnen, und warum das zählt

Es gibt zwei Muster in 2026. Eines berechnet jedes Mal, wenn die KI etwas als gelöst markiert. Zendesk macht das mit $1,50 bis $2,00 pro Resolution. Das andere berechnet pro Konversation, egal ob gelöst oder nicht. Deskwoot macht das mit $0,01 bis $0,03 pro Konversation. Die Zahlen hinter den Modellen liegen weit genug auseinander, dass sie in unterschiedliche Budget-Kategorien gehören.

Das versteckte Problem beim ersten Modell ist, was bei einem Spike passiert. Ein viraler Thread, ein Holiday-Rush, eine Erwähnung in einem Podcast, euer Konversationsvolumen verdoppelt sich, und eure Rechnung tut es auch. Jede Resolution ist der Zähler, der wieder tickt. Mit Pro-Konversation-Abrechnung ist der Worst Case durch euren Traffic begrenzt, und den kann Finance schon vorhersagen.

Anbieter	Wie KI abgerechnet wird	5.000 Konversationen / Monat
Deskwoot Bot	Pro Konversation, $0,01 bis $0,03	$50 bis $150
Zendesk Advanced AI	Pro Resolution, $1,50 bis $2,00	$240 bis $10.000
Intercom Fin	Pro Resolution, $0,99	~$4.950
Freshdesk Freddy	Pro Session, $0,10	~$500

Grounding zählt mehr als das Modell

An diesem Punkt liefert jeder Anbieter einen Copilot für Agenten und einen Bot für Kunden. Das Modell darunter ist fast immer eines von drei Foundation Models. Was den Unterschied macht, ist was der Anbieter es lesen lässt, bevor es antwortet.

Ein Anbieter, der die Frage eines Kunden direkt an Claude pipt, ohne sonst etwas dranzuhängen, gibt euch selbstbewusst klingende Antworten, die im Detail falsch sind. Eure Preise, eure Rückgabe-Policy, eure Edge Cases. Nichts davon ist in den Trainingsdaten des Modells. Die Antwort liest sich wie Marketing.

Anbieter, die das richtig machen, nutzen RAG. Sie füttern euer Help Center, eure Trainingsdokumente, eure alten Tickets, manchmal euer Produkt-Wiki, in das Kontextfenster des Modells, bevor es etwas generiert. Die Antwort, die zurückkommt, liest sich wie etwas, das euer Team geschrieben hätte, weil das Modell wortwörtlich aus dem arbeitet, was euer Team vorher geschrieben hat.

Wenn ihr evaluiert, ist der Test einfach. Nehmt fünf echte Kundenfragen aus dem letzten Monat. Lasst sie durch jeden Vendor-Copilot laufen. Lest, was rauskommt. Die gegroundeten produzieren Text, den ihr mit ein, zwei Edits versenden könnt. Die ungegroundeten produzieren Absätze, die ihr von Grund auf umschreiben würdet.

Die Fragen, die ihr wirklich stellen solltet

Die meisten Evaluations konzentrieren sich auf den Demo-Flow, was so gut wie nichts aussagt, weil jede Demo darauf gebaut ist, zu funktionieren. Diese Fragen bringen echte Unterschiede zum Vorschein.

Wonach wird die KI abgerechnet? Holt es euch schriftlich, bevor ihr unterschreibt. Die Formulierung zählt. "Pricing depends on usage" kann pro Resolution, pro Session, pro Konversation oder pro Token bedeuten, und dazwischen liegen zwei Größenordnungen.

Welches Foundation Model läuft drunter? Wenn die Antwort "unsere proprietäre KI" ist, verkaufen sie Claude, GPT oder Gemini in einem Wrapper weiter. Das ist okay, aber ihr solltet wissen welches. Manche Branchen verbieten, Daten an bestimmte Anbieter zu schicken.

Was zieht das Grounding tatsächlich rein? Nur das Help Center? Auch alte Tickets? Euer Produkt-Wiki? Je größer der Korpus, desto besser die Antworten, aber auch desto mehr muss euer Team pflegen.

Was passiert, wenn die KI nicht weiter weiß? Übergibt sie sauber an einen Menschen, oder bleibt der Kunde stecken und muss sich wiederholen? Testet den Fail-Fall. Die meisten Demos zeigen den Erfolgsfall, weil der Bot dort schlau aussieht.

Wie ist die Prompt-Injection-Haltung? Wenn die Antwort "wir kommen darauf zurück" ist, ist das auch eine Antwort.

Wie ihr den Vergleich tatsächlich fahrt

Eine Woche reicht. Zwei Anbieter, dieselben hundert echten Kundenkonversationen aus dem letzten Monat, beide Produkte laufen mit dem gleichen Volumen auf den gleichen Daten. Trackt fünf Dinge: wie schnell jeder Copilot eine Antwort entworfen hat, wie viel eure Agenten vor dem Versand ändern mussten, welcher Anteil der Konversationen vom Bot ohne Hilfe abgewickelt wurde, der CSAT-Score auf diesen KI-Threads, und die Gesamtkosten, die jeder Anbieter berechnet hätte.

Wer drei der fünf gewinnt, ist eure Antwort. Macht's nicht komplizierter.

Eine Sache zu vermeiden

Unterschreibt keinen mehrjährigen Vertrag mit Pro-Resolution-Abrechnung, bevor ihr eure tatsächliche Resolution-Anzahl auf echtem Traffic gemessen habt. Anbieter zitieren basierend auf Schätzungen, die sich oft als drei oder viermal niedriger als die Realität herausstellen. Bis Monat sechs schaut ihr auf eine Rechnung, die ihr nicht budgetiert habt. Der Notausgang ist Pro-Konversation-Abrechnung, wo der Worst Case euer Gesamtvolumen ist, und das könnt ihr schon prognostizieren.

FAQ

Was bedeutet Grounding eigentlich?

Eure eigenen Inhalte ins Kontextfenster der KI füttern, bevor sie eine Antwort generiert. Ohne kommen generische Antworten. Mit kommen Antworten, die nach eurem Produkt, eurer Policy und eurem Tonfall klingen.

Kann ich meine eigenen KI-Provider-Keys verwenden?

Manche Anbieter erlauben das. Deskwoot tut es. Das heißt üblicherweise unbegrenzte Nutzung zu Provider-Raten, und eure Prompts gehen direkt von eurem Tenant zum gewählten Anbieter, ohne dass irgendwas dazwischen geteilt wird.

Wie lange sollte der Vergleich laufen?

Eine Woche reicht, um zwei Anbieter am selben Konversations-Set zu vergleichen. Zwei Wochen sind besser, wenn eure Schichtabdeckung von Tag zu Tag stark schwankt.

Macht den Vergleich auf Deskwoot

Der kostenlose Trial enthält den vollen KI-Stack. KI-Copilot ist in jedem bezahlten Plan dabei, der Bot Fynn ist in eurem Help Center plus dem Training Hub gegroundet, und KI wird pro Konversation mit $0,01 bis $0,03 berechnet. Macht den Vergleich auf euren eigenen Daten, bevor ihr euch entscheidet.

Kostenlosen Trial starten →

KI im Kundenservice: der Käuferleitfaden 2026

Wie Anbieter KI abrechnen, und warum das zählt

Grounding zählt mehr als das Modell

Die Fragen, die ihr wirklich stellen solltet

Hol dir den Deskwoot-Newsletter

Wie ihr den Vergleich tatsächlich fahrt

Eine Sache zu vermeiden

FAQ

Was bedeutet Grounding eigentlich?

Kann ich meine eigenen KI-Provider-Keys verwenden?

Wie lange sollte der Vergleich laufen?

Macht den Vergleich auf Deskwoot

Bereit, deinen Kundensupport zu verbessern?

WhatsApp Business mit mehreren Mitarbeitern nutzen: Was geht, was nicht

Einen KI-Agenten echte Aktionen im Support ausführen lassen, ohne die Kontrolle zu verlieren

Einen KI-Agenten über MCP mit deinem Helpdesk verbinden