Twee manieren om een AI-voicebot te bouwen: stitching versus realtime

De manier waarop een AI-voicebot spraak verwerkt bepaalt of hij natuurlijk klinkt of juist hortend en onbetrouwbaar overkomt. Er zijn op dit moment twee architecturen die bij bouwers in omloop zijn, en de keuze daartussen heeft gevolgen voor de belervaring, de betrouwbaarheid van het systeem en wat de bot uit een gesprek kan oppikken. De oudere aanpak rijgt drie losse componenten achter elkaar, terwijl de nieuwere methode het hele gesprek in één keer verwerkt.
De klassieke aanpak: stitching
Toen de eerste voicebots werden gebouwd, was het logisch om drie bestaande componenten aan elkaar te koppelen. Binnenkomende spraak ging door een speech-to-text-engine die er tekst van maakte, waarna een taalmodel die tekst las en een antwoord formuleerde, en ten slotte zette een text-to-speech-engine dat antwoord weer om naar hoorbare spraak. Deze architectuur wordt in de sector “stitching” genoemd, omdat je drie onafhankelijke systemen aan elkaar rijgt tot één keten.
Voor een tijd leverde dat bruikbare resultaten op, en voor teams die zelf geen spraakmodel wilden trainen was het de enige praktische route. Toch komen er in de praktijk drie kwetsbaarheden boven, doordat elke schakel afzonderlijk kan haperen. De spraakherkenning kan een zin verkeerd horen, het taalmodel kan een traag of onjuist antwoord geven en de stemsynthese kan op een slecht moment uitvallen. Veel teams bouwen daarom een back-up in met een alternatieve TTS- of LLM-leverancier, zodat de bot bij storing doorwerkt. Dat lost de uitval op, maar bellers horen plotseling een totaal andere stem en raken daardoor in verwarring over met wie ze eigenlijk in gesprek zijn.
Het tweede nadeel weegt misschien nog zwaarder. Bij stitching krijgt het taalmodel enkel een tekstuele transcriptie te zien, waardoor het de toon, het volume, de aarzeling en de emotie van de beller niet kan waarnemen. Een geïrriteerde klant en een tevreden klant klinken voor het model identiek zodra hun woorden op papier staan, en dat gaat ten koste van de contextgevoeligheid die een gesprek waardevol maakt. Signalen over vermoedelijke leeftijd, moedertaal of stemming gaan verloren in de vertaalslag naar tekst, terwijl juist die signalen vaak bepalen hoe een medewerker een gesprek zou voeren.
De nieuwe aanpak: één realtime spraakmodel
Sinds OpenAI op 24 februari 2026 gpt-realtime-1.5 beschikbaar stelde, is er een tweede manier om voicebots te bouwen die in de meeste gevallen beter werkt. In plaats van drie losse componenten achter elkaar, hoort en spreekt één model rechtstreeks, waardoor de hele tussenlaag van transcriptie en synthese wegvalt. Het model verstaat de woorden, de toon en de emotie van de beller tegelijk, zodat het daar in zijn antwoord direct op kan inspelen. Hoe vloeiend dat werkt in de praktijk laat een demo van Charlierguo goed zien.
Dat levert concrete voordelen op in het dagelijkse gebruik. Er is nog maar één punt waar iets kan haperen in plaats van drie, waardoor de kans op uitval aanzienlijk daalt. De reactietijd ligt doorgaans onder de 400 milliseconden, zodat het gesprek natuurlijk doorloopt zonder de vertraging die bij stitching ontstaat. Meertaligheid zit ingebouwd, waardoor hetzelfde model moeiteloos wisselt tussen Nederlands, Engels, Duits en andere talen zonder dat je die switch vooraf hoeft te configureren. En omdat het model audio verwerkt in plaats van tekst, herkent het een geïrriteerde klant aan zijn stem en kan het die direct doorzetten naar een medewerker zonder dat daar een trefwoord of expliciete escalatie voor nodig is.
Wanneer stitching nog wel de juiste keuze is
Er blijft een niche waar de oudere architectuur beter past, en dat zijn situaties waarin geen live gesprek hoeft te worden gevoerd maar juist een opname achteraf wordt geanalyseerd. Wanneer een callcenter na afloop gesprekken wil laten samenvatten, coderen of screenen op compliance, bestaat er geen latentie-eis en mag je rustig een gespecialiseerd taalmodel kiezen. Denk aan een medisch taalmodel dat de afkortingen en vakbegrippen in de zorg herkent, of een spraak-naar-tekst-engine die speciaal op een regionaal dialect is getraind. De precisie op dat ene onderdeel weegt in die scenario’s zwaarder dan de algehele gesprekservaring, omdat er geen beller aan de lijn hangt die op antwoord wacht.
Onze aanbeveling
Voor bedrijven die live gesprekken willen laten afhandelen door een voicebot, adviseren wij in vrijwel alle gevallen de realtime aanpak. De combinatie van snellere reactie, minder storingsgevoeligheid, meertaligheid zonder configuratie en gevoel voor toon zorgt voor een belervaring die bellers niet als robotachtig ervaren. Voor post-call-analyses en andere scenario’s waarin precisie op één specifieke component doorslaggevend is, blijven we stitching-architecturen inzetten, omdat die daar nog steeds het sterkste resultaat leveren.
Ons team bouwt in beide architecturen
Belfabriek bouwt voicebots in beide architecturen, afhankelijk van wat het beste bij jouw callflow past. Of je nu een volledig beheerde oplossing wilt waarbij ons team alles van begin tot eind inricht, of juist een dedicated IVR op je eigen infrastructuur wilt laten draaien, we leveren AVG-conforme implementaties die 24 uur per dag, zeven dagen per week bereikbaar zijn.
Neem contact op met ons team om te bespreken welke architectuur bij jouw gesprekken past, hoe de koppeling met je bestaande systemen verloopt en binnen welke termijn de voicebot live kan gaan. Zo krijg je een heldere inschatting van de doorlooptijd en de investering, en kun je vanaf dag één inkomende én uitgaande oproepen laten afhandelen door een voicebot die spreekt en luistert op een niveau dat tot voor kort ondenkbaar was.
Veelgestelde vragen
Stitching is waardevol wanneer je geen live gesprek hoeft te voeren maar een opname achteraf wilt analyseren. Dan heb je de vrijheid om een gespecialiseerd taalmodel te kiezen, zoals een medisch model voor zorgjargon of een spraak-naar-tekst-engine die op een regionaal dialect is getraind. In die gevallen weegt precisie op één onderdeel zwaarder dan een vloeiende gesprekservaring.
De reactietijd ligt doorgaans onder de 400 milliseconden, wat vergelijkbaar is met een gewoon telefoongesprek tussen twee mensen. Omdat er geen losse componenten achter elkaar staan, valt de vertraging die bij stitching ontstaat volledig weg, waardoor bellers zelden direct doorhebben dat ze met een AI spreken.
Ja. Realtime spraakmodellen zijn meertalig getraind, waardoor ze tijdens hetzelfde gesprek kunnen wisselen tussen Nederlands, Engels, Duits en andere talen zonder dat je die wisseling vooraf hoeft in te stellen. Voor bedrijven met een internationale klantenkring valt daardoor een hele configuratiestap weg.
Wij bouwen per project een uitwijkroute in, zodat het gesprek bij uitval automatisch naar een medewerker wordt doorgezet of naar een ingesproken boodschap gaat. De beller merkt alleen dat het gesprek overgaat, waardoor je callflow ook bij een verstoring aan de kant van de leverancier overeind blijft.
Ja. Wij bouwen de voicebot zo dat audio en metadata binnen de Europese Unie blijven en dat er met alle betrokken partijen een verwerkersovereenkomst ligt. Voor gereguleerde sectoren zoals zorg, banken en verzekeraars leveren wij daarnaast een zelf-gehoste variant die volledig achter je eigen firewall draait.



