De afgelopen maanden staat het, door OpenAI ontwikkelde, ChatGPT 3 model volop in de belangstelling. Een model dat minder aandacht krijgt is het Whisper model dat in staat is om audio- en videofragmenten om te zetten in tekst.
De ontwikkelingen op het gebied van AI gaan de afgelopen tijd razendsnel. Er komt bijna geen dag meer voor dat iemand het niet over ChatGPT 3 of 4 heeft. Dit model, ontwikkeld door OpenAI, is in staat om jouw vragen te beantwoorden en heeft het voor het eerst voor elkaar gekregen om een groot deel van de wereld, op een gemakkelijke manier, in contact te brengen met AI. Toch is OpenAI ook al enige tijd bezig met het Whisper model waar we in deze blog meer over gaan vertellen.
Het Whisper model krijgt weliswaar een stuk minder aandacht. Dit betekent alleen niet dat de resultaten van dit model niet indrukwekkend zijn. Whisper is een model dat gespecialiseerd is in taalherkenning en is sinds september 2022 open source. Het model is in staat om opgenomen audio- en videobestanden, waarin gesproken wordt, om te zetten naar tekst. Toch zitten er ook beperkingen aan dit model. Om te laten zien wat dit model wel en niet kan gaan we hieronder een video ondertitelen.
Bekijk hieronder een video die geplaatst is door RTL Nieuws. Deze video hebben we met behulp van Whisper ondertiteld.
Het eerste wat opvalt is dat het model heeft herkend welke taal er wordt gesproken. Het is op voorhand niet nodig om aan te geven welke taal er wordt gesproken in het audio- of videofragment. Verder is het indrukwekkend dat de ondertiteling vrij accuraat is. De verschillen met de originele ondertiteling zijn minimaal. Door de goede geluidskwaliteit worden er slechts enkele woorden zoals “warp” (worp) niet goed herkend. Toch zijn er ook dingen die het model niet (goed) kan, zoals het herkennen van de exacte tijden dat een woord i.p.v. een regel wordt uitgesproken of het herkennen van de sprekers in het fragment.
Om dit te doen zullen we zelf het model moeten verrijken! Hiervoor kunnen we gebruikmaken van andere modellen die getraind zijn voor deze specifieke taken. Whisper is niet in staat om accuraat de exacte tijden dat een woord wordt uitgesproken te herkennen. Hiervoor moeten we gebruikmaken van een ander model dat hier speciaal voor getraind is. Deze resultaten kunnen we samenbrengen met die van het Whisper model.
Zodoende hebben we een nauwkeurige ondertiteling van het Whisper model en is deze verrijkt met de exacte tijden dat de woorden worden uitgesproken.
Daarnaast zou het handig zijn om te herkennen wie er aan het woord is. Het onderscheiden van de sprekers wordt ook wel “diarization” genoemd. Whisper is hier niet geschikt voor omdat deze juist getraind is om verschillen tussen sprekers te negeren. Om dit wel te doen kunnen we wederom gebruik maken van een ander model dat hier speciaal voor getraind is. Vervolgens combineren we wederom de resultaten van dit model en het Whisper model zodat we de sprekers kunnen onderscheiden.
De bovenstaande resultaten zijn hieronder te zien in de verrijkte ondertiteling. Sprekers worden aangeduid met een kleur terwijl het gesproken woord dikgedrukt is.
De verrijkte ondertiteling geeft veel meer informatie prijs! De sprekers worden in de meeste gevallen goed onderscheiden en de tekst loopt ook goed mee. Natuurlijk is dit slechts een voorbeeld waarmee we de mogelijkheden en beperkingen van het Whisper model willen demonstreren. Toch is het ook leuk om na te denken over de daadwerkelijke toepassingen van dit model;
Waarvoor zou jij Whisper willen gebruiken?
Door Remco Loof | 16 mei 2023
Chatbots kunnen iedere organisatie helpen om efficiënter en slimmer te werken. Deze digitale assistenten kunnen herinneringen sturen, bestellingen plaatsen, analyses maken. Ze ondersteunen jou in je dagelijkse werkzaamheden.
Lees meerWanneer je inzicht hebt in hoe het proces loopt, kun je actie ondernemen en verbeteringen realiseren. Herken jij de bottleneck in jouw processen?
Lees meerMet een RFM-analyse ontdek je welke klanten voor jouw organisatie de meeste waarde hebben. Maar ook wie je dreigt te verliezen of welke klanten je maar beter kunt belonen!
Lees meerWij kunnen je helpen om processen inzichtelijk te maken en deze te verbeteren. Zodat we door efficiënter en slimmer te werken, meer rendement uit jouw organisatie halen! We kunnen processen visualiseren, automatiseren én inzicht geven in jouw organisatie.
Om de best mogelijke gebruikerservaring van onze website te krijgen raden wij u aan om uw browser te upgraden naar een nieuwere versie of een andere browser. Klik op de upgrade button om naar de download pagina te gaan.
Upgrade hier uw browser