Comment l’IA analyse les textes incrustés dans une vidéo
Plongée dans le fonctionnement de notre moteur de détection frame par frame.
Analyser l’orthographe dans une vidéo est un défi technique bien plus complexe que de corriger un document texte. Voici comment Mita relève ce défi grâce à l’intelligence artificielle.
Le défi : du pixel au texte
Contrairement à un fichier Word ou un e-mail, les textes dans une vidéo ne sont pas du texte : ce sont des pixels. Les titrages, sous-titres burnés, lower thirds et annotations sont « fondus » dans l’image. Il faut donc commencer par les « lire » visuellement.
Étape 1 : Extraction intelligente des frames
Mita ne traite pas chaque frame de la vidéo (ce serait 30 images par seconde, soit des milliers de frames inutiles). Notre algorithme sélectionne automatiquement les frames pertinentes en détectant les changements significatifs dans l’image. Quand un nouveau texte apparaît, Mita capture la frame correspondante.
Étape 2 : Analyse par IA de vision
Chaque frame extraite est envoyée à un modèle de vision par ordinateur capable de :
- Identifier les zones de texte dans l’image
- Transcrire le texte détecté avec sa position
- Analyser l’orthographe, la grammaire et la typographie
- Contextualiser les erreurs (un nom propre n’est pas une faute)
Étape 3 : Validation croisée multi-pass
Pour maximiser la précision et réduire les faux positifs, Mita utilise une approche multi-pass :
- Pass 1 : Analyse par IA de vision (Claude Vision par Anthropic)
- Pass 2 : Vérification par un moteur linguistique spécialisé (LanguageTool)
- Pass 3 : Consensus multi-frame (la même erreur détectée sur plusieurs frames confirme le problème)
Cette triple validation permet de distinguer les vraies fautes des faux positifs liés au bruit visuel, aux polices stylisées ou aux noms propres.
Le cas spécifique des fichiers SRT
Pour les fichiers de sous-titres SRT, le processus est différent et plus direct : le texte est déjà lisible par la machine. Mita analyse alors chaque segment temporel en tenant compte du contexte des segments précédents et suivants, pour une détection plus fine des erreurs de cohérence.
Pourquoi pas un simple OCR ?
L’OCR (reconnaissance optique de caractères) classique introduit ses propres erreurs de transcription, ce qui rend la détection d’erreurs « en amont » peu fiable. L’approche par IA de vision analyse le texte directement dans son contexte visuel, sans passer par une étape de transcription potentiellement bruitée.
Résultats et rapport
À l’issue de l’analyse, Mita génère un rapport structuré avec pour chaque erreur :
- Le timecode exact dans la vidéo
- Une capture de la frame concernée
- Le texte détecté et la correction proposée
- Le type d’erreur (orthographe, grammaire, typographie)
- Un indice de confiance
Ce rapport vous permet de retourner dans votre logiciel de montage et de corriger chaque erreur précisément, avant l’export final.