Transcription de la conf d'Eben Moglen
From La Quadrature du Net
Des fichiers audio seul mp3 et vidéo mpeg4/mp3 sont disponible, découpés par quart d'heure, histoire que chacun sache bien où il commence et où il s'arrête ...
- Découpage par segments de 15min.
- Chaque volontaire transcrit un segment de 15min. Il met son nom dans la colonne "retranscription".
- Il est possible de récupérer les fichiers vidéo/audio à retranscrire là : transcription.
- Une fois retranscrit, soit dans un fichier de sous-titres, soit en texte brut, envoyer le fichier à benjamin arobase sonntag point fr qui centralisera.
- Le fichier sous-titres obtenu est rempli au fur et à mesure de l'avancée des travaux et disponible ici : Sous-Titre
| Temps début | Temps fin | Retranscription | Relecture | Traduction | Relecture | État |
|---|---|---|---|---|---|---|
| 00:00 | 15:00 | Benjamin Sonntag (vinci@irc) | Retranscription finie | |||
| 15:00 | 30:00 | tsaitgaist@irc | Retranscription finie | |||
| 30:00 | 45:00 | Benjamin Sonntag (vinci@irc) | Synchronisation | |||
| 45:00 | 58:00 | tsaitgaist@irc | Synchronisation | |||
| 58:00 | 1:36:22 | sbi@irc | Synchronisation |
[edit] Conseils @ vinci
A priori, il semble bon de faire la retranscription directement sous forme de sous-titres. Cela a plusieurs avantages :
- Cela évite une passe de synchronisation et de découpage des sous-titres
- Cela évite d'être tenté de recopier intégralement les hésitation d'un orateur (et oui ... en sous-titre, les 40 caractères max, ça force à ne retranscrire que l'essentiel)
Ensuite
- Vinci conseille l'utilisation de l'outil Jubler pour éditer les sous-titres Site officiel de Jubler (si vous vous sentez de faire la synchro en même temps, sinon prenez votre éditeur texte favoris)
- Si vous ne comprenez pas un mot ou une expression, mettez autant de fois ??? que vous avez de mots importants incompris exemple : "another ??? of ???" :)
[edit] Conseils @ tsaitgaist
Je n'ai pas sous-titré en direct, juste retranscrit dans un éditeur de texte.
- un phrase par ligne pour mieux se retrouver
- OOo permet de corriger des mots tapés trop vite et aide à l'orthographe des mot inconnus
- ne pas utiliser la souris mais faire Alt+Tab et Espace pour faire pause
- reculer le moins possible la vidéo, mais faire plus de pauses et ne que avancer. Une fois tout transcrit, même s'il manque quelques mots, relire depuis le début et completer.
[edit] Conseils @ sbi
Agrémenter la transcription, toutes les quelques secondes, de timecodes. Permet de retrouver facilement un passage, de synchroniser les sous-titres, etc.
J'ai bricolé quelques programmes pour aider dans le boulot. En gros les étapes sont:
1. traduction de la bande son en format «bitmap» (WAV)
raison: seek() immédiat, contrairement à ogg où il faut tout décompresser pour savoir où est la seconde 128.45, ce qui est de plus en plus long
2. un programme C mange le .wav et produit une liste de nombres -- ils correspondent à peu près à des petits bouts signifiants entre des longs silences, bornés par un nombre de syllabes et une longueur maximale configurables (il faut recompiler toutefois)
3. un script Perl qui mange cette liste et, quand il reçoit un ordre, (re)joue le bon intervalle
4. quelques macros VIM disant en gros: rejoue l'intervalle actuel, passe à l'intervalle suivant, etc.
J'ai expliqué tout cela et il y a quelques exemples de transcriptions avec timecodes sur la page du groupe de travail transcriptions: http://www.april.org/groupes/transcriptions/table.html
Exemple de transcription avec timecodes: http://www.april.org/groupes/transcriptions/data/02/2005-05-18-RMS-patents.txt
Résultat finalisé (en gros, un simple grep -v | fmt): http://www.april.org/groupes/transcriptions/data/03/
Plusieurs transcriptions réalisées: http://www.april.org/groupes/transcriptions/table.html#travaux_en_cours
Mode opératoire pour ce dont je parle plus haut: http://www.april.org/groupes/transcriptions/table.html#programme_syllabique
Si pas clair, me dire et je corrige la page web.
Si vous le faites même sans timecodes je reprendrai tout pour vérifier et pourrai ajouter les timecodes à ce moment. En ce cas, s'il n'y a pas trop d'erreurs, c'est du x3.
Prenez note du temps que cela vous prend, pour la postérité et les prédictions futures, et le bénévolat valorisé.
Prédiction: pour cette bande cela sera du x6 à x10 (10heures de travail intensif/concentré pour 1h de son).

