Corpus Goenkale

"Goenkale" est une série diffusée,sans interruption depuis 1994,par la télévision basque, ETB. En 2010 on y a diffusé le chapitre numéro 3000. C'est l'une des séries les plus anciennes de l'Europe. Ce corpus a été conçu à partir des textes, utilisés dans cette série, que l'on a pu récupérer depuis ses débuts. Voici quelques données:

  • Nombre de chapitres : 2.418
  • Séquences : 38.821
  • Nombre de dialogues:805.796
  • Nombre de mots : 11 millions
  • Nombre de mots dans les dialogues : 7,7 millions

C'est dans les dialogues que réside l'intérêt principal de ce corpus. Il est très difficile de trouver des masses de mots qui correspondent à des dialogues et à des conversations. Cette série présente, de plus, une caractéristique très spéciale : ses dialogues sont remarquables parce qu'ils sont le reflet d'une façon de parler très naturelle ( ce qui est reconnu par les téléspectateurs ) et ils sont signés par de bons spécialistes. Il s'agit d'un corpus qu'il faudrait tenir en compte car, seulement dans ses dialogues, il comprend près de 8 millions de mots.