|
Google a annoncé qu'il allait mettre à disposition des chercheurs en linguistique son index N-gram, fichier d'un billion (million de million) de mots récoltés sur la Toile, sous la forme de six DVD nécessaires pour stocker cette masse considérable d'information. Google utilise cet index de termes dans de nombreux domaines sur ses sites, comme la traduction automatique, l'extraction d'informations linguistiques, la correction orthographique ou la reconnaissance vocale.
Cet énorme fichier comprendra 1 011 582 453 213 mots courants, complétés par 1 146 580 664 séquences de 5 mots apparues plus de 40 fois et par 13 653 070 mots uniques (demandés plus de 200 fois). Pour l'instant, aucune date de lancement de cette offre n'a été précisée. On ne sait pas non plus si cet index sera vendu ou fourni gratuitement, mais la première hypothèse semble la plus probable... Il semblerait également que ce soit le LDC (Linguistic Data Consortium) qui gère cette offre par la suite...
http://www.ldc.upenn.edu/
http://en.wikipedia.org/wiki/N-gram
Source : Google
|
Articles connexes sur
ce site : |
- BabelFish change d'aquarium
- Google travaille sur un nouveau module de traduction
Toutes les pages du réseau Abondance pour la requête
linguistique ...
| Important
: les informations ci-dessus peuvent être
librement reprises sur une autre source d'information
à l'expresse condition d'en mentionner
la source (© Abondance ou Source
: Abondance) accompagnée d'un lien
vers
la page d'accueil du site. Merci de votre
compréhension. |
|
Simplifiez-vous la vie :
recevez directement chaque vendredi l'information
de la semaine en vous inscrivant à la
lettre GRATUITE "Actu Moteurs". Vous
serez automatiquement inscrit dans la liste
des destinataires ! (65 000 abonnés
- plus
d'infos) :
|
|