Un système de traduction tibétain-mandarin développé en Chine sera disponible cette année
Un système de traduction tibétain-mandarin développé en Chine sera disponible cette année
L'écriture tibétaine, qui date de plus de 1300 ans et est l'une des plus anciennes écritures du monde, sert d'outil de communication de base pour la majorité du peuple tibétain. à l'ère où les technologies informatiques sont de plus en plus populaires à travers le monde, l'utilisation des ordinateurs, des téléphones mobiles et de l'Internet est de plus en plus répandue au Tibet, l'informatisation de l'écriture tibétaine est devenue un problème urgent.
Selon le Département des sciences et de la technologie de la Région autonome du Tibet, le projet de recherche prioritaire de la Région autonome du Tibet de 2012, intitulé ? Recherche sur la technologie de traduction statistique et automatique des phrases tibétaines et chinoises ? a remporté un succès historique — la création du ? Système de traduction automatique tibétain-mandarin Yangguang ?. Le projet comprend une segmentation automatique des mots tibétains selon les catégories grammaticales, la constitution d'un important corpus tibétain, et se base sur des recherches approfondies dans le domaine des technologies de la traduction statistique et automatique des phrases en chinois et en tibétain, et a duré près de trois ans.
Lorsque l'on ouvre l'interface du système de traduction tibétain-mandarin, nous sommes invités à entrer un paragraphe en tibétain, et il ne suffit que d'un très court laps de temps pour obtenir une traduction correspondante en mandarin, dont la précision est relativement élevée. Selon Nima Tashi, la vitesse de segmentation du ? Système de traduction automatique tibétain-mandarin Yangguang ? atteint près de 1000 mots tibétains par seconde, et la précision de segmentation pour les documents en tibétain moderne va jusqu'à 95 %.
Afin d'enrichir le corpus, l'équipe de recherche de l'Université du Tibet a aussi spécifiquement recueilli des sources d'information en ligne, des médias, des livres de papier et d'autres pour la traduction, l'écriture et d'autres traitements. Le corpus compte un corpus du tibétain commun d'environ 300 Mo, y compris un corpus d'apprentissage du tibétain d'environ 10 Mo contenant plus de 300,000 phrases en traduction bilingue précise et ainsi de suite.