Skip to content

Latest commit

 

History

History
21 lines (13 loc) · 1.08 KB

README.md

File metadata and controls

21 lines (13 loc) · 1.08 KB

Projet Encadré I : LA VIE MULTILINGUE DES MOTS SUR LE WEB

M1S1 Projet Encadré

Nous sommes XU Yizhou et JIANG Chunyang, deux étudiants en Master 1 Traitement Automatique des Langues coopéré par l’Université Paris Sorbonne nouvelle, l’Université Paris Nanterre et l’INaLCO.

Nos langues de travail sont : le français, l’anglais et le chinois. Dans le cadre du cours Programmation et projet encadré 1, dirigé par R. Belmouhoub, J.-M. Daube et Serge Fleury, nous réaliserons un projet intitulé « la vie multilingue des mots sur le web ».

Jeu de données

Comme nous ne sommes pas le propriétaire du jeu de données, nous ne le fournissons pas.

Outils tiers

minigrep

Filtrage dans des fichiers multilingues.

Disponible sur http://www.tal.univ-paris3.fr/cours/minigrepmultilingue.htm

scws

Chinese tokenizer

Disponible sur https://github.com/hightman/scws