Google ha anunciado en su blog de investigación la próxima publicación de su corpus de n-grams, extraído a partir de páginas web indexadas por el buscador. Esto supondrá un importante banco de datos para la lingüística de corpus que permitirá avances en ámbitos como traducción automática basada en métodos estadísticos, corrección ortográfica, identificación de la lengua de un texto, etc. Este corpus se distribuirá en 6 DVDs a través del Linguistic Data Consortium, aunque por el momento no se ha aclarado todavía cuál será su licencia de uso.