Corpora Multilíngue

David Lee's Bookmarks for Corpus-based Studies: A referência mais completa para a Linguística de Corpus na internet. Além do extenso corpora de inglês, o site conta com uma lista de corpus de diversas línguas em uma seção chamada Non-English, Parallel & Multilingual Corpora, com mais de 24 línguas.

Internet corpora: projeto da Universidade de Leeds encabeçado por Serge Sharoff. São corpora compilados a partir da Internet usando ferramentas automáticas como o BootCat nas seguintes línguas: alemão, árabe, chinês, espanhol, francês, grego, inglês, italiano, japonês, polonês, português e russo. Os corpora são etiquetados, de modo que a interface permite buscas simples e complexas. Também permite buscas por colocados usando diversos testes estatísticos. O site dá informações sobre como compilar corpora similares.

Projeto Terminológico Cone Sul (TERMISUL): desenvolvido pelo Grupo TERMISUL da Universidade Federam do Rio Grande do Sul. Corpus multilíngue alemão, espanhol, francês, inglês e português, constituído pelos seguintes subcorpora GestAmb (gestão ambiental), Legis (legislação ambiental) e Tecno-Ciência (química, medicina e informática). Inclui o ambiente CardioTrad para apoio à tradução de textos de Cardiologia no par de línguas português-alemão. Oferece concordanciador, listador de palavras, e n-gramas, assim como materiais didáticos sobre reconhecimento de terminologias em corpus.

Scientext: corpus com etiquetagem morfossintática e textual de artigos científicos em francês e inglês, que permite buscas semânticas e sintáticas. O material em francês consiste de 4,4 milhões de palavras e o de inglês, 33 milhões de palavras, das quais apenas 10% estão disponíveis para consulta.

TextQuim: site do Projeto TextQuim, grupo de estudos sobre Terminologia e Tradução da Universidade Federal do Rio Grande do Sul coordenado da Profa. Dra. Maria José B. Finatto. Além dos corpora de química, o site oferece agora corpora de medicina (pediatria) e uma série de ferramentas de Linguística de Corpus que podem ser usadas gratuitamente para analisar os corpora do próprio site ou quaisquer outros corpora que o usuário queira pesquisar. Será incorporado ao TEXTECC (vide abaixo).

Textos Técnicos e Científicos (TEXTECC): expansão do corpus TextQuim, que abrigará segmentos distintos: TextQuim (textos de Química), TextPed (textos de Pediatria) e TextLing (textos de Lingüística).

VISL: projeto de pesquisa e desenvolvimento do Instituto de Linguagem e Comunicação (ISK) e da Universidade do Sul da Dinamarca (SDU). Desde setembro de 1996, funcionários e alunos do ISK constroem e implementam ferramentas de gramática online para ensino e pesquisa.

Web as Corpus kool ynitiative (WaCky): a Universidade de Bologna criou vários corpora a partir de dados da Internet, aos quais chamou de WaCky. Não estão disponíveis online, mas podem ser solicitados para serem baixados na máquina do usuário. Atualmente conta com corpora em alemão (deWaC), francês (frWaC), inglês britânico (ukWaC) e italiano (itWaC).

WebCorp: emulador de concordanciador que usa a web como corpus de modo que serve para qualquer língua presente na web. Retorna concordâncias em vários formatos e permite vários tipos de busca.