Corpora de Português

Banco do Português: site brasileiro com um corpus de português contemporâneo, atualizado constantemente (em 2004, possuia 223 milhões de palavras). Apenas uma amostra está disponível para consulta e uso com as próprias ferramentas do site.

CetenFOLHA (Corpus de Extractos de Textos Electrónicos NILC/Folha de São Paulo): corpus de cerca de 24 milhões de palavras em português brasileiro retirados do jornal "A Folha de São Paulo" - os textos podem ser baixados via FTP / HTTP ou consultados no Projeto AC/DC.

CetemPUBLICO (Corpus de Extractos de Textos Electrónicos MCT/Público): corpus de aproximadamente 180 milhões de palavras em português europeu retirados do jornal português "Público" - disponobiliza as versões anotada e sem anotação para consulta online e envia cd com o corpus mediante solicitação.

COMPARA: site português com um corpus paralelo - originais e respectivas traduções - de/para as diversas variantes do português e do inglês.

Corpus do Português: corpus diacrônico com 45 milhões de palavras, composto por textos dos séculos XV ao XX, nas variantes portuguesa e brasileira. Criado por Michael Ferreira (Universidade de Georgetown) e Mark Davies (Universidade Brigham Young). Apresenta as linhas de concordância em formato KWIC, ou seja, a palavra de busca é centralizada e apresentada em negrito. Permite buscas complexas por categoria gramatical ou tipo de texto.

Corpus Brasileiro: corpus de português brasileiro contemporâneo, língua geral, ainda em desenvolvimento junto ao LAEL da PUC-SP, é etiquetado morfossintaticamente e permite pesquisas por gênero textual / registro.

Lácio-Web: site brasileiro com um corpus contemporâneo de língua geral, subdividido em subcorpora que representam vários gêneros e tipos textuais - textos disponíveis para download e para serem usados com as próprias ferramentas do site.

Linguateca: projeto português que disponibiliza diversos recursos para os quais foi desenvolvida uma interface online. A interface permite consultar um corpus de cada vez (inclusive versão anotada) - são vários os corpora disponíveis, a maioria em português de Portugal. Seu objetivo é melhorar significativamente as condições para o processamento do português, ao facilitar a disponibilização dos recursos existentes, ajudar ao desenvolvimento de recursos públicos, fornecer programas para obter corpora através da internet, criar corpora suficientemente grandes que possam ser usados como referência, facilitar o processamento de corpora portugueses em geral e criar ferramentas que possam ser reutilizadas por outros investigadores ou desenvolvedores. Desde 2012 conta com a colaboração de investigadores de instituições em vários países.

PorPopular: projeto de corpus que abarcará textos de jornais populares brasileiros. Atualmente inclui material do jornal porto-alegrense Diário Gaúcho do ano de 2008 e do jornal baiano Massa!. Oferece concordanciador, listador de palavras e n-gramas, e materiais didáticos sobre reconhecimento de vocabulário. Corpus aberto para compartilhamento mediante solicitação de pesquisadores.

PHPB (Para Uma História do Português do Brasil - RJ): site brasileiro com corpus diacrônico: transcrições de impressos do século XIX e edições diplomático-interpretativas de manuscritos dos séculos XVIII e XIX. Não oferece nenhuma ferrmenta de análise e os textos devem ser cosultados online, um a um.

TychoBrahe: site brasileiro com um corpus de português histórico.