Corpora de Inglês

American National Corpus (ANC): o Open American National Corpus (OANC) é um grande acervo do Inglês Americano, que inclui vários gêneros textuais e transcrição de textos orais produzidos a partir de de 1990. Todos os dados e anotações são abertos e disponíveis para qualquer uso. 

Brigham Young University - British National Corpus (BYU-BNC): interface desenvolvida por Mark Davies da Universidade Brigham Young, que se baseia na versão completa do BNC. Apresenta as linhas de concordância em formato KWIC, ou seja, a palavra de busca é centralizada e realçada em negrito. Permite buscas complexas por categoria gramatical ou tipo de texto.

British National Corpus (BNC): um grande corpus (100 milhões de palavras) do inglês moderno, contruído na década de 1990, tendo sido encerrado em 1994. O programa retorna 50 linhas de concordância aleatórias, ou seja, nova consuta similar pode gerar linhas de condordância diferentes. A linhas apresentam sentenças completas, mas a palavra de busca não é centralizada nem salientada de qualquer forma.

COBUILD: oferece acesso a um amplo corpus de aproximadamente 500 milhões de palavras, das quais apenas 46 milhões estão disponíveis online. Também possui uma demo gratuita.

COLT: é o primeiro corpus amplo de inglês, focado na conversação de adolescentes. Foi coletado em 1993 e consiste na língua falada de adolescentes entre 13 e 17 anos de diferentes lugares de Londres. O corpus completo de meio milhão de palavras foi ortograficamente transcrito e etiquetado por classe de palavras, e é um constituinte do British National Corpus (BNC).

Corpus of Contemporary American English (COCA): corpus de 460 milhões de palavras de inglês americano desenvolvido por Mark Davies da Universidade Brigham Young. Apresenta as linhas de concordância em formato KWIC, ou seja, a palavra de busca é centralizada e realçada em negrito. Permite buscas complexas por categoria gramatical ou tipo de texto.

Corpus of Electronic Texts (CELT): possui um banco de dados online, que consiste em textos irlandeses contemporâneos e históricos de várias áreas, incluindo literatura e outras artes.

Corpus of Spoken, Professional American-English: construído a partir de uma seleção de transcrições existentes de interações em ambientes profissionais. Contém dois principais sub-corpora de um milhão de palavras cada: um consiste principalmente em discussões acadêmicas, o outro contém transcrições de conferências de imprensa da Casa Branca. O corpus está disponível comercialmente e há uma amostra de 50.000 palavras disponíveis online. A versão etiquetada também está disponível.

Corpus of Written British Creole: para os interessados no desenvolvimento do Crioulo do Caribe, especialmente fora do Caribe, é um corpus de 12,000 palavras de variedades não-padrão da língua escrita que permitem aos pesquisadores verificarem uma língua não padronizada, desenvolver sua forma escrita – uma etapa que o inglês alcançou há pelo menos cinco séculos.

International Computer Archive of Modern and Medieval English (ICAME): Organização internacional de linguístas e cientistas da informação, que trabalham com textos em inglês legíveis por computador. O objetivo da organização é coletar e distribuir informações de materiais de língua inglesa disponíveis para processamento por computador e de pesquisas linguísticas completas ou em andamento, para compilar um arquivo de um corpus em inglês em uma forma legível por máquina, e para fazer um material disponível para instituições de pesquisa.

International Corpus of English (ICE): o ICE teve início em 1990 com o objetivo principal de coletar material para estudos comparados de Inglês em todo o mundo. Vinte e seis equipes de pesquisa ao redor do mundo estão preparando corpora eletrônicos de sua própria variedade nacional ou regional de Inglês. Cada corpus ICE é composto por um milhão de palavras de Inglês falado e escrito produzidos após 1989. Os corpora ICE são disponíveis apenas para pesquisas acadêmicas com fins não comerciais.

Wellington Corpus of New Zealand English: corpora do inglês escrito e falado na Nova Zelândia, disponível para compra.

 

Para mais Corpora de Inglês, visite os seguintes sites: David LeeInternet corporaTERMISULScientext, TextQuimWaCky e WebCorp. Mais informações sobre eles na seçãCorpora Multilíngue.