Lista de Corpora do CorTec

logo do cortec

 

O que é Lista de corpora Pesquisar  

 

Lista de Corpora do CorTec


O CorTec é constituído de vários corpora comparáveis, ou seja, com textos semelhantes, em inglês e português originais, nas seguintes áreas:

 

1. Culinária 1 - Receitas Culinárias

2. Ecoturismo - Meio ambiente

3. Hipertensão - Cardiologia

4. Informática - Geral

5. Instrumentos Contratuais - Direito Contratual

6. Astronomia - Geral

7. Insuficiência Renal - Geral

8. Linguística - Geral

9. Medidores Eletromagnéticos de Vazão - Geral

10. Suplementos Nutricionais - Geral

11. Computação - Hardware

12. Café - Colheita e Processamento

13. Turismo Cultural - Geral

14. Culinária 2 - Geral

15. Prostodontia -

16. Fotografia -

17. Autoclaves -

18. Moda -

19. Turismo - Hotelaria - Turismo - Hotelaria

20. Futebol - resultados e minuto a minuto

21. Culinária Brasileira

 

 

Cada corpus técnico é composto por aproximadamente 200.000 palavras em cada língua.


Estão disponíveis três ferramentas que podem ser aplicadas a um ou mais corpora ao mesmo tempo. São elas:

  • Concordanciador
  • Gerador de Lista de Palavras
  • Gerador de N-Gramas
 

 

Os Corpora Técnicos


1 - Corpus de Culinária - Receitas (versão 1) Índice

O corpus de Culinária é um corpus comparável composto de 1.555 receitas originalmente escritas em português brasileiro e 2.076 em inglês britânico, coletadas da Internet de 2000 a 2004. Todas as categorias de receitas culinárias estão representadas neste corpus, sejam doces ou salgadas.

Culinária

Inglês

Português

Ocorrências/tokens

368.227

252.149

Formas/types

7.281

7.150

T/T ratio

1,98

2,84

 

Este corpus foi compilado por Elisa Duarte Teixeira.

2 - Corpus de Meio Ambiente - Ecoturismo              Índice

O corpus de Meio Ambiente é composto por textos originais de conteúdo comparável em inglês e português sobre Ecoturismo, retirados de sites do governo, de entidades ambientalistas e de agências de turismo.

Ecoturismo

Inglês

Português

Ocorrências/tokens

201.826

200.887

Formas/types

10.009

17.938

T/T ratio

4,96

8,93

 

Este corpus foi compilado por Josimeire Martins.


3 - Corpus de Cardiologia - Hipertensão                     Índice

O Corpus é constituído de 126 textos em inglês e 125 em português sobre hipertensão. Há mais de 300.000 palavras em cada língua. Todos os textos são da tipologia "artigo" e foram coletados de periódicos e revistas brasileiros e americanos. Não há nenhum texto traduzido, pois todos foram criteriosamente selecionados por originalidade. A subárea hipertensão pertence ao domínio da Medicina. Entretanto, pode pertencer tanto a áreas como Cardiologia, Saúde Pública, etc.

Hipertensão

Inglês

Português

Ocorrências/tokens

453.475

356.718

Formas/types

17.808

22.000

T/T ratio

3,93

6,17

 

Este corpus foi compilado por Rosa Maria Caporrino Castanho e revisado por Luciana Latarini Ginezi.


4 - Corpus de Informática - Geral                    Índice

O Corpus de Informática foi compilado exclusivamente com textos de publicações na Internet, tanto em inglês quanto em português. Para sua confecção e melhor equilíbrio, foi primeiramente elaborada uma árvore de domínio da área. Embora nem todas as subáreas tenham sido contempladas - o que exigiria um corpus muito maior -, acreditamos que ele seja representativo, num corte sincrônico, da área geral de Tecnologia de Informação (TI).

Informática

Inglês

Português

Ocorrências/tokens

193.877

196.604

Formas/types

12.914

15.169

T/T ratio

6,66

7,72

 

Este corpus foi compilado por Guilherme Fromm.


5 - Corpus de Direito Contratual - Instrumentos Contratuais              Índice

O Corpus de Direito Contratual é composto de 134 e 48 Instrumentos Contratuais escritos originalmente em português e em inglês, respectivamente. Para a seleção dos documentos, foi usado o conceito do que é contrato no direito brasileiro, assim, dentre os contratos que compõem o corpus estão:

  • Contratos de Compra e Venda
  • Contratos de Compra e Venda
  • Contratos de Prestação de Serviços
  • Contrato de Distribuição
  • Contratos de Locação
  • Contratos de Licença
  • Contratos de Fornecimento
  • Contratos Sociais
  • Contratos Bancários
  • Contratos de Empréstimo
  • Contratos de Franquia
  • Procurações
  • Pacto Antenupcial
  • Termos de Sigilo
 

 

Instrumentos Contratuais

Inglês

Português

Ocorrências/tokens

204.249

200.588

Formas/types

6.041

9.684

T/T ratio

2,96

4,83

 

Este corpus foi compilado por Luciana Carvalho Fonseca Corrêa Pinto.


6 - Corpus de Astronomia - Geral             Índice

astronomia

Inglês

Português

Ocorrências/tokens

 

 

Formas/types

 

 

T/T ratio

 

 

 

 

Este corpus foi compilado por .


7 - Corpus de Insuficiência Renal - Geral                  Índice

O corpus compõe-se de 94 textos (45 em inglês e 49 em português), num total de 184.000 palavras ativas (80.000 das quais provêm dos textos em inglês). Os textos incluem artigos, capítulos de livros, resumos e abstracts. A seleção dos textos mereceu especial cuidado. Foram obtidos em revistas indexadas e reconhecidas internacionalmente, em edições recentes de textos consagrados de medicina interna, e em publicações destinadas à atualização clínica em Nefrologia. Um nefrologista orientou e supervisionou essa seleção. 

Nota: Esse corpus possui abstracts em inglês, porém podem ter sido escritos por não nativos.

insuficiência

Inglês

Português

Ocorrências/tokens

200.125

188.691

Formas/types

 

 

T/T ratio

 

 

 

Este corpus foi compilado por Inácio Abdulkader, Dora Massari Reis, Teresa Cristina S. Hilst, Maria Lúcia S. Moraes.


8 - Corpus de Linguística - Geral                    Índice

O corpus é composto por textos acadêmicos, todos coletados da Internet. Procurou-se abranger todas as subáreas da Linguística num primeiro nível. 
 

linguística

Inglês

Português

Ocorrências/tokens

1.921.811

1.309.967

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por Guilherme Fromm.


9 - Medidores Eletromagnéticos de Vazão - Geral                 Índice

medidores

Inglês

Português

Ocorrências/tokens

   

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por .


10 - Suplementos Nutricionais               Índice

Este corpus é constituído de 133 textos em inglês e 110 em português sobre suplementos nutricionais que é uma subárea do domínio Nutrição. Os textos são constituídos da tipologia “artigo científico” e “informativo” e foram coletados pela internet através de sites americanos e brasileiros. 

Nota: Esse corpus contém muitos textos relacionados a dietas de esportistas e dietas de emagrecimento.

suplementos

Inglês

Português

Ocorrências/tokens

155.348

126.652

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por .


11 - Computação - Hardware              Índice

O corpus é composto por textos acadêmicos e de divulgação, todos coletados da Internet. Embora a maior parte seja na subárea de hardware, outras subáreas estão inclusas (contribuindo com uma quantidade menor de textos). 

Nota: O corpus  de informática contém textos de todas as áreas desta especialidade.

computação

Inglês

Português

Ocorrências/tokens

1.029.187

1.055.375 

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por Guilherme Fromm.


12 - Café - Colheita e Processamento                     Índice

Este corpus é composto de textos técnicos, voltados para profissionais da cafeicultura, coletados da internet. 

 

café

Inglês

Português

Ocorrências/tokens

102.379

100.274

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por Luciana Ginezi.


13 - Turismo Cultural - Geral                    Índice

É constituído de 945 textos, num total de 636.135 palavras, subdivididas em dois subcorpora: um de português, que conta com 427 textos (316.552 palavras) relativos às cidades do Rio de Janeiro, Salvador e São Paulo, e um de inglês britânico, com 518 textos (319.583 palavras) sobre as cidades de Edinburgh, Liverpool e Londres. 

Os textos contemplam as seguintes categorias: 
- acomodação
- feiras e exposições
- festivais
- informações gerais
- museus
- música
- teatro e musicais
- tours

Os tipos de textos são bastante diversificados para garantir maior variedade do vocabulário: empresariais, de revistas, jornais, sites do governo, agências de turismo, operadores turísticos, bem como de sistemas de reserva online e de sites turísticos informativos. 

 

turismo

Inglês

Português

Ocorrências/tokens

319.583

316.552

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por Jeanette Lammel.


14 - Culinária 2 - Geral           Índice

O corpus comparável de culinária tem cerca de 1,5 milhão de palavras em cada língua e foi coletado de 2004 a 2006. Os corpora contêm apenas receitas, mas em todas as categorias culinárias. São textos retirados da Internet e de cds de receitas. O corpus de inglês é majoritariamente britânico e a maioria das receitas provém de dois grandes sites (o que pode favorecer a repetição de certos padrões relacionados às particularidades desses sites) - isso é devido à dificuldade de se fazer a coleta em massa de receitas em inglês americano por causa das configurações de segurança desses sites. 

Inglês: 1.696.454 palavras
Português: 1.573.591 palavras

culinaria2

Inglês

Português

Ocorrências/tokens

   

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por Elisa Duarte Teixeira.


15 - Prostodontia                     Índice

DESCRIÇÃO

prostodontia

Inglês

Português

Ocorrências/tokens

   

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por 

 

16. Fotografia -               Índice

 DESCRIÇÃO

fotografia

Inglês

Português

Ocorrências/tokens

   

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por 

 

17. Autoclaves -                    Índice

 DESCRIÇÃO

Autoclaves

Inglês

Português

Ocorrências/tokens

   

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por 

 

18. Moda -                   Índice

 DESCRIÇÃO

moda

Inglês

Português

Ocorrências/tokens

   

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por 

 

19. Turismo - Hotelaria - Turismo - Hotelaria               Índice

DESCRIÇÃO

turismo

Inglês

Português

Ocorrências/tokens

   

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por 

 

20. Futebol - resultados e minuto a minuto              Índice

DESCRIÇÃO

futebol

Inglês

Português

Ocorrências/tokens

   

Formas/types

   

T/T ratio

   
 

 

Este corpus foi compilado por 

 

21 - Corpus de Culinária Brasileira                         Índice   

O corpus de Culinária Brasileira é composto por 1.225 receitas em português e 1.450 receitas em inglês, extraídas de livros escritos originalmente nesses idiomas. O corpus contém também os textos introdutórios a esses livros e receitas, totalizando aproximadamente 430.000 em cada língua.

Culinária Brasileira Inglês Português
Ocorrências/tokens 433,495 432,690
Formas/types 17,191 27,072
T/T ratio 3,97 6,26

Este corpus foi compilado por Rozane Rodrigues Rebechi.