O que é | Lista de corpora | Pesquisar |
Lista de Corpora do CorTec
O CorTec é constituído de vários corpora comparáveis, ou seja, com textos semelhantes, em inglês e português originais, nas seguintes áreas:
2. Ecoturismo - Meio ambiente |
3. Hipertensão - Cardiologia |
4. Informática - Geral |
5. Instrumentos Contratuais - Direito Contratual |
6. Astronomia - Geral |
7. Insuficiência Renal - Geral |
8. Linguística - Geral |
9. Medidores Eletromagnéticos de Vazão - Geral |
10. Suplementos Nutricionais - Geral |
11. Computação - Hardware |
12. Café - Colheita e Processamento |
13. Turismo Cultural - Geral |
14. Culinária 2 - Geral |
15. Prostodontia - |
16. Fotografia - |
17. Autoclaves - |
18. Moda - |
19. Turismo - Hotelaria - Turismo - Hotelaria |
20. Futebol - resultados e minuto a minuto |
Cada corpus técnico é composto por aproximadamente 200.000 palavras em cada língua.
Estão disponíveis três ferramentas que podem ser aplicadas a um ou mais corpora ao mesmo tempo. São elas:
|
Os Corpora Técnicos
1 - Corpus de Culinária - Receitas (versão 1) Índice
O corpus de Culinária é um corpus comparável composto de 1.555 receitas originalmente escritas em português brasileiro e 2.076 em inglês britânico, coletadas da Internet de 2000 a 2004. Todas as categorias de receitas culinárias estão representadas neste corpus, sejam doces ou salgadas.
Culinária |
Inglês |
Português |
Ocorrências/tokens |
368.227 |
252.149 |
Formas/types |
7.281 |
7.150 |
T/T ratio |
1,98 |
2,84 |
Este corpus foi compilado por Elisa Duarte Teixeira.
2 - Corpus de Meio Ambiente - Ecoturismo Índice
O corpus de Meio Ambiente é composto por textos originais de conteúdo comparável em inglês e português sobre Ecoturismo, retirados de sites do governo, de entidades ambientalistas e de agências de turismo.
Ecoturismo |
Inglês |
Português |
Ocorrências/tokens |
201.826 |
200.887 |
Formas/types |
10.009 |
17.938 |
T/T ratio |
4,96 |
8,93 |
Este corpus foi compilado por Josimeire Martins.
3 - Corpus de Cardiologia - Hipertensão Índice
O Corpus é constituído de 126 textos em inglês e 125 em português sobre hipertensão. Há mais de 300.000 palavras em cada língua. Todos os textos são da tipologia "artigo" e foram coletados de periódicos e revistas brasileiros e americanos. Não há nenhum texto traduzido, pois todos foram criteriosamente selecionados por originalidade. A subárea hipertensão pertence ao domínio da Medicina. Entretanto, pode pertencer tanto a áreas como Cardiologia, Saúde Pública, etc.
Hipertensão |
Inglês |
Português |
Ocorrências/tokens |
453.475 |
356.718 |
Formas/types |
17.808 |
22.000 |
T/T ratio |
3,93 |
6,17 |
Este corpus foi compilado por Rosa Maria Caporrino Castanho e revisado por Luciana Latarini Ginezi.
4 - Corpus de Informática - Geral Índice
O Corpus de Informática foi compilado exclusivamente com textos de publicações na Internet, tanto em inglês quanto em português. Para sua confecção e melhor equilíbrio, foi primeiramente elaborada uma árvore de domínio da área. Embora nem todas as subáreas tenham sido contempladas - o que exigiria um corpus muito maior -, acreditamos que ele seja representativo, num corte sincrônico, da área geral de Tecnologia de Informação (TI).
Informática |
Inglês |
Português |
Ocorrências/tokens |
193.877 |
196.604 |
Formas/types |
12.914 |
15.169 |
T/T ratio |
6,66 |
7,72 |
Este corpus foi compilado por Guilherme Fromm.
5 - Corpus de Direito Contratual - Instrumentos Contratuais Índice
O Corpus de Direito Contratual é composto de 134 e 48 Instrumentos Contratuais escritos originalmente em português e em inglês, respectivamente. Para a seleção dos documentos, foi usado o conceito do que é contrato no direito brasileiro, assim, dentre os contratos que compõem o corpus estão:
|
Instrumentos Contratuais |
Inglês |
Português |
Ocorrências/tokens |
204.249 |
200.588 |
Formas/types |
6.041 |
9.684 |
T/T ratio |
2,96 |
4,83 |
Este corpus foi compilado por Luciana Carvalho Fonseca Corrêa Pinto.
6 - Corpus de Astronomia - Geral Índice
astronomia |
Inglês |
Português |
Ocorrências/tokens |
|
|
Formas/types |
|
|
T/T ratio |
|
|
Este corpus foi compilado por .
7 - Corpus de Insuficiência Renal - Geral Índice
O corpus compõe-se de 94 textos (45 em inglês e 49 em português), num total de 184.000 palavras ativas (80.000 das quais provêm dos textos em inglês). Os textos incluem artigos, capítulos de livros, resumos e abstracts. A seleção dos textos mereceu especial cuidado. Foram obtidos em revistas indexadas e reconhecidas internacionalmente, em edições recentes de textos consagrados de medicina interna, e em publicações destinadas à atualização clínica em Nefrologia. Um nefrologista orientou e supervisionou essa seleção.
Nota: Esse corpus possui abstracts em inglês, porém podem ter sido escritos por não nativos.
insuficiência |
Inglês |
Português |
Ocorrências/tokens |
200.125 |
188.691 |
Formas/types |
|
|
T/T ratio |
|
|
Este corpus foi compilado por Inácio Abdulkader, Dora Massari Reis, Teresa Cristina S. Hilst, Maria Lúcia S. Moraes.
8 - Corpus de Linguística - Geral Índice
O corpus é composto por textos acadêmicos, todos coletados da Internet. Procurou-se abranger todas as subáreas da Linguística num primeiro nível.
linguística |
Inglês |
Português |
Ocorrências/tokens |
1.921.811 |
1.309.967 |
Formas/types |
||
T/T ratio |
Este corpus foi compilado por Guilherme Fromm.
9 - Medidores Eletromagnéticos de Vazão - Geral Índice
medidores |
Inglês |
Português |
Ocorrências/tokens |
||
Formas/types |
||
T/T ratio |
Este corpus foi compilado por .
10 - Suplementos Nutricionais Índice
Este corpus é constituído de 133 textos em inglês e 110 em português sobre suplementos nutricionais que é uma subárea do domínio Nutrição. Os textos são constituídos da tipologia “artigo científico” e “informativo” e foram coletados pela internet através de sites americanos e brasileiros.
Nota: Esse corpus contém muitos textos relacionados a dietas de esportistas e dietas de emagrecimento.
suplementos |
Inglês |
Português |
Ocorrências/tokens |
155.348 |
126.652 |
Formas/types |
||
T/T ratio |
Este corpus foi compilado por .
11 - Computação - Hardware Índice
O corpus é composto por textos acadêmicos e de divulgação, todos coletados da Internet. Embora a maior parte seja na subárea de hardware, outras subáreas estão inclusas (contribuindo com uma quantidade menor de textos).
Nota: O corpus de informática contém textos de todas as áreas desta especialidade.
computação |
Inglês |
Português |
Ocorrências/tokens |
1.029.187 |
1.055.375 |
Formas/types |
||
T/T ratio |
Este corpus foi compilado por Guilherme Fromm.
12 - Café - Colheita e Processamento Índice
Este corpus é composto de textos técnicos, voltados para profissionais da cafeicultura, coletados da internet.
café |
Inglês |
Português |
Ocorrências/tokens |
102.379 |
100.274 |
Formas/types |
||
T/T ratio |
Este corpus foi compilado por Luciana Ginezi.
13 - Turismo Cultural - Geral Índice
É constituído de 945 textos, num total de 636.135 palavras, subdivididas em dois subcorpora: um de português, que conta com 427 textos (316.552 palavras) relativos às cidades do Rio de Janeiro, Salvador e São Paulo, e um de inglês britânico, com 518 textos (319.583 palavras) sobre as cidades de Edinburgh, Liverpool e Londres.
Os textos contemplam as seguintes categorias:
- acomodação
- feiras e exposições
- festivais
- informações gerais
- museus
- música
- teatro e musicais
- tours
Os tipos de textos são bastante diversificados para garantir maior variedade do vocabulário: empresariais, de revistas, jornais, sites do governo, agências de turismo, operadores turísticos, bem como de sistemas de reserva online e de sites turísticos informativos.
turismo |
Inglês |
Português |
Ocorrências/tokens |
319.583 |
316.552 |
Formas/types |
||
T/T ratio |
Este corpus foi compilado por Jeanette Lammel.
14 - Culinária 2 - Geral Índice
O corpus comparável de culinária tem cerca de 1,5 milhão de palavras em cada língua e foi coletado de 2004 a 2006. Os corpora contêm apenas receitas, mas em todas as categorias culinárias. São textos retirados da Internet e de cds de receitas. O corpus de inglês é majoritariamente britânico e a maioria das receitas provém de dois grandes sites (o que pode favorecer a repetição de certos padrões relacionados às particularidades desses sites) - isso é devido à dificuldade de se fazer a coleta em massa de receitas em inglês americano por causa das configurações de segurança desses sites.
Inglês: 1.696.454 palavras
Português: 1.573.591 palavras
culinaria2 |
Inglês |
Português |
Ocorrências/tokens |
||
Formas/types |
||
T/T ratio |
Este corpus foi compilado por Elisa Duarte Teixeira.
15 - Prostodontia Índice
DESCRIÇÃO
prostodontia |
Inglês |
Português |
Ocorrências/tokens |
||
Formas/types |
||
T/T ratio |
Este corpus foi compilado por
16. Fotografia - Índice
DESCRIÇÃO
fotografia |
Inglês |
Português |
Ocorrências/tokens |
||
Formas/types |
||
T/T ratio |
Este corpus foi compilado por
17. Autoclaves - Índice
DESCRIÇÃO
Autoclaves |
Inglês |
Português |
Ocorrências/tokens |
||
Formas/types |
||
T/T ratio |
Este corpus foi compilado por
DESCRIÇÃO
moda |
Inglês |
Português |
Ocorrências/tokens |
||
Formas/types |
||
T/T ratio |
Este corpus foi compilado por
19. Turismo - Hotelaria - Turismo - Hotelaria Índice
DESCRIÇÃO
turismo |
Inglês |
Português |
Ocorrências/tokens |
||
Formas/types |
||
T/T ratio |
Este corpus foi compilado por
20. Futebol - resultados e minuto a minuto Índice
DESCRIÇÃO
futebol |
Inglês |
Português |
Ocorrências/tokens |
||
Formas/types |
||
T/T ratio |
Este corpus foi compilado por
21 - Corpus de Culinária Brasileira Índice
O corpus de Culinária Brasileira é composto por 1.225 receitas em português e 1.450 receitas em inglês, extraídas de livros escritos originalmente nesses idiomas. O corpus contém também os textos introdutórios a esses livros e receitas, totalizando aproximadamente 430.000 em cada língua.
Culinária Brasileira | Inglês | Português |
Ocorrências/tokens | 433,495 | 432,690 |
Formas/types | 17,191 | 27,072 |
T/T ratio | 3,97 | 6,26 |
Este corpus foi compilado por Rozane Rodrigues Rebechi.