Projeto | CoMET

O CoMET – Corpus Multilíngue para Ensino e Tradução, desenvolvido junto ao Departamento de Letras Modernas da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, é um corpus eletrônico que tem por objetivo servir de suporte a pesquisas linguísticas, principalmente nas áreas de Tradução, Terminologia e Ensino e Aprendizagem de Línguas. O CoMET é composto por três subcorpora:

Corpus Técnico-Científico: CorTec
Corpus de Tradução: CorTrad
Corpus Multilíngue de Aprendizes: CoMAprend

O CorTec - Corpus Técnico-Científico - é um corpus comparável de textos técnicos e/ou científicos, originalmente escritos em português brasileiro e em inglês. Esse corpus é constituído por corpora compilados por alunos do extinto Curso de Especialização em Tradução e por pós-graduandos do programa de Estudos Linguísticos e Literários em Inglês, que os construíram para suas pesquisas. Sempre que possível, novos corpora são acrescentados.

A primeira versão do CorTec, lançada em setembro de 2005, teve o apoio financeiro do CNPq, processo no. 403120-03-9 e foi construída e implementada junto ao projeto CoMET em parceria com o NILC (Núcleo Interinstitucional de Lingüística Computacional), localizado no ICMC da USP de São Carlos, e o Projeto Lácio-Web.

A interface original e todas as ferramentas de pesquisa foram desenvolvidas e adaptadas para o Cortec por Marcos Felipe Tonelli de Carvalho, sob a coordenação da Profa. Dra. Sandra Maria Aluísio.

O CorTec conta atualmente com mais de 20 corpora, dos mais variados domínios. O tamanho de cada corpus varia segundo sua especificidade. Assim, o corpus de Magnéticos de Vazão tem xxx palavras em português e xxxx em inglês, enquanto o de Culinária conta com mais de um milhão de palavras em cada língua.

Clicando-se sobre o nome do corpus abre-se uma janela com detalhes sobre sua autoria, composição, número de palavras distintas (types) e ocorrências (tokens).

O CorTrad é um projeto em constante ampliação, fruto de uma parceria entre o CoMET, a Linguateca e o NILC, iníciada em maio de 2008. O corpus está subdividido em três subcorpora: Literário (por ora, contos australianos e canadenses); Técnico-científico (por ora, culinária) e Jornalístico (por ora, divulgação científica). O acesso ao corpus é feito por meio do DISPARA, um sistema de disponibilização de corpora na rede com interface customizável, desenvolvido por Diana Santos, da Linguateca. Um dos principais diferenciais do CorTrad é permitir a observação de várias versões de uma mesma tradução, bem como pesquisas diferenciadas para cada subcorpus, respeitando as particularidades daquele gênero e tipologia textuais. Os textos do corpus são etiquetados morfossintaticamente, permitindo consultas mais refinadas. Também tem etiquetas semânticas para ‘cor’ e ‘roupa’.

O CoMAprend - Corpus de Aprendizes - é constituído de redações dos alunos da graduação e dos cursos de extensão das áreas do Departamento de Letras Modernas: alemão, espanhol, francês, inglês e italiano. Conta também com material proveniente de outras universidades, pois é aberto a todos os pesquisadores que queiram contribuir com redações de seus alunos.