favoritar164207
Resumo: O Processamento de Línguas Naturais é uma área interdisciplinar cujas pesquisas podem ser divididas em duas grandes linhas: análise e síntese da língua. Esta pesquisa de doutorado traz contribuições para ambas. Para a análise da língua, um modelo integrativo capaz de unir diferentes níveis linguísticos é apresentado e avaliado em relação aos níveis morfológico, (incluindo subníveis léxico e morfossintático), sintático e semântico. Enquanto análises tradicionais são feitas dos níveis mais baixos da língua para os mais altos, em uma estratégia em cascata, na qual erros dos níveis mais baixos são propagados para os níveis mais altos, o modelo de análise proposto é capaz de unificar a análise de diferentes níveis a partir de uma abordagem bidirecional. O modelo é baseado em uma grande rede neural, treinada em córpus, cujos padrões de treinamento são extraídos de tokens presentes nas orações. Um tipo de recorrência denominado coativação é aplicado no modelo para permitir que a análise de um padrão modifique e seja modificada pela análise de outros padrões em um mesmo contexto. O modelo de análise permite investigações para as quais não foi originalmente planejado, além de apresentar resultados considerados satisfatórios em lematização e análise morfossintática, porém ainda demandando aprimoramento para a tarefa de análise sintática. A ferramenta associada a esse modelo permitiu investigar a recorrência proposta e a interação bidirecional entre níveis da língua, incluindo seus subníveis. Experimentos para coativação e bidirecionalidade foram realizados e considerados satisfatórios. Para a área de síntese da língua, um modelo de simplificação sintática, tarefa considerada como adaptação de texto para texto, baseado em regras manuais é aplicado em textos analisados sintaticamente, tendo como objetivo tornar os textos sintaticamente mais simples para leitores com letramento rudimentar ou básico. A ferramenta associada a esse modelo permitiu realizar simplificação sin
Análise bidirecional da língua na simplificação sintática ...
Candido Junior, Arnaldo
favoritar161020
Resumo: A utilização de córpus tem crescido progressivamente em áreas como Lingüística e Processamento de Língua Natural. Como resultado, temos a compilação de novos e grandes córpus e a criação de sistemas processadores de córpus e de padrões para codificação e intercâmbio de textos eletrônicos. Entretanto, a metodologia para compilação de córpus históricos difere das metodologias usadas em córpus contemporâneos. Outro problema é o fato de a maior parte dos processadores de córpus proverem poucos recursos para o tratamento de córpus históricos, apesar de tais córpus serem numerosos. Da mesma forma, os sistemas para criação de dicionários não atendem satisfatoriamente necessidades de dicionários históricos. A motivação desta pesquisa é o projeto do Dicionário Histórico do Português do Brasil (DHPB) que tem como base a construção de um córpus de Português do Brasil dos séculos XVI a XVIII (incluindo alguns textos do começo do século XIX). Neste trabalho são apresentados os desafios encontrados para o processamento do córpus do projeto do projeto DHPB e os requisitos para redação de verbetes do dicionário histórico. Um ambiente computacional para processamento de córpus, criação de glossários e redação de verbetes foi desenvolvido para o projeto DHPB sendo possível adaptá-lo para ser aplicado a outros projetos de criação de dicionários históricos
Criação de um ambiente para o processamento de córpus de P ...
Candido Junior, Arnaldo