Portuguese hyphenation rules for TeX have been in use for over three decades, showing good overall performance. However, there are still incorrect hyphenations and undetected hyphenation points. These points, although mostly occurring near word boundaries and being irrelevant for typographic purposes in TeX, can be relevant in specific contexts, such as when dealing with words outside the standard lexicon or in applications that utilize syllabic/typographic segmentation. Based on an analysis of 49,528 hyphenated words obtained from online dictionaries, we proposed 120 new rules to be incorporated into the existing Portuguese hyphenation rules. Additionally, we used patgen to create new rules or improve existing ones. However, the rules generated by patgen did not demonstrate good generalization capability. Ultimately, the manually adjusted rules showed the best performance, resulting in a 2.1% increase in the success rate. The number of correct hyphenation points increased from 38,519 to 39,808, while the incorrect hyphenation points drastically decreased from 2,059 to 33. It~is also important to note that the manually crafted rules demonstrated better generalization capability than the automatically generated rules by patgen.
As regras de hifenização do português para o TeX têm sido utilizadas há mais de três décadas, apresentando um bom desempenho geral. Entretanto, ainda há hifenizações incorretas e pontos de hifenização não identificados. Esses pontos, embora em sua maioria ocorram perto das bordas das palavras e sejam irrelevantes para fins tipográficos no TeX, podem ser relevantes em contextos específicos, como ao lidar com palavras fora do léxico padrão ou com aplicações que fazem o uso da segmentação silábica/tipográfica. A partir de uma análise de 49.528 palavras hifenizadas, obtidas de dicionários online, propusemos 120 novas regras para serem incorporadas às regras existentes de hifenização do português. Além disso, utilizamos o patgen para criar novas regras ou melhorar as já existentes. No entanto, as regras geradas pelo patgen não demonstraram boa capacidade de generalização. Em última análise, as regras manuais ajustadas apresentaram o melhor desempenho, resultando em um aumento de 2.1% na taxa de acertos. O número de pontos de hifenização corretos aumentou de 38.519 para 39.808, enquanto os pontos de hifenização incorretos diminuíram drasticamente de 2.059 para 33. Importante ressaltar também que as regras elaboradas manualmente demonstraram uma melhor capacidade de generalização do que as regras geradas automaticamente pelo patgen.
© 2001-2026 Fundación Dialnet · Todos los derechos reservados