Ayuda
Ir al contenido

Dialnet


Resumen de Do boys and girls write the same?: Analysis of n-grams of morphological categories

Sheila Queralt Estévez, Jordi Cicres i Bosch

  • English

    The objective of this study is to characterize writing samples in Catalan written by boys and girls in primary school (from seven to 12 years old) using syntactic patterns. The corpus contains 169 writings divided by sex (76 boys and 93 girls) with an average of 200 words and a total length of 33,763 words. From this corpus, we calculated the 40 n-grams of the most frequent morphological categories (bigrams, trigrams). The data were statistically analysed using ANOVA and Linear Discriminant Analysis, and the accuracy in predicting the writer’s gender in a cross-validation experiment was 60.4% using both bigrams and trigrams. When the children’s age was taken into account, the percentage of accuracy was higher than 70% in both the original classification and the cross-validation. The identification of the most discriminating bigrams and trigrams allowed us to determine that girls show a greater expressive capacity and superior syntactic maturity, and greater lexical and syntactic richness.

  • English

    El objetivo de este estudio es caracterizar la escritura de muestras escritas en catalán de niños y niñas de primaria (de siete a 12 años) a partir de patrones sintácticos. El corpus utilizado contiene 169 escritos divididos por sexo (76 niños y 93 niñas) con una media de 200 palabras y que suman un tamaño total de 33.763 palabras. A partir de este corpus calculamos los 40 n-gramas de categorías morfológicas más frecuentes (bigramas, trigramas). Los datos se analizaron estadísticamente mediante Anova unidireccional y Análisis Lineal Discriminante y la precisión de la predicción de sexo del autor en un experimento de validación cruzada alcanzó el 60.4% utilizando tanto bigramas como trigramas. En el caso de tener en cuenta la edad de los menores, el porcentaje de precisión fue superior al 70% tanto en la clasificación original como en la validación cruzada. La identificación de los bigramas y trigramas más discriminantes permitieron determinar que las niñas muestran una mayor capacidad expresiva y madurez sintáctica, así como una riqueza léxica y sintáctica superior.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus