Ayuda
Ir al contenido

Dialnet


Getting rid of the Chi-square and Log-likelihood tests for analysing vocabulary differences between corpora

  • Autores: Yves Bestgen
  • Localización: Quaderns de filología. Estudis lingüístics, ISSN 1135-416X, Nº 22, 2017 (Ejemplar dedicado a: Words, Corpus and Back to Words), págs. 33-56
  • Idioma: inglés
  • Títulos paralelos:
    • Analizar las diferencias de vocabulario entre corpus sin los tests Chi-cuadrado y Log-likelihood
    • Analitzar les diferències de vocabulari entre corpora sense els tests khi-quadrat i Log-likelihood
  • Enlaces
  • Resumen
    • español

      Los tests de log-likelihood y chi-cuadrado probablemente sean las pruebas estadísticas más populares utilizadas en la lingüística de corpus, especialmente cuando la investigación tiene como objetivo describir las variaciones léxicas entre corpus distintos. Sin embargo, dado que este uso específico del chi-cuadrado no es válido, produce demasiados resultados significativos. Esta contribución explica el origen del problema (es decir, la no independencia de las observaciones), los motivos por los cuales las soluciones habituales no son aceptables y qué clase pruebas estadísticas deben ser utilizadas en su lugar. Se ha realizado un análisis de corpus sobre las diferencias léxicas entre el inglés británico y el inglés americano para mostrar el problema y confirmar la adecuación de la solución propuesta. La última sección presenta las órdenes que pueden darse a WordSmith Tools, un programa informático muy popular en el procesamiento de corpus, a fin de obtener los datos necesarios para las pruebas adecuadas, así como un procedimiento muy fácil de usar en R, un paquete estadístico gratuito y fácil de instalar, que realiza estas pruebas.

    • English

      Log-likelihood and Chi-square tests are probably the most popular statistical tests used in corpus linguistics, especially when the research is aiming to describe the lexical variations between corpora. However, because this specific use of the Chi-square test is not valid, it produces far too many significant results. This paper explains the source of the problem (i.e., the non-independence of the observations), the reasons for which the usual solutions are not acceptable and which kinds of statistical test should be used instead. A corpus analysis conducted on the lexical differences between American and British English is then reported, in order to demonstrate the problem and to confirm the adequacy of the proposed solution. The last section presents the commands that can be used with WordSmith Tools, a very popular software for corpus processing, to obtain the necessary data for the adequate tests, as well as a very easy-to-use procedure in R, a free and easy to install statistical software, that performs these tests.

    • català

      Els tests de Log-likelihood i khi-quadrat són probablement els tests estadístics més utilitzats en la lingüística de corpus, especialment quan la recerca té per objecte descriure les variacions lèxiques entre diferents corpus. No obstant açò, precisament perquè aquest ús específic de khi-quadrat no és vàlid, els resultats significatius que produeix són massa significatius. Aquest treball explica l'arrel del problema (és a dir, la no-independència de les observacions), les raons per les quals les solucions més freqüents no són acceptables i quin tipus de test estadístic hauria de ser utilitzat en el seu lloc. Es presenta una anàlisi de corpus sobre les diferències lèxiques entre anglès britànic i anglés americà per a demostrar el problema i confirmar l'adequació de la solució proposada. L'última secció d'aquest article presenta els comandos que es poden utilitzar en WordSmith Tools per a obtenir les dades necessàries per als tests adequats, així com un senzill procediment en R, un programa estadístic gratuït i fàcil d'instal·lar que realitza aquests tests.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno