Ayuda
Ir al contenido

Dialnet


Resumen de Remote protein homology detection using physicochemical properties

Óscar Bedoya

  • español

    En este artículo se presenta un nuevo método para la detección de homólogos remotos en proteínas llamado CDA (Análisis de Distribución Característica). El método utiliza distribuciones de las propiedades fisicoquímicas de los aminoácidos para cada proteína. Dada una familia SCOP se calcula su correspondiente distribución característica promediando los valores de las distribuciones para las proteínas que la componen. La hipótesis en está investigación es que cada familia F tiene una distribución característica que permite diferenciar las secuencias del resto de las proteínas en el conjunto de datos. Debido a que existen muchas propiedades, alrededor de 554 en el AAindex, se seleccionó un conjunto de 72 índices para crear las distribuciones. Cada distribución característica se usa como un clasificador de familias SCOP. Por último, se utiliza una clasificador Bayesiano para combinar la información de los clasificadores individuales creados a partir de las distribuciones para llegar a una mejor decisión. Encontramos que cada familia tiene un conjunto de propiedades físicoquímicas que permiten una mejor discriminación de sus secuencias. El método CDA alcanza una tasa de Aciertos Positivos (TP) de 0,793, una tasa de Falsos Positivos (FP) de 0,005 y un puntaje ROC de 0,918. El método propuesto mejora la exactitud de algunas de las estrategias existentes tales como SVM-PCD y SVM-RQA.

  • English

    A new method for remote protein homology detection, called CDA (Characteristic Distribution Analysis), is presented. The CDA method uses the distributions of physicochemical properties of amino acids for each protein. Given the training sequences of a SCOP (Structural Classification Of Proteins) family, a characteristic distribution is achieved by averaging the values of the distributions of its proteins. The hypothesis in this research is that each protein family F has a characteristic distribution that separates its sequences from the rest of the proteins in a dataset. Since there are multiple properties, close to 554 in the AAindex, a set of 72 physicochemical properties was selected to create different characteristic distributions of the same family. Each characteristic distribution is used as a classifier. Finally, a Naive Bayes classifier is trained to combine the information of the individual classifiers and obtain a better decision. We found that each family has a set of physicochemical properties that allow the discrimination of their sequences better. CDA achieves a True Positive (TP) rate of 0,793, a False Positive (FP) rate of 0,005, and a Receiver Operating Characteristic (ROC) area of 0,918. The CDA method outperforms some of the current strategies such as SVM-PCD and SVM-RQA.

  • português

    Neste artigo apresenta-se um novo método para a detecção de homólogos remotos em proteínas chamado CDA (Análises de Distribuição Característica). O método utiliza distribuições das propriedades fisicoquímicas dos aminoácidos. Dada uma família SCOP calcula-se sua correspondente distribuição característica promediando os valores das distribuições para as proteínas que a compõem. A hipótese nesta investigação é que cada família F tem uma distribuição característica que permite diferenciar as sequências em F do resto de proteínas. Ao existir muitas propriedades, ao redor de 554 no AAindex, selecionou-se um conjunto de 72 índices para criar as distribuições. Cada distribuição característica usa-se como um classificador de famílias SCOP. Por último, utiliza-se um classificador Bayesiano para combinar a informação dos classificadores individuais criados a partir das distribuições. O método CDA atinge uma taxa de acertos positivos de 0,793, uma taxa de falsos positivos de 0,005 e uma pontuação ROC de 0,918. O método proposto melhora a exatidão de algumas das estratégias existentes tais como SVM-PCD e SVM-RQA.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus