We present a Recurrent Neural Network (RNN) that predictsmolecular properties only based on themolecular structure. The SMILES representations of the molecular structuresare fed into the algorithm as an input.In general, Artificial Neural Networks work well when they have plenty of input data available, but they perform poorly under data scarcity scenarios.In this work, we specially focus on giving a solution to the problem of data scarcityand we have analyzed different approaches to tackle it.Ourhypothesis is that training the model with similar data will improve the results.The analyzed similarities are of distinct nature. On the one hand, we have considered string similarities of the SMILES encodings. On the other hand, we have computed the similarities of thefeaturevectors
Molekulenegitura kimikotik abiatuta haien propietateak iragartzen dituensare neuronalerrepikari (RNN)bat aurkezten da lan honetan. Egitura kimikoak SMILES errepresentazio molekularrarekin kodifikatzen dirasareko sarrera datu bezala erabiltzeko. Oro har, sare neuronal artifizialek emaitza onak ematen dituzte datu askorekin entrenatzen direnean, baina arazoak izaten dituzte datu-urritasun egoeretan. Beraz, lan haudatu-urritasunegoeretan zentratua dago eta horri aurreegiteko hainbat bide aztertzen ditu.Gure hipotesiaren arabera, algoritmoa antzekoak diren datuekin entrenatuz gero, emaitzak hobetu egingo lirateke.Horrela,datuen arteko mota ezberdinetako antzekotasunak aztertu dira; hala nola,SMILES-en arteko antzekotasunei,bai eta ezaugarri bektoreen arteko antzekotasunei erreparatu zaie.
© 2001-2026 Fundación Dialnet · Todos los derechos reservados