Resumen de Effective Approaches for Improving the Efficiency of Deep Convolutional Neural Networks for Image Classification

Joao Paulo Schwarz Schuler

  • català

    Aquesta tesi presenta dos mètodes per reduir el nombre de paràmetres i càlculs de punt flotant a arquitectures DCNN utilitzades amb classificació d'imatges. El primer mètode és una modificació de les primeres capes d‟una DCNN que divideix els canals d‟una imatge codificada amb l‟espai de color CIE Lab en dos camins separats, un per al canal acromàtic i un altre per a la resta de canals cromàtics. Modifiquem una arquitectura Inception V3 per incloure una branca específica per a dades acromàtiques (canal L) i una altra branca específica per a dades cromàtiques (canals AB). Aquesta modificació aprofita el desacoblament de la informació cromàtica i acromàtica. A més, la divisió de branques redueix el nombre de paràmetres entrenables i la càrrega de càlcul fins a un 50% de les xifres originals a les capes modificades. Vam aconseguir una state-of-the-art precisió classificació de 99,48% a Plant Village. També trobem una millor fiabilitat en la classificació d'imatges quan les imatges d'entrada contenen soroll. A les DCNNs, el recompte de paràmetres en convolucions puntuals creix ràpidament a causa de la multiplicació dels filtres i canals dentrada de la capa anterior. Per gestionar aquest creixement, el segon mètode d'optimització fa que les convolucions puntuals tinguin pocs paràmetres mitjançant l'ús de branques paral·leles, on cada branca conté un grup de filtres i processa una fracció dels canals d'entrada. Per evitar degradar la capacitat daprenentatge de les DCNN, proposem intercalar la sortida dels filtres de branques paral·leles en capes intermèdies de convolucions puntuals successives. Provem la nostra optimització en un EfficientNet-B0 com a arquitectura de referència i realitzem proves de classificació als conjunts de dades CIFAR-10, Histologia del càncer colorectal i Malària. Per a cada conjunt de dades, la nostra optimització aconsegueix un estalvi del 76%, 89% i 91% de la quantitat de paràmetres entrenables de EfficientNet-B0, mantenint la precisió de classificació.

  • English

    Recent architectures in Deep Convolutional Neural Networks (DCNNs) have a very high number of trainable parameters and, consequently, require plenty of hardware and time to run. It's also commonly found in the literature that most parameters in a DCNN are redundant. This thesis presents two methods for reducing the number of parameters and floating-point computations in existing DCNN architectures applied for image classification. The first method reduces parameters in the first layers of a neural network, while the second method reduces parameters in deeper layers.

    The first method is a modification of the first layers of a DCNN that splits the channels of an image encoded with CIE Lab color space in two separate branches, one for the achromatic channel and another for the remaining chromatic channels. We modified an Inception V3 architecture to include one branch specific for achromatic data (L channel) and another branch specific for chromatic data (AB channels). This modification takes advantage of the decoupling of chromatic and achromatic information. Besides, splitting branches reduces the number of trainable parameters and computation load by up to 50% of the original figures in the modified layers. We achieved a state-of-the-art classification accuracy of 99.48% on the Plant Village dataset. This thesis also shows that this two-branch method improves image classification reliability when the input images contain noise.

    Besides the first layers in a DCNN, in deeper layers of some recent DCNN architectures, more than 80% of the parameters come from standard pointwise convolutions. The parameter count in pointwise convolutions quickly grows due to the multiplication of the filters and input channels from the preceding layer. The second optimization method introduced in this thesis is making pointwise convolutions parameter-efficient via parallel branching to handle this growth. Each branch contains a group of filters and processes a fraction of the input channels. To avoid degrading the learning capability of DCNNs, we propose interleaving the filters' output from separate branches at intermediate layers of successive pointwise convolutions. We tested our optimization on an EfficientNet-B0 as a baseline architecture and made classification tests on the CIFAR-10, Colorectal Cancer Histology, and Malaria datasets. For each dataset, our optimization saves 76%, 89%, and 91% of the number of trainable parameters of EfficientNet-B0, while keeping its test classification accuracy.

  • English

