Machine learning interpretable para la detección del fraude crediticio

Jacobo Chaquet Ulldemolins

Ayuda

Machine learning interpretable para la detección del fraude crediticio

Autores: Jacobo Chaquet Ulldemolins
Directores de la Tesis: Francisco Javier Gimeno Blanes (dir. tes.), Santiago Moral Rubio (codir. tes.), José Luis Rojo Alvarez (tut. tes.)
Lectura: En la Universidad Rey Juan Carlos ( España ) en 2022
Idioma: español
Tribunal Calificador de la Tesis: Manuel Blanco Velasco (presid.), Regino Criado Herrero (secret.), Francisco González Serrano (voc.)
Programa de doctorado: Programa de Doctorado en Tecnologías de la Información y las Comunicaciones por la Universidad Rey Juan Carlos
Materias:
- Matemáticas
  - Ciencia de los ordenadores
    - Inteligencia artificial
- Ciencias económicas
  - Actividad económica
    - Dinero y operaciones bancarias
Enlaces
- Tesis en acceso abierto en: TESEO hdl.handle.net
Resumen
- Antecedentes Las empresas cada día dan más facilidades a sus clientes para realizar sus compras, entre estas facilidades está la compra de productos de manera online, esto ha hecho que el comercio electrónico crezca a unas cuotas de uso muy elevadas y por ende el uso de las tarjetas alcance su máxima expresión. Esto es, sin ninguna duda, una oportunidad para que los delincuentes puedan cometer fraudes. En medio de todo esto, están los bancos para asegurar que todas las transacciones son legales y no fraudulentas. Esta es una tarea ardua y complicada, ya que los defraudadores siempre intentan simular legítimas todas las transacciones fraudulentas, lo que convierte la detección del fraude en una tarea muy compleja. El número de transacciones rechazadas erróneamente por sospecha de fraude se estima en torno a 118.000 millones de dólares de pérdidas únicamente en el sector minorista, estas pérdidas suponen una amenaza equivalente al fraude real en el sector de los servicios financieros. En consecuencia, los bancos se ven obligados a dedicar cada vez más recursos a discriminar entre las transacciones legítimas y las fraudulentas para hacer frente al difícil dilema de evitar las acciones de los impostores sin limitar el crecimiento inexorable del comercio online. Por si esto fuera poco, a este reto se le suma la necesidad de transparencia en toda decisión para la determinación de fraude exigida por los organismos reguladores. De hecho en la Unión Europea, en el Reglamento General de Protección de Datos, aprobado en 2018, otorga a sus ciudadanos el derecho a recibir una explicación de las decisiones basadas en el tratamiento automatizado. La justificación de este tipo de regulación radica en el potencial sesgo que se podrían estar aplicando.
  
  Objetivos Cada una de las problemáticas expuestas anteriormente, se analizan con detenimiento en la presente tesis, donde la meta final consiste en el desarrollo de una metodología fiable, imparcial e interpretable para evaluar automáticamente la detección de fraude de crédito (CFD). Para alcanzar dicha meta, se han definido tres grandes objetivos definidos de la siguiente manera: - T1: Obtención e interpretación de las características más relevantes para la detección de fraude.
  
  - T2: Comprimir y codificar los datos para aislar las transacciones fraudulentas de las no fraudulentas.
  
  - T3: Proponer y evaluar un modelo interpretable completo para la detección de fraude.
  
  Resultados Los resultados relevantes del objetivo T1 consisten en un método fiable, imparcial e interpretable para la selección de características relevantes. El método propuesto se centra en extraer las características relevantes aplicando el algoritmo IVI, el cual ha sido adaptado para amplificar su poder de detección de características usando diversos algoritmos de ML. Adicionalmente para la reducción de posibles sesgos, se han desarrollado procesos de filtrado. Dicha selección de características y filtrado es un paso crucial tanto para mejorar la precisión como para evitar una posible discriminación basada en características no permitidas, como por ejemplo la raza, el sexo o el estado civil. Los resultados obtenidos demuestran que el método propuesto no solo selecciona las características más relevantes sino que mejora la fase de entrenamiento de los modelos ML en términos de eficiencia computacional, al reducir el número potencial de características a sólo las realmente informativas para alcanzar una mayor precisión.
  
  Los resultados relevantes del objetivo T2 consisten en un método que comprima y codifique eficazmente los datos para aislar las transacciones fraudulentas de las no fraudulentas. Esta reducción del espacio real a un espacio latente se realiza a través del uso de algoritmos de autoencoders y técnicas de transferencia de aprendizaje fine tunning. Los resultados obtenidos en el espacio latente mejoran la tarea de clasificación al mapear mejor los diferentes tipos de transacciones.
  
  Los resultados relevantes del objetivo T3 consisten en un método que nos permita dotar de interpretabilidad a modelos de caja negra, como son los autoencoders empleados en el objetivo T2. En CFD, al ser un sector muy regulado, no son admisibles modelos de caja negra, lo que convierte la interpretabilidad en un factor clave para poder emplear algoritmos de altas capacidades de clasificación en la operativa real. Todo ello lleva a la necesidad de la interpretabilidad como elemento crucial a la hora de romper las barreras de la falta de transparencia en los desarrollos tradicionales de ML. La interpretabilidad generada en la presente tesis se ha focalizado a nivel de transacción individual reflejando la contribución o importancia de cada característica en el proceso de decisión. Este proceso se ha llevado a cabo a partir de modelos sustitutivos para cada transacción. Los resultados obtenidos en la experimentación confirman cómo una pequeña variación en una característica en el espacio de entrada tiene una respuesta diferente en el espacio latente teniendo un alto impacto en la clasificación de las transacciones permitiendo mejorar la identificación de transacciones legítimas o fraudulentas.
  
  Conclusiones La presente tesis se centra en métodos interpretables de ML aplicados a la detección de fraude de crédito. Basándonos en los resultados y las publicaciones, puede concluirse que la presente tesis contribuye al avance en métodos interpretables.
  
  Los métodos desarrollados en la tesis se complementan al tratar diferentes fases para la detección de fraude. El primer objetivo consiste en un método capaz de seleccionar las características relevantes, siendo un método computacionalmente eficiente capaz de cuantificar la relevancia de las variables permitiendo reducir la dimensionalidad del problema y minimizar los sesgos en la toma de decisión. Estas propiedades son deseables en el ámbito de CFD, donde el volumen de variables es ingente y la detección temprana de sesgos para evitar posibles casos de discriminación.
  
  El método resultante del segundo objetivo se centra en comprimir y codificar eficazmente los datos para aislar las transacciones fraudulentas de las no fraudulentas. La diferenciación entre transacciones es una tarea compleja dado que los defraudadores intentar replicar el comportamiento de las transacciones legítimas lo que requiere una gran cantidad tiempo y esfuerzo de los analistas teniendo altas tasas de falsos positivos. El método propuesto presenta una correcta separación entre estos tipos de transacciones al comprimir sus características más relevantes en un espacio latente.
  
  Por último, el marco de trabajo resultante de la tercera área de investigación permite interpretar modelos de caja negra como los generados en el objetivo dos. La interpretabilidad a nivel de transacción individual refleja la contribución de cada característica permitiendo justificar la clasificación de las transacciones fraudulentas ante cualquier organismo regulador.
  
  Esperamos que este trabajo contribuya a la adopción de métodos interpretables en CFD. Podemos concluir que nuestra metodología proporciona una evaluación detallada a nivel de transacción individual, dotando de interpretabilidad al proceso de decisión donde visibiliza las características más relevantes. Esta perspectiva individualizada e imparcial proporciona la transparencia necesaria, no sólo para cumplir la normativa, sino también para poder justificar cada operación clasificada ante clientes y autoridades.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: