Detección de fraude dentro del ramo SOAT: Nuestra experiencia con Machine Learning

El desarrollo de nuevas herramientas tecnológicas basadas en el aprendizaje de máquina (o Machine Learning) ha representado una revolución para diferentes compañías a nivel mundial. Con el auge de muchos sistemas de información y la disponibilidad cada vez mayor de cantidades importantes de datos, se desprende una oportunidad histórica para hacer de la estadística un factor clave de cara al desarrollo de muchos modelos de negocio.

Desde la estadística se puede predecir el comportamiento de un conjunto de agentes, pasando por el ejercicio de revelar tendencias escondidas en la información, hasta concluir con métricas cada vez más dicientes y loables. El poder de los datos parece estar forjándose un lugar dentro de muchas discusiones sociales.

En INIF sabemos esto y hemos desarrollo un modelo estadístico que permita clasificar y predecir siniestros fraudulentos en el ramo SOAT, además de pronosticar el número de accidentes de tránsito atendidos en un conjunto de ciudades e IPS específicas. Para cumplir con sus objetivos se tuvo en cuenta una serie de condiciones que cumplían con la de cualquier algoritmo de aprendizaje automático:

En primer lugar, el modelo se entrenó con un número de registros lo suficientemente grande para minimizar las probabilidades de error en los resultados, para esto se usó la información del Sistema de Información de Reporte de Atenciones en Salud a Víctimas de Accidentes de Tránsito (SIRAS), el cual se compone de una serie de bases de datos transversales de las compañías de seguros con información recolectada al momento de la atención por parte de la IPS (entidad proveedora de salud).

En segundo lugar, se validó que los resultados generados por el algoritmo en la última etapa de su evaluación fueran parecidos a los obtenidos en la etapa de entrenamiento. Para ello, se dividió el conjunto de datos en dos muestras condicionadas a la fecha de registro del siniestro. Esto produjo un porcentaje de exactitud cercano al 97%.

Por último, con el objetivo de que el modelo sea simple pero efectivo, se usó el método XGBoost (Extreme Gradient Boosting), el cual se basa en la generación iterativa de múltiples modelos de predicción “débiles” que se alimentan entre sí mientras aprenden de sus errores, para posteriormente generar un modelo más “fuerte”, con mejor poder predictivo y mayor estabilidad en sus resultados.

Esta asociación de características permitió que se llegara a un producto deseable de cara a la prevención y mitigación del fraude al interior del ramo SOAT y clave para la toma de decisiones en las compañías que la implementen.

Este desarrollo hace parte del propósito de INIF para edificar una cultura basada en la honradez y la legalidad. Además, hace parte de un proceso de crecimiento dentro del sector, crecimiento que se espera sea alimentado por el oro de nuestros tiempos: los datos.

Cargando...