Indice           



Modelo Logit

Modelo Clasificación de Crédito a Potenciales Clientes


José Enrique González Cornejo
Enero del 2002



Introducción

Se ha retomado hoy 24 de Junio 2021 el presente artículo 2002, cuyo objetivo fue ilustrar mediante un planteamiento simple y práctico, cómo tratar el modelo econométrico Logit e invitar al lector a confrontarlo con el modelamiento "Naïve Bayes: Algoritmo de Clasificación Modelo de Variables Discretas" y "Experimento ~ Supervisión y Entrenamiento ~ Inteligencia Artificial ~ Naïve Bayes Learning Machine" . Todos, bajo la premisa de desarrollar un algoritmo de aprendizaje automático que permita predecir información en base a datos numéricos agregados en clases.

Videos Síntesis Asociados

Algoritmo Naïve Bayes
 

Naive Bayes Tablas Dinámicas Excel


Experimento ~ Supervisión y Entrenamiento ~ Inteligencia Artificial ~ Naïve Bayes Learning Machine

Video con ejemplo didáctico, a fin de mostrar cómo se configura un algoritmo o un simple robot utilizando sensores que lo alimentarán bajo el modelo del concepto de Learning Machine. Capítulo dedicado a la comparación de la Distribución Logit versus Naïve Bayes.


"Naïve Bayes o Bayes Ingenuo" es un instrumento estadístico, cuya variable a explicar es generalmente dicotómica, se utiliza en Minería de Datos e Inteligencia Artificial (Learning Machine), guardando cierta analogía con la la distribución estadística Logit, dado que ambos métodos se basan en la frecuencia relativa de variables categóricas o clases o atributos, a fin de obtener información relevante para el análisis de toma de decisiones en base a predicciones probabilísticas.

Por un lado el Método Naïve Bayes hace una ingenua abstracción de todos estos supuestos lineales y toma las variables categorizadas directamente como atributos mutuamente excluyentes. Por otro lado el método de distribución estadística Logit, se aplica bajo todos los supuestos lineales que exige los modelos econométricos, i.e. testear correlaciones, heterocedasticidad, la multicolinealidad, autocorrelación, etc..

Nota

Se adiciona esta nota inicial sólo a modo de comparación en el tratamiento de datos actual, para mostrar las dificultades que presentaba la distribución estadística Logit para encontrar estimadores más exactos que admitan a excluir y aprender nuevas instancias en la afinación del modelo.

Hoy cuando se trabaja con "Learning Machine" en modelos dinámicos, los cuales van permanentemente aumentando el tamaño de su espacio muestral sobre un el flujo de datos en línea, los cuales van ingresando y distribuyéndose de acuerdo a la reglas establecidas, - dentro de los atributos o clases previamente configuradas-, para predecir la variable dependiente. En los hechos se prueba que los algoritmos elaborados en base a la Logit son insuficientes en sus estimaciones. Es decir, cuando se incorporan enormes cantidades de datos y numerosas variables explicativas o atributos (que no siempre son disjuntos o independientes).

La idea hoy, son los modelos bayesianos dinámicos, donde se van ajustando los parámetros, que además permiten contabilizar y contemplar aquellos datos que no calzan dentro de los umbrales de las clases, de modo que posibiliten constituir nuevas instancias o atributos dentro del modelo.


En efecto, la Logit es una regresión que predice el resultado de una variable categórica en función de las variables 'independientes' o explicativas predictoras. La Logit, - obviamente como todas las distribuciones estadísticas-, no predice determinísticamente $0$ ó $1$, sino que la regresión logística genera una probabilidad con un valor entre $0$ ó $1$.

Por ejemplo, si el modelo infiere un valor de 0,897 en particular para el intervalo A, implica una probabilidad del 89,7% ocurre la clase A seleccionada con el valor $1$. Más precisamente, significa que en el límite de infinitos será A, y el 10,3% restante no lo será, i.e. $0$.

El presente artículo se elaboró el año 2002, para ser aplicado en la Plataforma Tecnológica MyPE  (Ver presentación "Scoring MyPe y se trata de un modelo de calificación del riesgo de morosidad para clientes de renta variable"). Se advierte que una serie de formulaciones y estimaciones estadísticas asociadas a los cálculos del modelo,  no son mostrados en detalle (correlaciones, desviación estándar, factor de corrección, autocorrelación, etc..).

En resumen, se muestra cómo se aplicará la estimación de la Logit, cómo se obtienen los parámetros básicos. La regresión lineal utilizada obviamente puede ser múltiple. Sin embargo, aquí se utiliza una sola variable independiente que intenta explicar la variación de la variable dicotómica (o "dummy"). También se utiliza un ejemplo que ilustra el procedimiento como se agrega la data, y se realiza el procedimeinto con los cálculos.


El modelo Logit

El modelo Logit se inscribe dentro de llamadas regresiones sobre "dummy" variables. Una variable "dummy" o dicotómica es una variable numérica usada en el análisis de regresión líneal para representar los subgrupos de la muestra en su estudio. En el diseño de la investigación, una variable "dummy" se utiliza a menudo para distinguir a diversos grupos del tratamiento. En el caso más simple, con valores  $0$ y $1$.  Las variables "dummy" son útiles porque nos permiten utilizar una sola ecuación de la regresión para representar a grupos múltiples1.

La Logit es una de la llamada LPM (Logit and Probit Models)


Representación Gráfica de Función Logit2

El modelo Logit, se define a  partir de la siguiente función de distribución:

$$ P(Y=\frac{1}{X_i})=\frac{1}{1 + e^{-Z_i}}\qquad\quad [1] $$

Donde,

$$Z_i = \beta_0 + \beta_1 X_i + µ\qquad\qquad\quad [2]$$

y las variables se definen de la siguiente forma:



$$Y_i=1$$ Cumplió
$$Y_i=0$$ No_Cumplió
$$X_i$$ Ingreso de Cliente
$$P(Y_i=\frac{1}{X_i})$$ Probabilidad de ser "Cumplió", explicado por la variable $X_i$
$$Z_i$$ Exponente del exponencial que es una regresión lineal
$$\beta_0$$ Intercepto de la Curva (Parámetro a estimar)
$$\beta_1$$ Pendiente de la Curva (Parámetro a estimar)
$$\mu$$ Error
$$i=1,2,3,\text{...},N$$ Indice de diferenciación de variables

Linearización: Transformación Logarítmica

La linearización de la función de distribución $[1]$, se realiza mediante la definición de la Logit que denotamos por $L_i$, tomando el logaritmo natural de la razón entre las probabilidades $P_i$ y la probabilidades complementarias $(1-P_i)$.

Nótese que la transformación lineal logaritmo natural en base $e$, baja los exponentes y permite trabajar en el espacio de la regresión líneal con las operaciones binarias ordinarias, para posteriormente con los coeficientes ya estimados volver al espacio no lineal:

$$ L_i=Ln(\frac{P_i}{1-P_i})= Z_i=\beta_0+\beta_1 X_i + \mu \qquad\qquad [3] $$


Ejemplo de Clasificación

La idea central del ejemplo es ilustrar el método, levantando datos propios y clasificar basado en comportamientos o características de datos de clientes almacenados.

El objetivo es realizar predicciones en función de patrones históricos de grupos de clientes. En este caso, se trabajará con la variable ingreso sobre una pequeña muestra de observaciones. Obviamente, una función de una sóla variable o atributo es insuficiente para armar un criterio de evaluación consistente.

No obstante, comprender el procedimiento de este instrumento estadístico Logit señalará aun mejor la diferencia con el método "Learning Machine~ Naïve Bayes o Bayes Ingenuo", especialmente en lo referente al mayor número de variables o atributos (que se asumen mutuamente excluyentes), - que pueden explicar la variable dependiente-, incluidos en el modelo. Este hecho, facilita el tratamiento estadístico de datos, y también en sacar conclusiones válidas para tomar decisiones en base a ese análisis.(Ver Algoritmo Naïve Bayes Explicado con Tablas Dinámicas Excel)


Muestra de Datos

Se ha extraído una muestra de 120.800 de observaciones de clientes de la base datos. Filtrando por cada cliente su ingreso expresado en una unidad monetaria y su cumplimiento de pago respectivo.

La muestra se ha distribuido en 9 clases o intervalos de ingresos, asociando la frecuencia a la variable dicotómica si cumplió o no cumplió.

Clase Intervalo Ingreso
1 $$0\lt X_1 \leq 200$$
2 $$200\lt X_2 \leq 350$$
3 $$350\lt X_3 \leq 500$$
4 $$500\lt X_4 \leq 700$$
5 $$700\lt X_5 \leq 900$$
6 $$900\lt X_6 \leq 1100$$
7 $$1100\lt X_7 \leq 1300$$
8 $$1400\lt X_8 \leq 1500$$
9 $$X_9 \gt 1500$$
Clases o Intervalos

A continuación se ilustra la configuración del diagrama de árbol:



Diagrama de Arbol~Configuración de los Datos

Ingreso en Miles de $ Cumplió No_Cumplió Tamaño Clase
$$X_i$$ $$n_{1i}$$ $$n_{2i}$$ $$N_{i}$$
200 11078 1022 12100
350 7147 853 8000
500 6539 861 7400
700 15224 2376 17600
900 25521 4079 29600
1100 9342 1458 10800
1400 15564 2036 17600
1500 16164 1536 17700
1850 9819 881 10700
Total 106579 14221 120800

Tabla 1

Tal como lo muestra la Tabla $1$ para cada nivel de ingreso $X_i$, existen $N_i$ clientes. Donde $n_{1i}$ representa el número de créditos "Cumplió"  y  $n_{2i}$   los "No_Cumplió" para cada nivel de ingreso $X_i$,  $N_i$ representa el tamaño del intervalo respectivo. Es decir; $N_i = n_{1i} + n_{2i}$.

Nótese que la data que se muestra en la Tabla $1$ señala que cada clase $X_i$ tiene un tamaño total $N_i\neq 0$, donde cada $n_i \leq N_i$. Es ahí entonces, que se calcula la frecuencia relativa asignada al estimador $\hat P_i$, tomando la proporción entre el tamaño de las clases y el tamaño total de las observaciones respectivas. (Ver $[4]$).

Esta frecuencia relativa es usada como el estimador $\hat P_i$. De modo que mientras mayor sea el número de observaciones $N_i$, mejor será el estimador $\hat P_i$.



Estimación Parámetros

Para estimar los parámetros de la Logit utilizaremos la frecuencia relativa $\hat {P_i}$ (parámetro estimado) como la probabilidad de ser "Cumplió" para cada   nivel de ingreso  $X_i$:

$$ \hat {P_i}=\frac{n_{1_i}}{N_i}\qquad\qquad[4] $$



Utilizando la Tabla $1$ y aplicando las expresiones $[4]$ y  $[3]$ se obtiene la siguiente tabla:

Ingresos Si
Pagan
No
Pagan
Tamaño
Clase
Prob.
Cumplió
Prob.
No_Cumplió
Razón Logit
Li
$X_i$ $n_{1i}$ $n_{2i}$ $N_i$ $\hat{P_i}$ $1-\hat{P_i}$ $\frac{\hat{P_i}}{(1-\hat{P_i})}$ $Ln(\frac{\hat P_i}{(1-\hat P_i)})$
200 11078 1022 12100 0,9155 0,0845 10,8343 2,3827
350 7147 853 8000 0,8934 0,1066 8,3809 2,1260
500 6539 861 7400 0,8837 0,1163 7,5985 2,0279
700 15224 2376 17600 0,8650 0,1350 6,4074 1,8575
900 25521 4079 29600 0,8622 0,1378 6,2569 1,8337
1100 9342 1458 10800 0,8650 0,1350 6,4074 1,8575
1400 15564 2036 17600 0,8843 0,1157 7,6430 2,0338
1500 16164 1536 17700 0,9132 0,0868 10,5207 2,3533
1850 9819 881 10700 0,9177 0,0823 11,1507 2,4115
Total 106579 14221 120800 - - - -

Tabla 2

Aplicando el Método de los Mínimos Cuadrados y regresando las cifras de acuerdo a la expresión $[2]$ , entonces  la variable dependiente  $L_i$   explicada por $X_i$ arroja los siguientes parámetros estimados:


Parámetro Estimado Valor
$\hat{\beta_0}$ 2,011432424
$\hat{\beta_1}$ 9,18776E-05
$R^{2}$ 0,048491063

Tabla 3


Cálculo del Error



$X_i$ $L_i$ $\hat {L_i}$ $\mu$ $\mu^{2}$
200 2,38271883 2,0298 0,3529 0,1245
350 2,1259509 2,0436 0,0824 0,0068
500 2,02794458 2,0574 -0,0294 0,0009
700 1,85745473 2,0757 -0,2183 0,0477
900 1,8336839 2,0941 -0,2604 0,0678
1100 1,85745473 2,1125 -0,2550 0,0650
1400 2,03379574 2,1401 -0,1063 0,0113
1500 2,35334829 2,1492 0,2041 0,0417
1850 2,41149943 2,1814 0,2301 0,0529
$\sum u^{2}$ 0,4186
Tabla 4

Estimación e Interpretación


Modelo Propuesto   Modelo Estimado
$$L_i=\biggl(\frac{P_i}{(1-P_i)}\biggr)=\beta_0 + \beta_1 X_1$$ $$\longrightarrow$$ $$\hat L_i=\biggl(\frac{\hat P_i}{(1-\hat P_i)}\biggr)=\hat \beta_0 + \hat \beta_1 X_1 + \hat \mu $$

En este caso, se usa la regresión logística en una variable, correlacionando la probabilidad binaria del cumplimiento de pago de un crédito utilizando los valores $\unicode{123}0,1\unicode{125}$, explicados por una variable escalar categorizada que es el ingreso. Si la aplicación de la Logit arroja la probabilidad de obtener $0$ el evento es "No_Cumplió" y si aproxima $1$ el evento es "Cumplió".

En el modelo Logit propuesto se asume que existen valores ideales que representan perfectamente el cálculo y predicción (coeficientes sin ^). Dicho modelo, el cual se aproxima mediante la muestra de datos en el modelo Logit estimado. Es decir, los estimadores (con ^) $\unicode{123}\hat\beta_0, \hat \beta_1, \hat\mu \unicode{125}$ obtenidos del procesamiento de los datos intentan ajustarse a la curva supuestamente perfecta, mediante el método de los mínimos cuadrados.

La interpretación del modelo Logit señala que el coeficiente $\beta_1$ es la pendiente que mide la variación de $L$ cuando ocurre un cambio de una unidad en el ingreso. Aquí se puede utilizar el concepto de elasticidad5, que es la variación porcentual que experimenta una variable dependiente en respuesta a la variación porcentual de una variable explicativa.

El cambio, lógicamente se puede calcular derivando simplemente $L_i$ con respecto a $\hat X_1$, dado que tanto $X_0$ como $\mu$ son constantes. En caso de incluir más variables explicativas en el modelo se debe derivar parcialmente. En este caso la tasa de cambio es:

$$\frac{d L}{d \hat X_1}=\beta_1$$
El intercepto $\beta_0$ es el valor inicial del ingreso. Cuando el valor constante del intercepto es igual a $0$ indica que la curva pasa por el origen. La interpretación física del intercepto,- en general -, no tiene mayor significado. Excepto cuando esté dada como condición de borde en un enunciado.

El valor del error o residuo o perturbación $\mu$, se incluye como la parte inexplicada del modelo interpretado por diversas influencias aleatorias sobre el diseño y su medición. Errores que se producen a causa de variables omitidas, variables no observables, errores de medición, errores de especificación y particularmente por los hipotéticos supuestos de base de linealidad del método.

El análisis del error es complejo y de gran importancia en la medición de modelos lineales. Recordar que los estimadores se trabajan bajo desviaciones con respecto a la media. (Ver Deducción)

En este caso los tratamos en forma simple y coloquial, donde el valor estimado de $\hat \mu$ contribuye a "cuadrar" la ecuación.

De la interpretación antes mencionada, y para facilitar el tratamiento estadístico de datos para construir modelos predictivos probados en este contexto, nos acercamos al Método Naïve Bayes, el cual hace una ingenua abstracción de todos estos supuestos lineales y toma las variables categorizadas directamente como atributos mutuamente excluyentes.




Notas

1Esto significa que no necesitamos poner los modelos separados de la ecuación en escrito para cada subgrupo. Las variables dicotómicas actúan como los 'switches' que transforman varios parámetros en SI/NO en una ecuación. Otra ventaja de una variable dummy es que pueden tratars en clases (niveles o intervalos)  aunque sean   variables nominales

2El intervalo real de $P$ es [$0,1$], i.e. $Z$ varía en el intervalo ]$-\infty,\infty$[. Así mismo la Logit varía desde $-\infty$ hasta $+\infty$. Nótese que si:

$$Z_i\rightarrow +\infty \Rightarrow e^{-Z_i}\rightarrow 0$$.
$$Z_i\rightarrow -\infty \Rightarrow e^{-Z_i}\rightarrow +\infty$$
3Por ejemplo, un criterio de atraso costoso podría definirse como un atraso promedio de 15 días o más con respecto al día de pago programado.

4Cálculos realizados Excel, con los datos de la Tabla $3$. VAR2= Logit $L_i$ y VAR1=$X_i$


4Cálculos realizados Excel, con los datos de la Tabla $3$. VAR2= Logit $L_i$ y VAR1=$X_i$

5La tasa de cambio en la probabilidad de $P$ con respecto a $X_1$ es $\frac{dP}{dX_1}=\beta_1 P(1-P)$, es la elasticidad definida como $\eta=\frac{dP}{dX_1}·\frac{X_1}{P}$


Cálculos realizados Excel

           
           
Estadísticas de la regresión        
Coeficiente de correlación múltiple 0,203878465        
Coeficiente de determinación R^2 0,041566428        
R^2  ajustado -0,09535265        
Error típico 0,023551927        
Observaciones 9        
           
ANÁLISIS DE VARIANZA        
  Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 0,000168396 0,00017 0,303583896 0,598781194
Residuos 7 0,003882853 0,00055    
Total 8 0,004051249      
           
  Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción 0,88117949 0,016043998 54,9227 1,73933E-10 0,843241463
Variable X 1 8,16289E-06 1,48151E-05 0,55098 0,598781194 -2,68693E-05
Superior 95% Inferior 95,0% Superior 95,0%
0,91911752 0,843241463 0,91911752
4,3195E-05 -2,68693E-05 4,3195E-05


Bibliografía y Videos

    [1] Regresión Lineal Múltiple-Complemento de Conceptos Matemáticos-Sustentación del Modelo, José Enrique González Cornejo, Enero del 2012

    [2] ¿Cómo se deduce la fórmula de los coeficientes Mínimos Cuadrados? Sustentación del Modelo, Complemento de Conceptos Matemáticos, José Enrique González Cornejo,Enero del 2012

    [3] Distancia de un Punto a una Recta, Sustentación del Modelo, Complemento de Conceptos Matemáticos, José Enrique González Cornejo, Enero del 2012

    [4] "Theory of Econometrics", A. Koutsoyiannis, 2º edition McMillan Press 1976

    [5] "Basic Econometrics", D.M. Gujarati, 2º 2º edition Mc Graw Hill, 1988

    [6] "Investigación DocIRS," Razones, Scoring MYPE" /Planilla Cálculos Logit, 2002

    [7] "Presentación Qué es Scoring", BancoEstado, 2002.

    [8] Video Youtube:Capitulo II: Naïve Bayes ~ Simple (Version Producción), Algoritmo de Clasificación Modelo de Variables Discretas, José Enrique González Cornejo, 2020.

    [9]Video Youtube:Algoritmo Naïve Bayes Explicado con Tablas Dinámicas Excel, José Enrique González Cornejo, 2020.

    [10]Video Youtube:Experimento ~ Supervisión y Entrenamiento ~ Inteligencia Artificial ~ Naïve Bayes Learning Machine , José Enrique González Cornejo, 2021.

Publicaciones Relacionadas