Indice           


¿Cómo se deduce la fórmula de los coeficientes Mínimos Cuadrados?

Sustentación del Modelo
 Complemento de Conceptos Matemáticos


José Enrique González Cornejo
Enero del 2012


Introducción

En este artículo se intenta explicar cómo se deducen matemáticamente las fórmulas de los coeficientes que se utilizan frecuentemente en los modelos lineales por medio del método de lo mínimos cuadrados.

Cuando se tiene un conjunto de observaciones discretas, definidas por puntos se dice que existen curvas continuas que aproximan o se ajustan a ese conjunto de datos.

Dicha curva que tiene la propiedad de que $S=\sum_{i=0}^n d_i^2$, - la sumatoria de las distancias más cortas al cuadrado-, es un mínimo, se denomina curva de ajuste mínimo


Distancias más cortas del punto a la recta

Nótese que existen variadas técnicas para la estimación de parámetros de modelos líneales, i.e. Método de los Mínimos Cuadrados no es la única, sí es la más común donde se utilizan datos experimentales con aproximación discreta.

Descripción Simulador Gráfico Aleatorio y de Ajuste de Curvas.

A continuación, se presenta un simulador gráfico construido sobre una tendencia con números enteros pseudo-aleatorios, los cuales se distribuyen dentro de un margen de variabilidad y patrón predeterminado en el plano cartesiano por un algoritmo desarrollado especialmente para esta presentación.

Por un lado el tamaño de la muestra $n\in N$ varía aleatoriamente entre ($5$ y $30$ puntos). Por otro lado los valores de sus coordenadas son aleatorias controladas sobre $R$. El propósito de experimentar con el concepto de ajuste de curvas por el método de los mínimos cuadrados.

En efecto, el gráfico que se genera está dotado de un panel de control que permite:

- Generar observaciones aleatorias,- sea con una tendencia de pendiente negativa o positiva-, y diagramar la curva de ajuste sobre esos puntos.

- Seleccionar el gráfico de dispersión de los puntos, (i.e. sólo desplegar sólo los puntos en el plano), sin aproximar o ajustar la curva más conveniente. Nótese que una vez desplegados aleatoriamente los puntos en el plano cartesiano, es posible fijar los datos y experimentar observando la curva que ajusta mejor, sea lineal simple, polinómica o exponencial. (Experimentar con el botón "Puntos").



¿Cuál curva aproxima mejor las observaciones de la primera gráfica?


- Seleccionar la curva que se aproxima en forma lineal simple, polinómica o exponencial, según lo seleccione el usuario. Nótese que si se posiciona el cursor sobre el punto o la curva, se muestra el par de coordenadas estimadas $(\hat x,\hat y)$ .

- Experimentar, observando el comportamiento con cada una de las tres curvas bajo los mismos datos. Esto se logra sólo eligiendo la opción "Fijas", en caso contrario los puntos se generan en "Random".

- Seleccionar la opción que permite obtener una tabla, - en la parte superior del gráfico -, con los datos $(x,y)$, donde el Dominio de Definición se encuentra dentro de $\unicode{123}x\in Z \text{ \ } -5\leq x \leq 30\unicode{125}$ y la Imagen $\unicode{123}y\in R\unicode{125}$. Inmediatamente debajo de la tabla de datos, se muestra la ecuación de la curva de ajuste $Y=f(x)$. (Ver checkbox Mostrar Datos).



Simulador de Puntos Aleatorios y Ajuste de Curvas ~ Plano Cartesiano


Mostrar
Datos
Random
Fijos
Puntos  Recta  Polinómica  Exponencial 





Curvas de Ajuste Mínimo

Entonces, con el Método de los Mínimos Cuadrados se puede ajustar una recta, una parábola, una isocuanta, etc.. Aquella que cumplen con esa propiedad se le llama por su forma "recta de ajuste mínimo", parábola de ajuste mínimo", "isocuanta de ajuste mínimo", etc..

A este efecto, se desarrollará la optimización de la función que involucra la suma del cuadrado de las mínimas distancias, - perpendiculares-, de un punto a una recta en el plano.

Con esta deducción se pretende facilitar la comprensión de un tratamiento de ajustes de funciones en varias variables e introducción al empleo estadístico de estas aproximaciones mediante regresiones lineales.

La técnica de mínimos cuadrados se usa en problemas de optimización en los ámbitos de las ciencias (física, química, economía, etc...), generalmente en forma estadística, trabajando sobre el error con métodos aleatorios y particularmente con las desviaciones de las observaciones con respecto a la media. Estos modelos lineales exigen una serie de condiciones y supuestos para ser aplicados (Teorema de Gauss-Márkov).

Los ejemplos que se abordan aquí, son conjuntos con un número finito de puntos, donde el sistema no está determinado, i.e. el polinomio conformado por estos datos no pasará exactamente por dichos puntos. Dicho de otra manera no serán curvas que interpolen los puntos.

Actualmente, estas estimaciones estadísticas de los parámetros de los modelos lineales se pueden realizar con diferentes métodos de aproximación cuantitativa con soporte de softwares existentes para dichos cálculos (Times-series, Cross-section Data, Panel Data, etc..), a fin de ajustar los datos localizados sobre el diagrama de dispersión.

En este caso, el enfoque es matemático con dos simples ejemplos formados por conjuntos de determinados puntos sobre el plano cartesiano y más adelante estos mismos ejemplos, se estimarán estadísticamente en el anexo de este artículo usando regresiones lineales con Excel, a fin de comparar los resultados.

Nótese que el presente documento está fuera del alcance de la identificación e hipótesis teóricas que se emplean, - en las diferentes disciplinas-, con la medición de estos parámetros, los cuales generalmente conciernen a relaciones con predicciones en función de esos los valores estimados con esas variables.

Se hace notar que el presente documento tampoco abarca el tratamiento del error, ni el análisis de varianza con la medición de los parámetros estimados con respecto a la media y una serie de indicadores estadísticos, etc... Es decir, aquí básicamente se enfoca en el planteamiento matemático en el método de deducción de los coeficientes de las curvas que aproximan la muestra.



Método Mínimos Cuadrados a Través de Ejemplos

Se aplicará un enfoque netamente didáctico, donde se puntualizan los datos en un diagrama de $2$ dimensiones, tomando dos variables al mismo tiempo, las cuales se les suele llamar variable "dependiente" ($Y$) y variable "independiente" ($X$). (Sin embargo, es más apropiado denominar $X$ como la variable que explica la variación de $Y$.)

Desarrollaremos un número determinado de ejemplos orientados a la comprensión, comenzaremos con un ejemplo simple de una función lineal en una sola variable para ir introduciendo la utilización de métodos lineales y estimación de mínimos cuadrados en varias variables.

Nótese que aquí se trabaja con sistemas de ecuaciones normales, que pueden ser múltiples de variables ($n\geq 2$ en $R^{n}$). Entonces, la solución pasará casi inevitablemente por un sistema cuadrado $n\times n$ de ecuaciones, el cual se verá reflejado en forma matricial $AX=B$.

Esta ecuación matricial, implica que se debe calcular la inversa $A^{-1}$. Es decir, se asume que se la $det(A)\neq 0$, i.e. las columnas de $A$ son linealmente independientes, de modo que el sistema de ecuaciones planteado es no singular y tiene una solución única.(Ver Ejemplo 2)


$$ \begin{cases} \sum_{i=1}^n \alpha_{i1} x_{i} & = b_1 \\ \sum_{i=1}^n \alpha_{i2} x_{i} & = b_2 \\ \sum_{i=1}^n \alpha_{i3} x_{i} & = b_3 \\ \text{...} & \text{...}\\ \sum_{i=1}^n \alpha_{ij} x_{i} & = b_i \\ \text{...} & \text{...}\\ \sum_{i=1}^n \alpha_{in} x_{i} & = b_n \\ \end{cases} $$
$\Rightarrow$
$$ \begin{pmatrix} \alpha_{11} & \alpha_{12} & \alpha_{12} & \text{ ... } & \alpha_{1n}\\ \alpha_{21} & \alpha_{22} & \alpha_{22} & \text{ ... } & \alpha_{2n}\\ \alpha_{31} & \alpha_{32} & \alpha_{32} & \text{ ... } & \alpha_{3n}\\ & & & \text{ ... } & \\ \alpha_{n1} & \alpha_{n2} & \alpha_{n2} & \text{ ... } & \alpha_{nn}\\ \end{pmatrix} \begin{pmatrix} x_1\\ x_2\\ x_3\\ \text{......}\\ x_n\\ \end{pmatrix} = \begin{pmatrix} b_1\\ b_2\\ b_3\\ \text{......}\\ b_n\\ \end{pmatrix} $$

-   Ejemplo 1: con 3 Puntos

A continuación explicaremos el método de optimización o búsqueda del mínimo, con un ejemplo de sólo tres observaciones sobre el plano, a fin explicar en forma simple el método con que se obtienen los coeficientes de la curva que mejor aproxima.

Obviamente, cuando se trabaja en tratamiento estadístico de datos el tamaño de las muestras es considerablemente mayor. (Ver Regresión Múltiple).

Supongamos tenemos tres observaciones en el plano cartesiano ($R^2$). Es decir, tres pares ordenados de datos en los Reales ($R^2$) :

$$P_1 (1,1)$$
$$P_2 (2,3)$$
$$P_3 (4,3)$$

Deseamos buscar la recta $L$, que aproxime las observaciones cumpliendo con la condición de los mínimos cuadrados. Es decir, minimizando la sumatoria de las distancias al cuadrado, de los puntos dados a dicha recta.

A ese efecto, construiremos una función $S$ de varias de variables, la cual contenga la sumatoria de las desviaciones al cuadrado, que optimizaremos,  derivándola parcialmente e igualando a cero para encontrar el mínimo.

Una vez determinada la función, mediante cálculos realizados manualmente, estimaremos los coeficientes también mediante regresiones con Excel. (Ver Anexo)





Donde $d_1, d_2, d_3$ son las distancias más cortas de los puntos $P_1, P_2 \text{ y } P_3$ respectivamente a las recta $L$ que deseamos determinar.

Sabemos que la distancia $d_i$ de un punto dado $(x_i , y_i)$ a una recta dada  $y = mx + b$ se calcula con la siguiente fórmula:

$$d_i=\frac{|mx_i-y_i + b|}{\sqrt{m^{2}+1}} \qquad\qquad [1A]$$

(Ver Demostración en Distancia de un Punto a una Recta)

Donde $m$ es la pendiente y $b$ el intercepto de la recta en el eje $y$


Sea $S(m,b)$  una función cuyas variables son la pendiente $m$ y el intercepto de la recta $b$,  que representa la suma de los cuadrados de las distancias, de modo que:

$$ S(m,b)=\frac{1}{m^2+1}\sum_{i=1}^3 d_i^2\qquad\qquad[2]$$

Nota: La constante $\frac{1}{(m^2 + 1)}$ la obviaremos de la función, dado que no aporta en el estudio de la variación que realizaremos en la optimización de la función $[2]$.



Luego, utilizando las expresiones $[1A]$ y $[2]$, en un ejemplo con sólo $3$ observaciones. Digamos los puntos dados $P_1, P_2 \text{ y } P_3$, -(Sustituyendo los puntos $(x_i,y_i)$ en el numerador de $[1A]$)-, la función a optimizar adquiere la siguiente forma:

$$ S(m,b)=(m - 1 + b)^ 2 + (2m - 3 + b)^2 + (4m - 3 + b)^2$$
Derivando parcialmente la función $S(m,b)$ con respecto a $m$:

$$ \frac{\partial {S}}{\partial{m}}=(2·(m - 1 + b)·1) + (2·(2m - 3 + b)·2) + (2·(4m - 3 + b)·4)$$
$\Rightarrow$
$$ \frac{\partial {S}}{\partial{m}}=42m + 14b - 28 $$

$$S'_m=42m + 14b - 28\qquad\qquad[2.1]$$

Ahora, derivando parcialmente la función $S(m,b)$ con respecto a $b$:

$$ \frac{\partial {S}}{\partial{b}}=2(m - 1+ b) + 2(2m - 3 + b) + 2(4m - 3 + b) $$

$$S'_b=14m + 6b - 14\qquad\qquad[2.2]$$

Por tanto igualando a cero las derivadas $[2.1]$ y $[2.2]$ se obtiene el siguiente sistema de ecuaciones:


 
$$21 m + 7 b = 14$$  
  $$[2.3]$$
$$7 m + 3 b = 7$$  

 

$\Rightarrow$
$$m =\frac{4}{7} \quad \text{ y }\quad b =1$$

Es decir, el punto $Q = (\frac{4}{7}, 1)$ minimiza la función $S(m,b)$

Por tanto la recta buscada $L$ es:

$$y = \frac{4}{7} x + 1$$

Luego, $L$ es la función lineal que cumple las condiciones de lo mínimos cuadrados para los puntos dados en el plano cartesiano ($R^2$). Nótese que $Q$ es un punto crítico de $S$, puesto que las derivadas parciales de primer orden de $S$ están definidas en todos los puntos de una región del plano $xy$, y $Q$ es el extremo relativo de $S$ en la región donde están situados en puntos críticos.





-   Extensión del Método de Cálculo a $n$ Observaciones

Ahora, extendamos y exploremos métodos de estimación de la pendiente $m$ y el intercepto $b$ de la recta para una serie de puntos $P_i=(x_i,y_i)$ en el plano cartesiano, tal que $n\in N \land n>2$.

Luego, sea $L$ de la forma $y=m x + b$ que cumple con las condiciones de optimizar minimizando la sumatoria de las distancias al cuadrado, desde los puntos dados a dicha recta que deseamos determinar.

Donde $d_1,d_2,d_3,\text{ ... }d_n$ son las distancias más cortas de los puntos $P_1,P_2,P_3,\text{ ... }d_n$ respectivamente a las recta $L$ que deseamos determinar.

Desde la fórmula rotulada con $[1A]$, sabemos que la distancia $d_i$ de un punto dado $(x_i , y_i)$ a una recta dada  $y = mx + b$ se calcula con la siguiente fórmula:


$$ d_i=\frac{|mx_i-y_i + b|}{\sqrt{m^{2}+1}}$$
Luego, se obtiene una extensión del ejemplo $[2]$ $\forall n \gt 1$. La función a optimizar es:

$$ S(m,b)=\frac{1}{m^2+1}\sum_{i=1}^n d_i^2\qquad\qquad[3]$$

Sus derivadas parciales son:

$$ \frac{\partial {S}}{\partial{m}}=2\sum_{i=1}^n x_i(mx_i - y_i + b) $$ $\Rightarrow$ $$ \frac{\partial {S}}{\partial{m}}=2\sum_{i=1}^n x_i d_i $$
$$ \frac{\partial {S}}{\partial{b}}=2\sum_{i=1}^n (mx_i - y_i + b) $$ $\Rightarrow$ $$ \frac{\partial {S}}{\partial{b}}=2\sum_{i=1}^n d_i $$

Notas

- La constante $\frac{1}{(m^2 + 1)}$ la obviaremos de la función, dado que no aporta en el estudio de la variación que realizaremos en la optimización de la función $[2]$.

-No olvidar aplicar la regla de la cadena, con el coeficiente $x_i\in R$ de la variable $m$


De estas expresiones, igualando $S'_m=S'_b$ y siguiendo las pautas vistas en $[2.1],\quad [2.2], \quad [2.3]$ se deducen, - despejando con una serie de operaciones algebraicas-, las constantes $m$ y $b$ de la recta que aproxima el conjunto de puntos $P(x_i,y_i)$ definido por:

$$ Y = mX + b \qquad\qquad[4] $$

Donde $X$ e $Y$ son los vectores con sus elementos respectivos, i.e $X=\unicode{123}x_1,x_2,x_3,\text{ ... },x_n\unicode{125}\quad$ y $\quad Y=\unicode{123}y_1,y_2,y_3,\text{ ... },y_n\unicode{125}$

En efecto, las contantes $m$ y $b$ se determinan resolviendo el sistema de ecuaciones lineales:

$$\sum_{i=1}^n Y=b·n + m\sum_{i=1}^n X$$
  $[5]$
$$\sum_{i=1}^n XY=b\sum_{i=1}^n X + m\sum_{i=1}^n X^2$$

Las dos expresiones rotuladas con $[5]$ se denominan ecuaciones normales para la recta de mínimos cuadrados. .

Al comenzar a despejar operando algebraicamente este sistema de ecuaciones $[5]$, se obtienen tanto la pendiente $m$ como $b$ en función de la diferentes y combinadas sumatorias en $X$ e $Y$. A saber:

   
$$m=\frac{n\sum_{i=1}^n XY-(\sum_{i=1}^n X)(\sum_{i=1}^n Y)} {n\sum_{i=1}^n X^2-(\sum_{i=1}^n X^2)}$$  
  $$[6]$$
$$b=\frac{n\sum_{i=1}^n Y (\sum_{i=1}^n X^2)-(\sum_{i=1}^n X)(\sum_{i=1}^n XY)} {n\sum_{i=1}^n X^2-(\sum_{i=1}^n Y)}$$  
   






-  Ejemplo 2: con 8 Puntos

Consideremos $n=8$ puntos u observaciones en el plano:

$X$ $Y$ $$X^2$$ $XY$ $$Y^2$$
1 1 1 1 1
3 2 9 6 4
4 4 16 16 16
6 4 36 24 16
8 5 64 40 25
9 7 81 63 49
11 8 121 88 64
14 9 196 126 81
$$\sum_{i=1}^n X_i= 56$$ $$\sum_{i=1}^n Y_i=40$$ $$\sum_{i=1}^n X_i^2=524$$ $$\sum_{i=1}^n X_i Y_i=364$$ $$\sum_{i=1}^n Y_i^2=256$$




Resolvamos la búsqueda de la recta de mínimos cuadrados, despejando $m$ y $b$, del sistema de ecuaciones rotulado como $[5]$

$$\sum_{i=1}^n Y=b·n + m\sum_{i=1}^n X$$  
$$40=8·b + m· 56$$  
  $$\leftarrow \text{ aplicando }[5]$$
$$\sum_{i=1}^n XY=b\sum_{i=1}^n X + m\sum_{i=1}^n X^2$$  
$$364=56·b + m·524$$  

Se representa el sistema de ecuaciones matricialmente, a fin de resolver el sistema de ecuaciones $[5]$. Entonces:


$$A$$
$$B?$$ $$C$$
$$\downarrow$$
$$\downarrow$$ $$\downarrow$$
$$\begin{pmatrix} 8 & 56\\ 56 & 524\\ \end{pmatrix}$$ $$\begin{pmatrix} b\\ m\\ \end{pmatrix}$$ $$=\begin{pmatrix} 40\\ 364\\ \end{pmatrix}$$

Calculando la inversa $A^{-1}$, se obtiene:

$$ A^{-1}= \begin{pmatrix} 0,496212121 & -0,053030303\\ -0,05303030 & 0,007575758\\ \end{pmatrix} $$

Luego, aplicando la inversa, se tiene $A^{-1}AB=A^{-1}C,\quad \Rightarrow\quad B=A^{-1}C$


$$ B= \begin{pmatrix} 0,496212121 & -0,053030303\\ -0,05303030 & 0,007575758\\ \end{pmatrix} \begin{pmatrix} 291\\ 11993\\ \end{pmatrix} = \begin{pmatrix} 0,545454545\\ 0,636363636\\ \end{pmatrix} $$
$\Rightarrow$

$$b=0,636363636$$ $$m=0,545454545$$


$$\Rightarrow$$



 

$Y=0,636363636·X + 0,545454545$

Es decir, el punto $Q = (0,636363636, 0,545454545)$ minimiza la función $S(m,b)$ ($\quad Ver[3]$).














Anexo


Solución Estadística con Excel

Mostraremos la solución utilizando el complemento Herramientas para Análisis de Excel, a partir del cual podemos resolver vía regresión lineal muestras de observaciones de mayor orden y en varias variables.

- Ejemplo 1 (3 observaciones Excel)

Nótese que la herramienta no sólo calcula el intercepto $b=1$ y coeficientes $m=\frac{4}{7} = 0,57142857$, sino que una serie de otros estimadores asociados a las sumas de las desviaciones y errores al cuadrado.

Y

X

1

1

3

2

3

4

 

 

 

 

Resumen                
               
Estadísticas de la regresión              
Coeficiente de correlación múltiple 0,75592895              
Coeficiente de determinación R^2 0,57142857              
R^2  ajustado 0,14285714              
Error típico 1,06904497              
Observaciones 3              
               
ANÁLISIS DE VARIANZA              
  Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F      
Regresión 1 1,52380952 1,52380952 1,33333333 0,45437105      
Residuos 1 1,14285714 1,14285714          
Total 2 2,66666667            
               
  Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 1 1,30930734 0,76376262 0,58476402 -15,6363271 17,6363271 -15,6363271 17,6363271
Variable X 1 0,57142857 0,49487166 1,15470054 0,45437105 -5,71651205 6,85936919 -5,71651205 6,85936919
               
               
               



-  Ejemplo 2 (8 observaciones Excel)

Nótese que la herramienta aproxima el intercepto $b=$ y coeficientes $m=$, con error. La dispersión aumentó, dado el tamaño mayor de observaciones


Resumen                
                 
Estadísticas de la regresión              
Coeficiente de correlación múltiple 0,96641723              
Coeficiente de determinación R^2 0,93396226              
R^2  ajustado 0,92075472              
Error típico 0,70577136              
Observaciones 7              
                 
ANÁLISIS DE VARIANZA              
  Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F      
Regresión 1 35,2237197 35,2237197 70,7142857 0,00038984      
Residuos 5 2,49056604 0,49811321          
Total 6 37,7142857            
                 
  Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 0,67924528 0,64000934 1,06130526 0,33710198 -0,96595111 2,32444168 -0,96595111 2,32444168
1 0,62264151 0,07404308 8,40917866 0,00038984 0,43230771 0,81297531 0,43230771 0,81297531



Artículos Relacionados


 







Artículo actualizado en marzo 2021 por el autor