Métodos de análisis de regresión. Métodos de estadística matemática. Análisis de regresión

En sus obras que datan de 1908. Lo describió usando el ejemplo del trabajo de un agente de venta de bienes raíces. En sus registros, el especialista en ventas de viviendas mantuvo registros amplia gama datos iniciales de cada estructura específica. A partir de los resultados de la subasta se determinó qué factor tuvo mayor influencia en el precio de la transacción.

Análisis gran cantidad Las transacciones arrojaron resultados interesantes. El precio final estuvo influenciado por muchos factores, que a veces llevaron a conclusiones paradójicas e incluso a "valores atípicos" obvios cuando una casa con un alto potencial inicial se vendió a un precio reducido.

El segundo ejemplo de la aplicación de dicho análisis es el trabajo al que se le encomendó determinar la remuneración de los empleados. La complejidad de la tarea radicaba en que no requería la distribución de una cantidad fija a todos, sino su estricta correspondencia con el trabajo específico realizado. La aparición de muchos problemas con soluciones prácticamente similares requirió un estudio más detallado de los mismos a nivel matemático.

Se asignó un lugar importante a la sección "Análisis de regresión", que combina métodos prácticos, utilizado para estudiar dependencias que caen bajo el concepto de regresión. Estas relaciones se observan entre datos obtenidos de estudios estadísticos.

Entre los muchos problemas a resolver, se fija tres objetivos principales: determinar la ecuación de regresión vista general; construir estimaciones de parámetros desconocidos que forman parte de la ecuación de regresión; prueba de hipótesis de regresión estadística. En el curso de estudiar la relación que surge entre un par de cantidades obtenidas como resultado de observaciones experimentales y que constituyen una serie (conjunto) del tipo (x1, y1), ..., (xn, yn), se basan en las disposiciones de la teoría de la regresión y suponemos que para una cantidad Y existe una cierta distribución de probabilidad, mientras que la otra X permanece fija.

El resultado Y depende del valor de la variable X; esta dependencia puede estar determinada por varios patrones, mientras que la precisión de los resultados obtenidos está influenciada por la naturaleza de las observaciones y el propósito del análisis. El modelo experimental se basa en ciertos supuestos que son simplificados pero plausibles. La condición principal es que el parámetro X sea una cantidad controlada. Sus valores se establecen antes del inicio del experimento.

Si durante un experimento se utiliza un par de variables no controladas XY, entonces el análisis de regresión se lleva a cabo de la misma manera, pero se utilizan métodos para interpretar los resultados, durante los cuales se estudia la relación de las variables aleatorias en estudio. Métodos de estadística matemática. No son un tema abstracto. Encuentran aplicación en la vida en diversas esferas de la actividad humana.

En la literatura científica, el término análisis de regresión lineal se utiliza ampliamente para definir el método anterior. Para la variable X, se utiliza el término regresor o predictor, y las variables dependientes Y también se denominan variables criterio. Esta terminología refleja sólo la dependencia matemática de las variables, pero no la relación causa-efecto.

El análisis de regresión es el método más común utilizado para procesar los resultados de una amplia variedad de observaciones. Las dependencias físicas y biológicas se estudian mediante este método; se implementa tanto en economía como en tecnología. Muchos otros campos utilizan modelos de análisis de regresión. El análisis de varianza y el análisis estadístico multivariado trabajan estrechamente con este método de estudio.

El análisis de regresión es un método para establecer una expresión analítica para la dependencia estocástica entre las características en estudio. La ecuación de regresión muestra cómo cambia el promedio. en al cambiar cualquiera de X i , y tiene la forma:

Dónde y - variable dependiente (siempre es la misma);

X i - variables independientes (factores) (puede haber varias).

Si solo hay una variable independiente, se trata de un análisis de regresión simple. Si hay varios de ellos ( PAG 2), entonces dicho análisis se llama multifactorial.

El análisis de regresión resuelve dos problemas principales:

    construir una ecuación de regresión, es decir encontrar el tipo de relación entre el indicador de resultado y los factores independientes X 1 , X 2 , …, X norte .

    evaluación de la importancia de la ecuación resultante, es decir Determinar en qué medida las características de los factores seleccionados explican la variación de un rasgo. Ud.

El análisis de regresión se utiliza principalmente para la planificación, así como para desarrollar un marco regulatorio.

A diferencia del análisis de correlación, que sólo responde a la pregunta de si existe una relación entre las características analizadas, el análisis de regresión también proporciona su expresión formalizada. Además, si el análisis de correlación estudia cualquier relación entre factores, entonces el análisis de regresión estudia la dependencia unilateral, es decir. una relación que muestra cómo un cambio en las características de un factor afecta la característica efectiva.

El análisis de regresión es uno de los métodos más desarrollados de estadística matemática. Estrictamente hablando, para implementar el análisis de regresión es necesario cumplir una serie de requisitos especiales (en particular, X yo ,X 2 ,...,X norte ;y debe ser independiente, normalmente distribuido variables aleatorias con variaciones constantes). EN vida real El cumplimiento estricto de los requisitos del análisis de regresión y correlación es muy raro, pero ambos métodos son muy comunes en la investigación económica. Las dependencias en economía pueden ser no sólo directas, sino también inversas y no lineales. Se puede construir un modelo de regresión en presencia de cualquier dependencia; sin embargo, en el análisis multivariado solo se utilizan modelos lineales de la forma:

La ecuación de regresión se construye, por regla general, utilizando el método de mínimos cuadrados, cuya esencia es minimizar la suma de las desviaciones al cuadrado de los valores reales de la característica resultante de sus valores calculados, es decir:

Dónde T- número de observaciones;

j =a+b 1 X 1 j +b 2 X 2 j + ... + b norte X norte j - valor calculado del factor de resultado.

Se recomienda determinar los coeficientes de regresión utilizando paquetes analíticos para una computadora personal o una calculadora financiera especial. En el caso más simple, los coeficientes de regresión de un univariado ecuación lineal regresiones de la forma y = a + bx se puede encontrar usando las fórmulas:

Análisis de conglomerados

El análisis de conglomerados es uno de los métodos de análisis multivariado destinado a agrupar (agrupar) una población cuyos elementos se caracterizan por muchas características. Los valores de cada característica sirven como coordenadas de cada unidad de la población bajo estudio en el espacio multidimensional de características. Cada observación, caracterizada por los valores de varios indicadores, se puede representar como un punto en el espacio de estos indicadores, cuyos valores se consideran coordenadas en un espacio multidimensional. Distancia entre puntos R Y q Con k coordenadas se define como:

El criterio principal para la agrupación es que las diferencias entre conglomerados deben ser más significativas que entre observaciones asignadas al mismo conglomerado, es decir, en un espacio multidimensional se debe observar la siguiente desigualdad:

Dónde r 1, 2 - distancia entre los grupos 1 y 2.

Al igual que los procedimientos de análisis de regresión, el procedimiento de agrupación requiere bastante mano de obra; es recomendable realizarlo en una computadora;

El método de análisis de regresión se utiliza para determinar los parámetros técnicos y económicos de productos que pertenecen a una serie paramétrica específica con el fin de construir y alinear relaciones de valor. Este método se utiliza para analizar y justificar el nivel y las relaciones de precios de productos caracterizados por la presencia de uno o más parámetros técnicos y económicos que reflejan las principales propiedades del consumidor. El análisis de regresión nos permite encontrar una fórmula empírica que describe la dependencia del precio de los parámetros técnicos y económicos de los productos:

P=f(X1X2,...,Xn),

donde P es el valor del precio unitario del producto, rublos; (X1, X2, ... Xn) - parámetros técnicos y económicos de los productos.

El método de análisis de regresión, el más avanzado de los métodos normativos-paramétricos utilizados, es eficaz cuando se realizan cálculos basados ​​en el uso de métodos modernos. tecnologías de la información y sistemas. Su aplicación incluye los siguientes pasos principales:

  • determinación de grupos paramétricos de clasificación de productos;
  • selección de parámetros que más influyen en el precio del producto;
  • selección y justificación de la forma de conexión entre los cambios de precios cuando cambian los parámetros;
  • construcción de un sistema de ecuaciones normales y cálculo de coeficientes de regresión.

El principal grupo de calificación de productos, cuyo precio está sujeto a igualación, es una serie paramétrica, dentro de la cual los productos se pueden agrupar en diferentes diseños dependiendo de su aplicación, condiciones y requisitos de operación, etc. Al formar series paramétricas, se utilizan métodos de clasificación automática. Se pueden utilizar, que permiten distinguir grupos homogéneos de la masa total de productos. La selección de parámetros técnicos y económicos se realiza en base a los siguientes requisitos básicos:

  • los parámetros seleccionados incluyen parámetros registrados en normas y especificaciones técnicas; además Parámetros técnicos(potencia, capacidad de carga, velocidad, etc.) se utilizan indicadores de serialización del producto, coeficientes de complejidad, unificación, etc.;
  • el conjunto de parámetros seleccionados debe caracterizar suficientemente las propiedades de diseño, tecnológicas y operativas de los productos incluidos en la serie y tener una correlación bastante estrecha con el precio;
  • Los parámetros no deben ser interdependientes.

Para seleccionar los parámetros técnicos y económicos que afectan significativamente el precio, se calcula una matriz de coeficientes de correlación de pares. Según la magnitud de los coeficientes de correlación entre los parámetros, se puede juzgar la cercanía de su conexión. Al mismo tiempo, una correlación cercana a cero muestra una influencia insignificante del parámetro en el precio. La selección final de parámetros técnicos y económicos se lleva a cabo en el proceso de análisis de regresión paso a paso utilizando equipo de computadora y los programas estándar correspondientes.

En la práctica de precios, se utiliza el siguiente conjunto de funciones:

lineal

P = ao + alXl + ... + hormigaXn,

potencia lineal

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

logaritmo inverso

P = a0 + a1: En X1 + ... + an: En Xn,

fuerza

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indicativo

P = e^(a1+a1X1+...+anXn)

hiperbólico

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

donde P es la igualación de precios; X1 X2,..., Xn - el valor de los parámetros técnicos y económicos de los productos de la serie; a0, a1 ..., an - coeficientes calculados de la ecuación de regresión.

EN trabajo practico para la fijación de precios, dependiendo de la forma de conexión entre los precios y los parámetros técnicos y económicos, se pueden utilizar otras ecuaciones de regresión. El tipo de función de relación entre el precio y un conjunto de parámetros técnicos y económicos puede preestablecerse o seleccionarse automáticamente durante el procesamiento informático. La cercanía de la correlación entre el precio y el conjunto de parámetros se evalúa mediante el valor del coeficiente de correlación múltiple. Su proximidad a uno indica una conexión cercana. Utilizando la ecuación de regresión, se obtienen valores de precios igualados (calculados) para productos de una serie paramétrica determinada. Para evaluar los resultados de la ecualización, se calculan los valores relativos de la desviación de los valores de precio calculados de los reales:

Tsr = Rf - Rr: R x 100

donde Рф, Рр - precios reales y calculados.

El valor de CR no debe exceder el 8-10%. En caso de desviaciones significativas de los valores calculados de los reales, es necesario investigar:

  • la exactitud de la formación de una serie paramétrica, ya que puede contener productos que, en sus parámetros, difieren marcadamente de otros productos de la serie. Deben ser excluidos;
  • correcta selección de parámetros técnicos y económicos. Es posible que exista un conjunto de parámetros que esté débilmente correlacionado con el precio. En este caso es necesario continuar buscando y seleccionando parámetros.

El procedimiento y metodología para realizar análisis de regresión, encontrar parámetros desconocidos de la ecuación y evaluación económica de los resultados obtenidos se llevan a cabo de acuerdo con los requisitos de la estadística matemática.

Características de las dependencias causales.

Relaciones causa-efecto- esta es una conexión entre fenómenos y procesos, cuando un cambio en uno de ellos - la causa - conduce a un cambio en el otro - el efecto.

Los signos según su importancia para el estudio de la relación se dividen en dos clases.

Los signos que provocan cambios en otros signos asociados se denominan factorial (o factores).

Los signos que cambian bajo la influencia de los signos de los factores son eficaz.

Se distinguen las siguientes formas de comunicación: funcional y estocástica. Funcional Es una relación en la que un cierto valor de una característica de un factor corresponde a uno y sólo un valor de la característica resultante. La conexión funcional se manifiesta en todos los casos de observación y para cada unidad específica de la población en estudio.

La relación funcional se puede representar mediante la siguiente ecuación:
y yo =f(x yo), donde: y yo - signo resultante; f(xi) - una función conocida de la conexión entre las características resultante y factorial; xyo - signo factorial.
En la naturaleza real no existen conexiones funcionales. Son sólo abstracciones, útiles para analizar fenómenos, pero simplificando la realidad.

Estocástico (estadístico o aleatorio)conexión representa una relación entre cantidades en la que una de ellas reacciona ante un cambio en otra cantidad u otras cantidades cambiando la ley de distribución. En otras palabras, con esta conexión diferentes significados una variable corresponde a diferentes distribuciones de otra variable. Esto se debe al hecho de que la variable dependiente, además de las independientes consideradas, está influenciada por una serie de factores aleatorios no contabilizados o no controlados, así como por algunos errores inevitables en la medición de las variables. Debido a que los valores de la variable dependiente están sujetos a dispersión aleatoria, no se pueden predecir con suficiente precisión, sino que solo se pueden indicar con una cierta probabilidad.

Debido a la ambigüedad de la dependencia estocástica entre Y y X, en particular, es de interés el esquema de dependencia promediado sobre x, es decir, un patrón en el cambio en el valor promedio: la expectativa matemática condicional Mx(Y) (la expectativa matemática de una variable aleatoria Y, encontrada siempre que la variable X tome el valor x) dependiendo de x.

Un caso especial de comunicación estocástica es la comunicación de correlación. Correlación(del lat. correlación- correlación, relación). Definición directa del término. correlación - estocástico, probable, posible conexión entre dos (pares) o varias (múltiples) variables aleatorias.

Una dependencia de correlación entre dos variables también se denomina relación estadística entre estas variables, en la que cada valor de una variable corresponde a un determinado valor promedio, es decir, La expectativa matemática condicional es diferente. La dependencia de la correlación es un caso especial de dependencia estocástica, en el que un cambio en los valores de las características de los factores (x 1 x 2 ..., x n) implica un cambio en el valor promedio de la característica resultante.



Es costumbre distinguir los siguientes tipos correlaciones:

1. Correlación de pares: una conexión entre dos características (resultante y factor o dos factores).

2. Correlación parcial: la dependencia entre las características resultantes y de un factor con un valor fijo de otras características de los factores incluidos en el estudio.

3. Correlación múltiple: la dependencia del resultado y dos o más características de los factores incluidos en el estudio.

Propósito del análisis de regresión

La forma analítica de representar las relaciones de causa y efecto son los modelos de regresión. La validez científica y popularidad del análisis de regresión lo convierte en una de las principales herramientas matemáticas para modelar el fenómeno en estudio. Este método se utiliza para suavizar los datos experimentales y obtener estimaciones cuantitativas influencia comparativa de varios factores sobre la variable de resultado.

El análisis de regresión es en la definición de una expresión analítica de una relación en la que un cambio en un valor (variable dependiente o característica resultante) se debe a la influencia de uno o más valores independientes (factores o predictores), y el conjunto de todos los demás factores que también influyen en el valor dependiente se toman como valores constantes y medios.

Objetivos del análisis de regresión:

Evaluación de la dependencia funcional del valor promedio condicional de la característica resultante y de los factores factoriales (x 1, x 2, ..., x n);

Predecir el valor de una variable dependiente utilizando las variables independientes.

Determinar la contribución de las variables independientes individuales a la variación de la variable dependiente.

El análisis de regresión no se puede utilizar para determinar si existe una relación entre variables, ya que la presencia de dicha relación es un requisito previo para aplicar el análisis.

En el análisis de regresión, se supone de antemano que existen relaciones de causa y efecto entre la resultante (U) y las características del factor x 1, x 2..., x n.

Función , op La dependencia determinante del indicador de los parámetros se llama ecuación (función) de regresión. 1 . La ecuación de regresión muestra el valor esperado de la variable dependiente dados ciertos valores de las variables independientes.
Dependiendo del número de factores incluidos en el modelo. X Los modelos se dividen en unifactorial (modelo de regresión por pares) y multifactorial (modelo de regresión múltiple). Según el tipo de función, los modelos se dividen en lineales y no lineales.

Modelo de regresión emparejada

Debido a la influencia de factores y causas aleatorios no contabilizados, las observaciones individuales y se desviarán en mayor o menor medida de la función de regresión f(x). En este caso, la ecuación para la relación entre dos variables (modelo de regresión pareada) se puede presentar como:

Y=f(X) + ɛ,

donde ɛ es una variable aleatoria que caracteriza la desviación de la función de regresión. Esta variable se llama perturbación o perturbación (residual o error). Así, en el modelo de regresión la variable dependiente Y hay alguna función f(X) hasta una perturbación aleatoria ɛ.

Consideremos el modelo clásico de regresión lineal por pares (CLMPR). Ella se ve como

y yo =β 0 +β 1 x yo +ɛ yo (i=1,2, …, n),(1)

Dónde y yo– explicada (variable resultante, dependiente, endógena); xyo– variable explicativa (predictora, factorial, exógena); β 0 , β 1– coeficientes numéricos; ɛi– componente aleatorio (estocástico) o error.

Condiciones básicas (requisitos previos, hipótesis) de KLMPR:

1) xyo– una cantidad determinista (no aleatoria), y se supone que entre los valores x i - no todos son iguales.

2) Expectativa matemática (valor medio) de la perturbación ɛi es igual a cero:

М[ɛ i ]=0 (i=1,2,…, n).

3) La dispersión de la perturbación es constante para cualquier valor de i (condición de homocedasticidad):

D[ɛ i ]=σ 2 (i=1,2,…, n).

4) Las perturbaciones de diferentes observaciones no están correlacionadas:

cov[ɛ i, ɛ j]=M[ɛ i, ɛ j]=0 para i≠j,

donde cov[ɛ i , ɛ j ] es el coeficiente de covarianza (momento de correlación).

5) Las perturbaciones son variables aleatorias distribuidas normalmente con media cero y varianza σ 2:

ɛ yo ≈ N(0, σ 2).

Para obtener una ecuación de regresión son suficientes las primeras cuatro premisas. El requisito de cumplir el quinto requisito previo es necesario para evaluar la precisión de la ecuación de regresión y sus parámetros.

Comentario: El enfoque en las relaciones lineales se explica por la variación limitada de las variables y el hecho de que en la mayoría de los casos las formas no lineales de relaciones se convierten (mediante logaritmo o sustitución de variables) a una forma lineal para realizar cálculos.

Método tradicional mínimos cuadrados (LS)

La estimación del modelo de la muestra es la ecuación

ŷ yo = a 0 + a 1 x yo(yo=1,2,…,n), (2)

donde ŷ i – valores teóricos (aproximados) de la variable dependiente obtenidos de la ecuación de regresión; a 0 , a 1 - coeficientes (parámetros) de la ecuación de regresión (estimaciones de muestra de los coeficientes β 0, β 1, respectivamente).

Según los mínimos cuadrados, los parámetros desconocidos a 0 , a 1 se eligen de modo que la suma de las desviaciones al cuadrado de los valores ŷ i de los valores empíricos y i (suma residual de cuadrados) sea mínima:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

donde e i = y i - ŷ i – estimación muestral de la perturbación ɛ i, o regresión residual.

El problema se reduce a encontrar valores de los parámetros a 0 y a 1 en los que la función Q e tome el valor más pequeño. Tenga en cuenta que la función Q e = Q e (a 0, a 1) es una función de dos variables a 0 y a 1 hasta que encontramos y luego fijamos sus “mejores” valores (en el sentido del método de mínimos cuadrados), a x i , y i son números constantes encontrados experimentalmente.

Las condiciones necesarias para el extremo (3) se encuentran igualando las derivadas parciales de esta función de dos variables a cero. Como resultado, obtenemos un sistema de dos ecuaciones lineales, que se llama sistema de ecuaciones normales:

(4)

El coeficiente a 1 es un coeficiente de regresión muestral de y sobre x, que muestra cuántas unidades en promedio cambia la variable y cuando la variable x cambia en una unidad de su medida, es decir, la variación en y por unidad de variación en x. Firmar un 1 indica la dirección de este cambio. Coeficiente a 0 - desplazamiento, según (2) es igual al valor de ŷ i en x = 0 y puede no tener una interpretación significativa. Por esta razón, a la variable dependiente a veces se le llama respuesta.

Propiedades estadísticas de las estimaciones de coeficientes de regresión:

Las estimaciones de coeficientes a 0 , a 1 son insesgadas;

Las varianzas de las estimaciones a 0 , a 1 disminuyen (la precisión de las estimaciones aumenta) al aumentar el tamaño de la muestra n;

Varianza de estimación pendiente a 1 disminuye al aumentar y por lo tanto es aconsejable elegir x i de modo que su dispersión alrededor del valor medio sea grande;

Para x¯ > 0 (que es de mayor interés), existe una relación estadística negativa entre un 0 y un 1 (un aumento en un 1 conduce a una disminución en un 0).

El análisis de regresión subyace a la creación de la mayoría de los modelos econométricos, que incluyen modelos de estimación de costos. Para construir modelos de valoración, este método se puede utilizar si la cantidad de análogos (objetos comparables) y la cantidad de factores de costo (elementos de comparación) están relacionados entre sí de la siguiente manera: PAG> (5-g-10) x A, aquellos. Debería haber entre 5 y 10 veces más análogos que factores de costo. El mismo requisito para la relación entre la cantidad de datos y la cantidad de factores se aplica a otras tareas: establecer una conexión entre el costo y los parámetros del consumidor del objeto; justificación del procedimiento para el cálculo de índices correctivos; identificar tendencias de precios; establecer una conexión entre el desgaste y los cambios en los factores que influyen; obtención de dependencias para el cálculo de estándares de costos, etc. Actuación este requisito necesario para reducir la probabilidad de trabajar con una muestra de datos que no satisface el requisito de distribución normal de variables aleatorias.

La relación de regresión refleja solo la tendencia promedio de los cambios en la variable resultante, por ejemplo, el costo, de los cambios en una o más variables factoriales, por ejemplo, la ubicación, el número de habitaciones, el área, el piso, etc. Ésta es la diferencia entre una relación de regresión y una funcional, en la que el valor de la variable resultante está estrictamente definido para un valor dado de las variables factoriales.

La presencia de una relación de regresión / entre el resultado en y variables factoriales xp ..., x k(factores) indica que esta relación está determinada no solo por la influencia de variables factoriales seleccionadas, sino también por la influencia de variables, algunas de las cuales generalmente se desconocen, otras no se pueden evaluar ni tener en cuenta:

La influencia de variables no contabilizadas está indicada por el segundo término de esta ecuación. ?, que se llama error de aproximación.

Se distinguen los siguientes tipos de dependencias de regresión:

  • ? regresión pareada: relación entre dos variables (resultante y factor);
  • ? regresión múltiple: la relación entre una variable de resultado y dos o más variables factoriales incluidas en el estudio.

La principal tarea del análisis de regresión es cuantificación la cercanía de la relación entre variables (en regresión pareada) y variables múltiples (en regresión múltiple). La cercanía de la conexión se expresa cuantitativamente mediante el coeficiente de correlación.

El uso del análisis de regresión permite establecer el patrón de influencia de los principales factores (características hedónicas) sobre el indicador en estudio, tanto en su conjunto como para cada uno de ellos por separado. Con la ayuda del análisis de regresión, como método de estadística matemática, es posible, en primer lugar, encontrar y describir la forma de la dependencia analítica de la variable resultante (buscada) de los factores y, en segundo lugar, evaluar la cercanía de esta dependencia.

Resolviendo el primer problema, se obtiene un modelo de regresión matemática, con la ayuda del cual luego se calcula el indicador deseado para valores dados de los factores. Resolver el segundo problema nos permite establecer la confiabilidad del resultado calculado.

Por tanto, el análisis de regresión puede definirse como un conjunto de procedimientos formales (matemáticos) diseñados para medir la cercanía, dirección y expresión analítica de la forma de relación entre las variables resultantes y factoriales, es decir, el resultado de dicho análisis debería ser un modelo estadístico estructural y cuantitativamente definido de la forma:

Dónde y - el valor promedio de la variable resultante (el indicador deseado, por ejemplo, costo, alquiler, tasa de capitalización) por PAG sus observaciones; x - valor de la variable del factor (/ésimo factor de costo); A - número de variables factoriales.

Función f(x l ,...,x lc), Describir la dependencia de la variable resultante de los factores factoriales se denomina ecuación (función) de regresión. El término "regresión" (regresión (lat.) - retirada, regreso a algo) está asociado con las características específicas de uno de Tareas específicas, decidido en la etapa de formación del método, y actualmente no refleja toda la esencia del método, pero continúa utilizándose.

El análisis de regresión generalmente incluye los siguientes pasos:

  • ? formar una muestra de objetos homogéneos y recopilar información inicial sobre estos objetos;
  • ? selección de los principales factores que influyen en la variable resultante;
  • ? comprobar la normalidad de la muestra utilizando X 2 o prueba binomial;
  • ? aceptación de una hipótesis sobre la forma de comunicación;
  • ? procesamiento de datos matemáticos;
  • ? obtener un modelo de regresión;
  • ? evaluación de sus indicadores estadísticos;
  • ? cálculos de verificación utilizando un modelo de regresión;
  • ? análisis de resultados.

La secuencia de operaciones especificada tiene lugar al estudiar tanto una relación pareada entre una variable factorial y una variable resultante, como una relación múltiple entre una variable resultante y varias factoriales.

El uso del análisis de regresión impone ciertos requisitos a la información inicial:

  • ? la muestra estadística de objetos debe ser homogénea en términos funcionales y estructural-tecnológicos;
  • ? bastante numerosos;
  • ? el indicador de costo en estudio, la variable resultante (precio, costo, gastos), debe llevarse a las mismas condiciones para su cálculo para todos los objetos de la muestra;
  • ? las variables factoriales deben medirse con suficiente precisión;
  • ? Las variables factoriales deben ser independientes o mínimamente dependientes.

Los requisitos de homogeneidad e integridad de la muestra están en conflicto: cuanto más estricta es la selección de objetos en función de su homogeneidad, más pequeña es la muestra obtenida y, a la inversa, para ampliar la muestra es necesario incluir objetos que no sean muy similares a entre sí.

Una vez recopilados los datos sobre un grupo de objetos homogéneos, se analizan para establecer la forma de conexión entre las variables resultantes y factoriales en forma de una línea de regresión teórica. El proceso de encontrar una recta de regresión teórica consiste en una elección razonable de la curva de aproximación y el cálculo de los coeficientes de su ecuación. La línea de regresión es una curva suave (en un caso particular, una línea recta) que describe, utilizando una función matemática, la tendencia general de la relación en estudio y suaviza las emisiones irregulares y aleatorias de la influencia de factores secundarios.

Para mostrar dependencias de regresión pareada en tareas de evaluación, se utilizan con mayor frecuencia las siguientes funciones: lineal - y - un 0 + ars + s fuerza - y - aj&i + s indicativo - y - exponencial lineal - y - a 0 + ap* + c. Aquí - mi error de aproximación causado por la acción de factores aleatorios no contabilizados.

En estas funciones, y es la variable resultante; x - variable de factor (factor); A 0 , ar a 2 - Parámetros del modelo de regresión, coeficientes de regresión.

El modelo exponencial lineal pertenece a la clase de los llamados modelos híbridos de la forma:

Dónde

donde x (yo = 1, /) - valores de factores;

b t (yo = 0, /) - coeficientes de la ecuación de regresión.

En esta ecuación los componentes A, B Y z corresponden al costo de los componentes individuales del activo que se está valorando, por ejemplo, el costo de un terreno y el costo de las mejoras, y el parámetro q Es común. Se pretende ajustar el valor de todos los componentes del activo que se valora mediante factor común influencias como la ubicación.

Los valores de los factores que están en la potencia de los coeficientes correspondientes son variables binarias (0 o 1). Los factores en la base del grado son variables discretas o continuas.

Los factores asociados con los coeficientes de multiplicación también son continuos o discretos.

La especificación se lleva a cabo, por regla general, mediante un enfoque empírico e incluye dos etapas:

  • ? trazar puntos de campo de regresión en un gráfico;
  • ? Análisis gráfico (visual) del tipo de posible curva de aproximación.

El tipo de curva de regresión no siempre se puede seleccionar inmediatamente. Para determinarlo, primero trace los puntos del campo de regresión según los datos originales. Luego, dibuje visualmente una línea a lo largo de la posición de los puntos, tratando de descubrir el patrón cualitativo de la conexión: crecimiento uniforme o disminución uniforme, crecimiento (disminución) con un aumento (disminución) en la tasa de dinámica, acercamiento suave a un cierto nivel.

Este enfoque empírico se complementa con un análisis lógico, a partir de ideas ya conocidas sobre economía y naturaleza física los factores en estudio y su influencia mutua.

Por ejemplo, se sabe que las dependencias de las variables resultantes - indicadores económicos (precio, alquiler) de una serie de variables factoriales - factores que forman el precio (distancia del centro del asentamiento, área, etc.) no son lineales. en la naturaleza, y pueden describirse de manera bastante estricta mediante funciones potenciadas, exponenciales o cuadráticas. Pero para rangos pequeños de cambios de factores, se pueden obtener resultados aceptables utilizando una función lineal.

Sin embargo, si todavía es imposible hacer una elección segura de inmediato de cualquier función, entonces se seleccionan dos o tres funciones, se calculan sus parámetros y luego, utilizando los criterios apropiados para la cercanía de la conexión, finalmente se determina la función. seleccionado.

En teoría, el proceso de regresión para encontrar la forma de una curva se llama especificación modelo y sus coeficientes - calibración modelos.

Si se encuentra que la variable resultante y depende de varias variables factoriales (factores) x ( , x 2 , ..., x k, luego recurren a la construcción de un modelo de regresión múltiple. Normalmente, se utilizan tres formas de comunicación múltiple: lineal - y - a 0 + a x x x + a^x 2 + ... + akxk, indicativo - y - a 0 a*i a x t - a x b, fuerza - y - a 0 x x ix 2 a 2. .x^o sus combinaciones.

Las funciones exponenciales y de potencia son más universales, ya que se aproximan a relaciones no lineales, que son la mayoría de las estudiadas en la evaluación de dependencias. Además, se pueden utilizar en la evaluación de objetos y en el método de modelado estadístico en la evaluación masiva, y en el método de comparación directa en la evaluación individual al establecer factores de corrección.

En la etapa de calibración, los parámetros del modelo de regresión se calculan utilizando el método de mínimos cuadrados, cuya esencia es que la suma de las desviaciones al cuadrado de los valores calculados de la variable resultante en., es decir. calculado utilizando la ecuación de acoplamiento seleccionada, a partir de los valores reales debe ser mínimo:

Valores j) (. y Ud. son conocidos, por lo tanto q es función únicamente de los coeficientes de la ecuación. Para encontrar el mínimo S necesitas tomar derivadas parciales q por los coeficientes de la ecuación y equipararlos a cero:

Como resultado, obtenemos un sistema de ecuaciones normales, cuyo número es igual al número de coeficientes determinados de la ecuación de regresión deseada.

Supongamos que necesitamos encontrar los coeficientes de una ecuación lineal. y - a 0 + ars. La suma de las desviaciones al cuadrado tiene la forma:

/=1

Diferenciar la función q por coeficientes desconocidos un 0 y y igualar las derivadas parciales a cero:

Después de las transformaciones obtenemos:

Dónde PAG - número de valores reales originales en ellos (número de análogos).

El procedimiento dado para calcular los coeficientes de la ecuación de regresión también es aplicable para dependencias no lineales, si estas dependencias pueden linealizarse, es decir, Conducir a una forma lineal mediante un cambio de variables. Poder y funcion exponencial después del logaritmo y el cambio apropiado de variables, adquieren una forma lineal. Por ejemplo, una función de potencia después del logaritmo toma la forma: In y = 1p 0 +a x 1ph. Después de reemplazar variables Y- En y, l 0 - En y No. X- En x obtenemos una función lineal

Y=A 0 + cijX, cuyos coeficientes se encuentran de la manera descrita anteriormente.

El método de mínimos cuadrados también se utiliza para calcular los coeficientes de un modelo de regresión múltiple. Por tanto, un sistema de ecuaciones normales para calcular una función lineal con dos variables xj Y x2 Después de una serie de transformaciones queda así:

Generalmente este sistema Las ecuaciones se resuelven utilizando métodos de álgebra lineal. Plural función de potencia conducir a una forma lineal tomando logaritmos y cambiando variables de la misma manera que una función de potencia de par.

Cuando se utilizan modelos híbridos, los coeficientes de regresión múltiple se encuentran utilizando procedimientos numéricos del método de aproximaciones sucesivas.

Para hacer una elección final entre varias ecuaciones de regresión, es necesario probar la fuerza de la relación de cada ecuación, que se mide mediante el coeficiente de correlación, la varianza y el coeficiente de variación. También se pueden utilizar las pruebas de Student y Fisher para la evaluación. Cuanto mayor sea la cercanía de la conexión que exhiba una curva, más preferible será, en igualdad de condiciones.

Si se resuelve un problema de esta clase, cuando es necesario establecer la dependencia de un indicador de costos de los factores de costos, entonces es comprensible el deseo de tener en cuenta tantos factores influyentes como sea posible y así construir un modelo de regresión múltiple más preciso. . Sin embargo, ampliar el número de factores se ve obstaculizado por dos limitaciones objetivas. En primer lugar, para construir un modelo de regresión múltiple, se requiere una muestra de objetos mucho mayor que para construir un modelo pareado. Generalmente se acepta que el número de objetos de la muestra debe exceder el número PAG factores por lo menos 5-10 veces. De ello se deduce que para construir un modelo con tres factores influyentes, es necesario recolectar una muestra de aproximadamente 20 objetos con un conjunto diferente de valores de factores. En segundo lugar, los factores seleccionados para el modelo en su influencia sobre el indicador de costos deben ser suficientemente independientes entre sí. Esto no es fácil de asegurar, ya que la muestra generalmente combina objetos que pertenecen a la misma familia, para lo cual existe un cambio natural en muchos factores de un objeto a otro.

La calidad de los modelos de regresión suele comprobarse mediante los siguientes indicadores estadísticos.

Desviación estándar del error de la ecuación de regresión (error de estimación):

Dónde PAG - tamaño de la muestra (número de análogos);

A - número de factores (factores de costo);

Error no explicado por la ecuación de regresión (Figura 3.2);

Ud. - el valor real de la variable resultante (por ejemplo, costo); yt- el valor calculado de la variable de resultado.

Este indicador también se llama error estándar de estimación (error RMS). En la figura, los puntos indican valores de muestra específicos, el símbolo indica la línea de valores promedio de muestra y la línea inclinada de guiones y puntos es la línea de regresión.


Arroz. 3.2.

La desviación estándar del error de estimación mide la cantidad de desviación de los valores reales de y de los valores calculados correspondientes. en( , obtenido mediante un modelo de regresión. Si la muestra sobre la que se construye el modelo está sujeta a la ley de distribución normal, entonces se puede argumentar que el 68% valores reales en están en el rango en ± &mi de la línea de regresión, y el 95% está en el rango en ± 2d e. Este indicador es conveniente porque las unidades de medida ¿sg? unir las unidades de medida en,. En este sentido, puede utilizarse para indicar la exactitud del resultado obtenido en el proceso de evaluación. Por ejemplo, en un certificado de valor se puede indicar que el valor de mercado obtenido mediante un modelo de regresión V con un 95% de probabilidad de estar en el rango de (V-2d,.) antes (y + 2ds).

Coeficiente de variación de la variable resultante:

Dónde y - el valor promedio de la variable resultante (Fig. 3.2).

En el análisis de regresión, el coeficiente de variación var es la desviación estándar del resultado expresada como porcentaje de la media de la variable de resultado. El coeficiente de variación puede servir como criterio para las cualidades predictivas del modelo de regresión resultante: cuanto menor sea el valor var, mayores serán las cualidades predictivas del modelo. El uso del coeficiente de variación es preferible al indicador &e, ya que es indicador relativo. En uso práctico Para este indicador se puede recomendar no utilizar un modelo cuyo coeficiente de variación supere el 33%, ya que en este caso no se puede decir que los datos muestrales estén sujetos a una ley de distribución normal.

Coeficiente de determinación (coeficiente de correlación múltiple al cuadrado):

Este indicador se utiliza para analizar la calidad general del modelo de regresión resultante. Indica qué porcentaje de la varianza de la variable resultante se explica por la influencia de todas las variables factoriales incluidas en el modelo. El coeficiente de determinación siempre se encuentra en el rango de cero a uno. Cuanto más se acerque a la unidad el valor del coeficiente de determinación, mayor mejor modelo describe la serie de datos original. El coeficiente de determinación se puede representar de diferentes maneras:

Aquí está el error explicado por el modelo de regresión,

A - error, inexplicable

Modelo de regresión. Desde un punto de vista económico, este criterio nos permite juzgar qué porcentaje de variación de precios se explica por la ecuación de regresión.

El límite exacto de aceptabilidad del indicador. R 2 Es imposible especificar para todos los casos. Deben tenerse en cuenta tanto el tamaño de la muestra como la interpretación significativa de la ecuación. Como regla general, al estudiar datos sobre objetos del mismo tipo obtenidos aproximadamente en el mismo momento, el valor R 2 no supera el nivel de 0,6-0,7. Si todos los errores de pronóstico son cero, es decir cuando la relación entre las variables resultantes y factoriales es funcional, entonces R 2 =1.

Coeficiente de determinación ajustado:

La necesidad de introducir un coeficiente de determinación ajustado se explica por el hecho de que con un aumento en el número de factores A el coeficiente de determinación habitual casi siempre aumenta, pero el número de grados de libertad disminuye (paquete- 1). El ajuste introducido siempre reduce el valor R2, porque el (PAG - 1) > (p-k- 1). Como resultado, el valor R 2 CKOf) incluso puede llegar a ser negativo. Esto significa que el valor R 2 era cercano a cero antes del ajuste y la proporción de varianza de la variable se explica mediante la ecuación de regresión en muy pequeña.

De las dos opciones para modelos de regresión que difieren en el valor del coeficiente de determinación ajustado, pero que tienen otros criterios de calidad igualmente buenos, la opción con gran valor coeficiente de determinación ajustado. El coeficiente de determinación no se ajusta si (p-k): k> 20.

Coeficiente de Fisher:

Este criterio se utiliza para evaluar la importancia del coeficiente de determinación. Suma residual de cuadrados representa una medida del error de predicción utilizando la regresión de valores de costos conocidos tu.. Su comparación con la suma de cuadrados de la regresión muestra cuántas veces la dependencia de la regresión predice el resultado mejor que el promedio en. Hay una tabla de valores críticos. FR Coeficiente de Fisher, dependiendo del número de grados de libertad del numerador. - A, denominador v 2 = paquete- 1 y nivel de significancia a. Si el valor calculado de la prueba de Fisher FR es mayor que el valor de la tabla, entonces la hipótesis sobre la insignificancia del coeficiente de determinación, es decir, sobre la discrepancia entre las conexiones incluidas en la ecuación de regresión y las que realmente existen, con probabilidad p = 1 - se rechaza a.

Error de aproximación promedio(desviación porcentual promedio) se calcula como la diferencia relativa promedio, expresada como porcentaje, entre los valores reales y calculados de la variable resultante:

Cuanto menor sea el valor de este indicador, mejores serán las cualidades predictivas del modelo. Cuando este indicador no supera el 7%, el modelo es muy preciso. Si 8 > 15% indica una precisión insatisfactoria del modelo.

Error estándar del coeficiente de regresión:

donde (/I) -1 .- elemento diagonal de la matriz (XGX)~ 1k - número de factores;

X- matriz de valores de variables factoriales:

X7- matriz transpuesta de valores de variables factoriales;

(ZHL) _| - matriz inversa de la matriz.

Cuanto más pequeños sean estos indicadores para cada coeficiente de regresión, más confiable será la estimación del coeficiente de regresión correspondiente.

Prueba de Student (estadística t):

Este criterio permite medir el grado de confiabilidad (significancia) de la relación determinada por un coeficiente de regresión dado. Si el valor calculado t. mayor que el valor de la tabla

t av, donde v-p-k- 1 es el número de grados de libertad, entonces la hipótesis de que este coeficiente es estadísticamente insignificante se rechaza con probabilidad (100 - a)%. Existen tablas especiales de distribución / que permiten determinar el valor crítico del criterio en función de un nivel dado de significancia a y el número de grados de libertad v. El valor más utilizado para a es el 5%.

Multicolinealidad, es decir. el efecto de las conexiones mutuas entre las variables factoriales conduce a la necesidad de contentarse con un número limitado de ellas. Si esto no se tiene en cuenta, se puede terminar con un modelo de regresión ilógico. Para evitar el efecto negativo de la multicolinealidad, se calculan coeficientes de correlación por pares antes de construir un modelo de regresión múltiple. r xjxj entre variables seleccionadas X. Y X

Aquí XjX; - el valor promedio del producto de dos variables factoriales;

XjXj- el producto de los valores promedio de dos variables factoriales;

Estimación de la varianza de la variable factorial x.

Se considera que dos variables están relacionadas entre sí por regresión (es decir, colineales) si su coeficiente de correlación por pares en valor absoluto es estrictamente mayor que 0,8. En este caso, cualquiera de estas variables debe excluirse de la consideración.

Para ampliar las capacidades de análisis económico de los modelos de regresión resultantes, el promedio coeficientes de elasticidad, determinado por la fórmula:

Dónde xj- el valor promedio de la variable del factor correspondiente;

y - el valor promedio de la variable resultante; un yo - coeficiente de regresión para la variable del factor correspondiente.

El coeficiente de elasticidad muestra en qué porcentaje en promedio cambiará el valor de la variable resultante cuando la variable del factor cambie en un 1%, es decir cómo reacciona la variable resultante a cambios en la variable factor. Por ejemplo, ¿cómo reacciona el precio del m2? m de superficie de apartamentos a una distancia del centro de la ciudad.

Desde el punto de vista del análisis de la importancia de un coeficiente de regresión particular, es útil estimar coeficiente de determinación parcial:

Aquí está la estimación de la varianza del resultado

variable. Este coeficiente muestra en qué porcentaje la variación de la variable resultante se explica por la variación de la variable del i-ésimo factor incluida en la ecuación de regresión.

  • Las características hedónicas se entienden como características de un objeto que reflejan sus propiedades útiles (valiosas) desde el punto de vista de compradores y vendedores.