ELEMENTOS DE ESTADISTICA PARA EL ESTUDIO DE MERCADO
INTRODUCCION
 
Como ya se ha visto en los anteriores Capítulo, un proyecto es una propuesta de inversión. El objetivo que se persigue durante la preparación del proyecto es el análisis, de una manera sistemática y técnica, de las ventajas (beneficios) y desventajas (costos) que conllevan esa inversión, permitiendo así que ella se convierta en un riesgo calculado, basándose para ello en los mejores antecedentes y elementos de juicio.
Los aspectos que analizan durante la preparación de un proyecto son los siguientes:
Como la preparación de un proyecto es un proceso de aproximaciones sucesivas, estos aspectos se analizan individualmente y relacionados entre sí, a efectos de encontrar el conjunto más coherente (rentable) entre ellos.
 
Dentro de los aspectos mencionados, el estudio de mercado constituye la base misma del proyecto y tiene como objetivo principal la demanda futura más probable que tendrá un bien (o un servicio), a determinados precios, en ciertos períodos de tiempo y en determinadas áreas geográficas. También, son objetivos del estudio de mercado el análisis de la oferta de los insumos utilizados en la producción del bien objeto del estudio y la comercialización de este bien.
La información básica para el estudio de mercado de un bien se encuentra en censos, registros de importación, de producción nacional, de exportación, inventarios, índices de precios, series de población y de ingreso nacional, etc. Cuando no está la información disponible, o es insuficiente para los fines propuestos, se debe recurrir a investigaciones de campo mediante la técnica del Muestreo Estadístico. En el primer caso, se debe organizar, procesar y analizar la información de acuerdo a las técnicas que proporciona la estadística y en segundo caso, se debe diseñar la muestra de acuerdo a criterios que proporciona la misma estadística.
A lo largo de este Capítulo, se presentan en forma somera los conceptos estadísticos mínimos que normalmente se utilizan en estudios de mercado de proyectos. Ellos son la distribución de frecuencias, medidas de posición, medidas de dispersión, concepto de probabilidad, número índices y análisis de regresiones.
El análisis de regresiones que se utiliza en el estudio de mercado para estima la tendencia de una serie histórica de demanda, se analizará mediante la presentación extractados de estudios de mercado de proyectos reales.
 
I.LOS DATOS ESTADISTICOS
La estadística tiene por objeto el estudio de métodos científicos de organización, presentación y análisis de datos estadísticos (informaciones). Estas informaciones pueden corresponder a un grupo de elementos u objetos o a una muestra de los mismos.
Las informaciones (datos) necesarias para la investigación del mercado de un proyecto pueden ser obtenidas de fuentes primarias o secundarias, según provengan de la anotación y observación directa efectuada por parte del investigador o de publicaciones oficiales y entidades que elaboran estadísticas, respectivamente. Según su origen, los datos se clasifican en:
    Datos de informes particulares o asociaciones profesionales:
    Estos datos se obtienen de publicaciones que presentan información variada, incluida información relativa a mercado. Entre los tipos de entidades que producen estas publicaciones periódicas, se pueden mencionar: Instituciones del gobierno nacional o local, dedicadas a realizar estudios específicos; universidades; asociaciones profesionales y asociaciones industriales o comerciales.
     
    Información comercial:
    Con el crecimiento de la demanda de datos para estudios de mercado, para proyectos, etc., se han formado compañías que se dedican a recoger, preparar y vender información.
     
Según las unidades en que estén expresados los datos, éstos se dividen en:
 
DATOS PRIMITIVOS (O BRUTOS):
No poseen mayor grado de elaboración, aparecen en sus unidades originales (kg, #, etc)
DATOS DERIVADOS (O ELABORADOS):
Se presentan en comparación con otros datos como números índices, densidad demográfica, etc. Los datos derivados más usuales son:
 
    a- Porcentajes:
    Se equivale el total de datos a un 100% y se calcula el porcentaje correspondiente a una porción por medio de la regla de tres simple:

      Total…….….100%
    Parcela…………x
     
     

    b) Indices:
     
    Son comparaciones entre dos datos, cuando uno no está incluido en el otro. Por ejemplo: la densidad demográfica es la relación entre la población y la superficie; el índice de inteligencia, etc.
     
    c) Tasas o coeficientes:
    Compara el número de ocurrencias parciales con el número de ocurrencias totales. Por ejemplo, la tasa de mortalidad que es igual a la relación entre el número de muertos y la población total, los rendimientos, etc.
     
    d) Series de relativos:
     
    Usadas para comparar un dato en cierta ocasión con otro en un período básico. Por ejemplo: la tabla abajo muestra una serie de relativos:
Años
Producción
Valores relativos
1964
160
100.0
1965
180
112.5
1966
138
105.0
1967
168
105.0

 
Un conjunto de datos o masa estadística también puede ser clasificado de acuerdo con otros criterios. Así, los datos pueden ser de dos tipos de acuerdo con la variable; esta última es una cantidad medible que puede cambiar de un individuo a otro y se divide en:
BANCOS DE DATOS
Es importante que las oficinas gubernamentales encargadas de formular y evaluar proyectos tengan disponible un banco con los datos estadísticos más utilizados en el estudio de mercado. En el Apéndice 5 se presenta una lista tentativa de dichos datos.
 
DISTRIBUCION DE FRECUENCIAS

    Cuando se dispone de un gran número de datos, es conveniente ordenarlos en clases, según sus amplitudes sean iguales o diferentes. La tabla con los datos distribuidos en clases es llamada distribución de frecuencias o tabla de frecuencias.
     
    Hay reglas empíricas que dan el número de clases que se debe utilizar, según el número total de datos disponibles. Se designa como amplitud de cada clase a la diferencia entre los valores máximo y mínimo de los datos, dividido por el número de clases utilizadas.
     
    El concepto de distribución de frecuencias se ilustra mediante el Cuadro 5.1. el cual muestra la distribución de salarios de 97 trabajadores de la industria del cemento en un país centroamericano en el año 1968.
     
    En los cálculos se suelen considerar los datos como si estuviesen concentrados en los centros de las clases. Los centros de clases son las medias aritméticas de los extremos de cada clase.
     
    Representando gráficamente la tabla de frecuencias; se pueden observar con mayor claridad algunas características de la masa de los datos. La Figura 5.1. representa la tabla de frecuencia de la Tabla 5.1. y se denomina histograma. La línea quebrada que une los puntos medios de los lados superiores de los rectángulos recibe el nombre de polígono de frecuencias.
     



    CUADRO 5.1.
    DISTRIBUCION DE FRECUENCIA, OBREROS DEL CEMENTO, 1968

    Clase $
    Centro de la clase x
    Frecuencia y
    70-80
    75
    6
    80-90
    85
    19
    90-100
    95
    36
    100-110
    105
    20
    110-120
    115
    16
    Total
    475
    97

    Existen diferentes tipos de distribución de frecuencia, las más corrientes se muestran en la Figura 5.2.




     
      Figura 5.2
MEDIDAS DE POSICION
INTRODUCCION
La simple presentación mediante tablas o gráficas de los datos no es suficiente para caracterizarlos. Se deben utilizar ciertas medidas llamadas de posición o de tendencia central, para un mejor análisis de los mismos.
MEDIA ARITMETICA. M:
La media aritmética de una serie con valores de "x" y de "y" están dados por:

En el caso de los datos del Cuadro 5.1. si "x" representa el centro de la clase y "y" representa la frecuencia con que se presenta, Mxy representará la media ponderada.
 
 
EJEMPLO 5.1.
 
Calcular las medias de la distribución del Cuadro 5.1, numeral 3.
 
Mx = 475/5 = 95, My = 97/5 = 19,5
 
Mxy = (75 x 6 + 85 x 19 + 95 x 36 + 105 x 20 + 115 x 16)/97 = 97.2
 

La media aritmética o promedio es una buena medida de posición si la distribución es simétrica. Pierde esta propiedad cuando la distribución es asimétrica, por ser muy afectada por los valores extremos. Es el promedio más usado y de más fácil cálculo.
 
 
MEDIANA - ME:
 
 
Se define como el valor central de la variable, cuando los valores están ordenados por su magnitud.Es una medida menos sensible que la media aritmética ante los valores extremos de la variable, siendo apropiada para distribuciones asimétricas como salarios, producciones, etc.
 
Primero se debe encontrar el número "m" de la clase, del total "n" de clases, donde se encuentra la mediana.
 
M = (n + 1)/2, si n es impar; m = n/2, si n es par
Una vez encontrado el número m de la clase donde se encuentra la mediana se calcula ésta, la cual para el caso de una tabla de distribución de frecuencias, está dada por la siguiente fórmula:

 
Donde:
 
 
L1 = Límite inferior de clase donde está la mediana
fn = Frecuencia total
Sumatoria fk = suma de frecuencias de las clases anteriores a la clase de la mediana.
fm = Frecuencia de la clase de la mediana
C = Intervalo de clase.
 
 
EJEMPLO 5.2.
 
 
Calcular la mediana de los datos que aparecen en la distribución de frecuencia del Cuadro 5.1.
 
 
N = 5 (impar); m = (n + 1)/2 = (5 + 1)/2 = 3
 
 
Luego la mediana de los datos se encuentra en la tercera clase y tiene un valor de:

MODA -MO:
 
 
Se define como aquel valor de la variable al que corresponde la máxima frecuencia. Hay distribuciones que no tienen moda, habiendo otras con más de una moda.
 
 
Para tablas de frecuencia, la moda se determina por la siguiente fórmula:

 

Donde;
 
L1 = Límite inferior de la clase modal
D1 = Exceso de frecuencia modal sobre la clase inmediatamente inferior
D2 = Exceso de frecuencia modal sobre la clase inmediatamente superior.
C = Tamaño de la clase modal.
 
EJEMPLO 5.3.

Calcular la moda de los datos del ejemplo anterior:
 
Mo = 90 + 17 x 10/(17 + 16) = $95.1

Existe una relación empírica entre la media, la mediana y la moda que se comprueba con notable aproximación en las distribuciones moderadamente asimétricas. Se expresa mediante la ecuación:
 
 

Mo = M - 3 (M - Me)
 
 
La moda tiene mucha utilidad en estudios de mercado, en la industria de la confección, industria del calzado, etc. La medida o talla más vendida o consumida corresponde a la moda.
 
MEDIA GEOMETRICA
La media geométrica de una serie de "n" valores "x" está definida por;
 
Si los datos están agrupados, y los puntos medios de los mismos tienen frecuencias superiores a cero.

 
Para poder existir interpretación de la media geométrica, ninguno de los datos anteriores puede ser cero (0) o negativo. Se usa esta media cuando los datos son muy diferentes. Lo anterior se ilustra mediante el ejemplo subsiguiente:
 
 
EJEMPLO 5.4.
 
En un estudio regional se encontraron las siguientes tasas para el índice de crecimiento de la mortalidad infantil (menores de un año) en nueve zonas rurales, expresados en porcentajes (%): 0.2, 0.3, 0.4, 0.7, 0.8, 11.0, 2.4, 1.7. Se pide calcular el promedio de este índice de crecimiento de la mortalidad infantil.
 
El promedio aritmético es de 1.9% y la media geométrica de 0.7 que es la real, ya que el crecimiento de la mortalidad está directamente relacionada con el crecimiento de la población, y ésta crece año a año según una serie geométrica. A continuación se presenta un análisis de estas series y su utilización en estudios de población e ingreso.
Series de población y de ingreso:
Si se supone que la población crece a una tasa (i) anual y se designa por (Po) la población en el momento actual y por (Pn) la población en el año (n), se tiene:
 
Dentro de la población será: Po + i Po = Po (1 + i).
Dentro de dos años la población será: Po (1 + i) + iPo (1 + i) = Po (1 + i)2
Dentro de n años la población será: Po (1 + i)n-1 + iPo(1 + i) n-1 = Po (1 + i)n
 
Luego la población dentro de n años será:

Pn = Po (1 + i)n , que es la fórmula del interés compuesto.

 
EJEMPLO 5.5.

De acuerdo con los censos de población de 1960 y de 1970 la población de una ciudad del país era de 51.944 y 70.967 habitantes en dichos años, se pide calcular la tasa de crecimiento de esa población durante el período considerado.
 
En este caso Po = 51.944, Pn = 70.967 y n = 10

Aplicando la fórmula Pn = Po (1 + r)n


( 1 + r ) 10 = 70.967 / 51.944 = 1.36622, y r = 3.2%
 

Este valor se puede hallar también por tanteo con ayuda de una tabla financiera de interés compuesto.
 
 
EJEMPLO 5.6
 
Si el ingreso total de un país crece al 5.6% y la población al 4.3%, cómo estará creciendo el ingreso "percápita"?
Si llamamos P a la población, I al ingreso, C al ingreso "percápita";
 
Co = Io / Po, Cn = In / Pn = Io (1 + i)n / [Po (1 + p) n ] = Co (1 + c) n
De donde ( 1 + c) n = (1 + i) n / ( 1 + p ) n
   
Entonces, ( 1 + c) = (1 + i) / ( 1 + p )
 
Resolviendo para c se tiene : c = (i - p ) / ( 1 + p)
 
Si p es muy pequeño, 1 + p @ 1 y c = i - p
 
Para el ejemplo propuesto, c = 5.6 - 4.3 = 1.3%
 
MEDIA ARMONICA - H:
Está dada por la fórmula:
Se utiliza en estudios de mercado cuando se desea conocer el número promedio de días que dura un producto, en el cual el consumo total es inversamente proporcional a la duración del mismo. Esta utilización se ilustra con el ejemplo siguiente:
 
EJEMPLO 5.7:
 
Una encuesta entre cinco (5) personas sobre la duración media de una hoja de afeitar arrojó los siguientes resultados:
 
 
Persona
Duración Media (días)
A
10
B
5
C
14
D
30
E
6

 
 
Se desea conocer la duración media de una hoja de afeitar aplicando la media armónica:

 Si se hubiera calculado por la media aritmética, el resultado hubiera sido de:
(10 + 5 + 14 + 30 + 6) /5 = 13 días, lo cual es erróneo pues:
 
 
A
Consume
al
año
36.5
 
(365/10)
B
"
"
"
73.0
"
(365/ 5)
C
"
"
"
26.07
"
(365/14)
D
"
"
"
12.17
"
(365/30)
E
"
"
"
60.83
"
(365/ 6)
 
 
Total
 
208.57
Hojas
 
 
El consumo por persona es: 208.57/5 = 41.71 hojas/persona, cuya duración media es de 365/41.71 = 8.75 días, resultado que se obtuvo al aplicar la media armónica.
III.MEDIDAS DE DISPERSION
GENERALIDADES: 
    Una distribución sólo se encuentra caracterizada en forma adecuada cuando se conoce su grado de heterogeneidad. Lo anterior se logra mediante las medidas de dispersión. Puede existir el caso de que varias distribuciones posean la misma aritmética y sin embargo, los valores de las variables sean diferentes.
     
    Las medidas de dispersión dan a una idea de cómo ( grado o medida) se presentan los datos una distribución. El cálculo de estas medidas es fundamental para analizar series tales como ingresos, tenencia de la tierra, etc.
     
     
    DESVIACION TIPICA ( o "standard"):
    Esta medida de dispersión es la más utilizada en las estadísticas socioeconómicas. Si una distribución de "n" filas está dada por la relación entre dos variables "x" en las fórmulas para la desviación típica serán:

El cuadrado de esta última expresión es la covarianza. La desviación expresa la dispersión de los datos con respecto a la media. Mientras más dispersos se encuentren los datos en la distribución, mayor es la magnitud de la desviación típica, ya que serán mayores las desviaciones respecto a la media. La desviación típica se expresa en las mismas unidades de los datos analizados y siempre es una cantidad mayor o igual a cero (0).
 
 
EJEMPLO 5.8
 
 
Calcular las desviaciones típicas de los datos de la distribución de frecuencias del cuadro 5.1.
 
 
 
Centro de clase X ($)
Frecuencia
Y
X2
XY
Y2
75
6
5.625
450
36
 
85
19
7.225
1.615
361
 
95
36
9.025
3.420
1.296
 
105
20
11.025
2.100
400
 
115
16
13.225
1.840
256
SUMATORIAS
475
97
46.125
9.425
2.349
M=SUMATORIAS/n
95
19.4
9.225
1.885
469.8

 
De donde:

EJEMPLO 5.9
 
 
Una cierta cantidad de tubería ha sido mandada a cortar en trozos de 100 cm, de longitud, para comprobar exactitud en la longitud y uniformidad en el peso, las cuales tendrían una tolerancia de 6.0 gr/cm ± 0.01. El ensayo requiere 6 muestras para ser analizada al tiempo. Los resultados fueron los siguientes:
 
 
 
Muestras
1
2
3
4
5
6
X: Longitud (cm)
101.3
103.7
98.6
99.9
97.2
100.1
Y: Peso (gr)
609
626
586
594
579
605
Cuál es el peso promedio de las muestras y cuál es la uniformidad de las mismas?
Muestras
1
2
3
4
5
6
Sumatoria
Sumatoria/n
X
101.3
103.7
98.6
99.9
97.2
92
600.8
110.13
Y2
609
626
586
594
579
605
3.599
599.83
X
10.262
10.754
9.722
9.980
9.448
10.020
60.185
10.031
XY
61.692
64.916
57.780
59.341
56.279
60.559
360.567
60.094
Y2
370.881
391.876
343.396
352.836
335.241
366.025
2.160.255
360.042

 
Peso promedio de las muestras: My = 599.8 gr
La máquina corta longitudes de aproximadamente: Mx = 100.1 cm
La uniformidad lograda es superior a 599.8/100.1 = 5.99 gr/cm que se encuentra dentro de la tolerancia aceptable.
La desviación típica de los pesos de las muestras es:
(desviación con respecto al promedio)
La desviación de las longitudes con respecto al promedio es:

 
 
Las fórmulas que aparecen en estas conferencias son las que se utilizan para analizar series de población (y en consecuencia, para estudios de mercado en proyectos), en los demás casos, como el que nos ocupa, las fórmulas para la desviación típica difieren ligeramente, estas son:
 
 
Obteniendose para el ejemplo 5.9
 
Sy=17gr. , Sx=2.24 cm.
 
 
VARIANZA
    Es el cuadrado de la desviación típica. Para el ejemplo 5.8:
     
     
    Sx2 = (14.1) 2 = 198.8 $ 2 S y 2 = (9.7) 2 = 94.1
     
     
    A S2 xy también se le suele llamar covarianza.
     
      
COEFICIENTE DE VARIABILIDAD (C.V.):
Tanto la desviación típica como la varianza tienen el inconveniente de ser medidas absolutas, no posibilitando la comparación de distribuciones de unidades diferentes o con diferentes medidas de posición.
El coeficiente de variabilidad o desviación típica relativa es una medida de variación adimensional (sin unidad). El más empleado es el C.V. de Pearson, definido por:
 
 
C.V. = 100 S / M
 
 


En el caso de que la distribución tenga una media negativa, el signo de la misma es omitido.
 
 
El coeficiente de variabilidad representa la desviación típica en el caso de que la media fuese igual a 100.
 
 
Para los dotes del Ejemplo 5.8, el coeficiente de variabilidad será:
 
 
C.V (x) = 100 x 14.1/95 = 14.8
 
 
 
 
PROBABILIDAD
La probabilidad es una magnitud numérica elegida para expresar cuantitativamente el carácter aleatorio de un fenómeno. Por aleatorio debe entenderse toda la gama de palabras desde imposible hasta cierto, pasando por inverosímil, dudoso y plausible. En otras palabras, el cálculo de la probabilidad es una disección del azar.
Se define probabilidad como la relación entre el número de casos favorables sobre el número de casos totales.
Así, si "f" es el número de casos favorables a ocurrir de un fenómeno "E", y "n" el número de casos totales, la probabilidad de E es:
 
 
    P(E) = f/n = p
     
     
    La probabilidad de no ocurrencia de E es
     
     
    P(-E) = d/n = q
     
     


    Donde "d" es el número de casos desfavorables al fenómeno E.
     
     
    La probabilidad varía de cero (0) a + 1. La suma de la probabilidad favorable más la desfavorable es igual a uno, o sea p + q = 1
     
NUMEROS INDICES
INTRODUCCION
Son utilizados para reflejar la evolución de precios, cantidades y valores para un conjunto de productos. Esta evolución puede ser con relación al tiempo; áreas geográficas, etc.
Con ellos es posible realizar comparaciones del costo de vida en un país con relación a otro (por ejemplo, entre Estados Unidos y la República Dominicana) o para un mismo país en dos períodos de tiempo. Ese sólo hecho ya justifica su cómputo y su periódica utilización en la investigación socio económica.
Es muy utilizado por los gobiernos en la deflactación de los precios e ingresos, para comparar valores nominales expresados en unidades monetarias de distinto poder adquisitivo, etc.
    Indice de Precios: refleja la variación de los precios de un conjunto de artículos entre dos momentos en el tiempo o dos puntos en el espacio. (Ejemplo: Indice del Costo de Vida).
     
    Indice de Cantidades: Indica la variación en las cantidades de un conjunto de productos en el tiempo o en el espacio, es el caso del Indice de Producción Industrial.
     
    Indice de Valor: refleja la variación del valor total de un conjunto de productos. Por ejemplo, índice de ventas totales comerciales.
INDICE DE PRECIOS Y DE CANTIDADES
Cuando se desea analizar la evolución del precio o cantidad en un solo artículo, no es necesario un indicador especial, basta expresar la variación en términos porcentuales, como se vió en las series de relativos, y el precio relativo será Pn/Po donde Pn es el precio en el período dado y Po el precio en el período base.
 
En el caso en el cual hay muchos artículos expresados en unidades diferentes, el tomar cifras relativas obvia el inconveniente de medida; pero aún subsiste el problema de la ponderación, ya que a cada artículo debe asignársele la importancia debida. En consecuencia es necesario ponderar los precios por las cantidades, para lo cual utilizan los índices de precios.
Los índices de precios más utilizados son los de Laspeyres, Paassche, Fischer, Marshall-Edge Worth y Walsh.
Si:
Qo = Cantidad de productos en el año base
Qn = Cantidad de productos en el año n
Po = Precio en el año base
Pn = Precio en el año n
Los índices de precios son los siguientes:
    Indice de precios Laspeyres:


    EJEMPLO 5.10
     
     
    Calcular el índice de precios según Laspeyres para el año 1980, tomando como base, para el siguiente grupo de mercaderías.
    Mercadería
    1972
    1980
    1972
    1980
     
    (P 62)
    (P 70)
    (Q 62)
    (Q 70)
    A
    783
    5.520
    12.328
    11.234
    B
    4.071
    22.090
    561
    312
    C
    77
    98
    3.943
    3.600
    D
    130
    228
    210
    17
    E
    426
    1.042
    627
    214
    F
    520
    1.049
    35
    56
    G
    966
    1.840
    5
    4
    H
    3
    7
    4.538
    5.123
    I
    1.118
    2.131
    45
    38
    J
    1410
    3.246
    5
    7
    K
    17
    37
    321
    412
    L
    21
    45
    219
    420

    Mercadería
    P80 . Q72
    P72 . Q72
     
    (000)
    (000)
    A
    68.050
    9.653
    B
    12.392
    2.284
    C
    386
    304
    D
    48
    27
    E
    654
    267
    F
    37
    18
    G
    9
    5
    H
    32
    14
    I
    96
    50
    J
    16
    7
    K
    12
    5
    L
    10
    5
    Sumatoria
    81.742
    12.639

     
    El índice de precios del grupo de mercaderías, tomando el año 1962 como base sería entonces:
    Indice de precios de Paasche:


     
    Indice de precios de Fischer


     
     
     
    Marshall - Edgewoth: 

      Walsh
     
DEFLACTACION DE PRECIOS:
Una de las más utilizadas es la de precios al por mayor. El procedimiento a seguir se ilustra mediante el siguiente ejemplo:
 
EJEMPLO 5.11
Los precios de un producto han sido los siguientes:
Precios promedio durante el año
1972
1973
1974
1975
1976
88.80
174.11
222.77
390.37
474.56
Y el índice de precios al por mayor, con base en el año 1962 es de:
1972
1973
1974
1975
1976
100.0
176.3
289.3
411.7
516.5
Se pide calcular los precios deflactados para el producto, en cada uno de los años considerados.
Para obtener los resultados se dividen los precios corrientes de cada año por el respectivo índice de precios y ese cociente se multiplica por el índice de precios del año base (100).
Años
Precios corrientes
Indice de precios al por mayor
Precios deflactados
1972
88.80
100.0
88.80
1973
174.11
176.3
98.75
1974
222.77
289.3
77.00
1975
390.37
411.7
94.82
1976
474.56
516.5
91.88
ANALISIS DE REGRESION
GENERALIDADES
El concepto estadístico de análisis de regresión se utiliza en el estudio de mercado, durante la formulación de un proyecto, cuando es necesario conocer cuál será la demanda futura más probable de un bien o servicio, a partir de datos históricos sobre el comportamiento de dicha demanda.
Como ya se vió en el Capítulo sobre Elementos de Economía, los datos históricos sobre la demanda de un bien o servicio se encuentran, en general, como una relación de dos variables. La finalidad del análisis de regresión es conocer la función (o fórmula) matemática con la cual están relacionadas esas dos variables. Una vez conocida dicha función, es posible conocer el comportamiento de la variable (y) cada vez que cambia la otra variable independiente (x).
En síntesis, el análisis de regresiones tiene como objetivo determinar una expresión (función) del tipo:
Y = f(x)
 
A partir de cierta información histórica sobre el comportamiento de dichas variables entre sí. Si existen solamente dos variables relacionadas, la regresión se denomina simple. Si la relación entre las dos variables está determinada por una recta de la forma y = mx + b, se trata de una regresión lineal. Cuando la relación es la de una curva (parabólica, potencial, etc), se dice que la regresión es del tipo curvilíneo.
Como paso inicial en el análisis de una regresión, se debe determinar cuál sería el tipo de curva más probable al cual se ajustarían los datos, antes de perder tiempo probando muchas curvas. Existen programas de computadores que prueban varias curvas a una pareja de datos, determinar el tipo de curva que más se acomoda a dichos datos y luego calculan las variables correspondientes; cuando esto último está disponible, no es necesario determinar el tipo de curva más probable, antes de iniciar los cálculos correspondientes. Para lo anterior pueden ser útiles las siguientes sugerencias:
    Elaborar una gráfica bidimensional y observar qué tipo de curva se acomoda a los datos graficados (recta, parábola, exponencial, etc).
    Los datos de demanda-precio y demanda-ingreso, en condiciones normales de competencia en general se ajustan a curvas exponenciales del tipo:
            Y= kxe, donde k y e son constantes
            (e = Coeficiente de elasticidad).

REGRESION LINEAL
CALCULO DE LOS PARAMETROS
    Se supone que las variables x (independiente) e y (dependiente) están relacionadas por la ecuación de una recta del tipo: y = mx + b, donde m y b son los dos parámetros a ser determinados (m es la pendiente de la recta y b es su intercepto con el eje de las ordenadas).
    Para determinar dichos parámetros se utiliza el método llamado de los mínimos cuadrados, el cual fue descubierto por Carl F. Gaus. El método consiste en minimizar el cuadrado de la diferencia entre los datos observados para x e y y los calculados a partir de la recta que mejor se ajuste a dichos datos. En la práctica esto se puede lograr graficando los datos a escala y luego trazando una línea recta que divida uniformemente dichos datos.
    Entonces, si yi = valor observado de la variable dependiente (dato)
    h = Número de observaciones (número de parejas de datos)
    W = SUMATORIA ( yi - y)2
    Reemplazando y = mxi + b
    W = SUMATORIA ( yi - mxi - b) 2
    Para que W sea un mínimo se debe cumplir simultáneamente que sus derivadas parciales con respecto a m y a b sean nulas:
     
     

     
     

     
     
    Que simplificadas quedan:
    SUMATORIA y = m SUMATORIA x + nb (5.a)
    SUMATORIA xy = m SUMATORIA x2 + b SUMATORIA x (5.b)
    Donde se ha omitido el subíndice i, pero se debe recordar que se trata de los datos de las series históricas suministradas.
    Eliminando m y b entre estas últimas ecuaciones:
    (5.a). n - (5.b). SUMATORIA x:
    n(SUMATORIA xy) - (SUMATORIA x) (SUMATORIA y) = n . m SUMATORIA x2 - m (SUMATORIA x) 2

    Pendiente:
    De la ecuación (5.a) El intercepto y:
    Existe un procedimiento de cálculo que algunas veces simplifica las fórmulas y el cual consiste en seleccionar el origen de coordenadas de tal modo que "S x" se haga nula (este punto es el lugar de la mediana de los datos x). El procedimiento de cálculo respectivo se ilustra en el Ejemplo 5.12
     
     
ANALISIS DE CORRELACION
Supuesta una función para representar la tendencia de una serie de datos, es necesario estudiar el grado en el cual dicha función se ajusta a esos datos. Lo anterior se logra mediante el coeficiente de correlación, el cual, mientras más cercano a (1) se encuentre, indica un mayor grado de correlación entre las variables analizadas.
Para el caso de correlaciones simples (entre dos variables) y una función rectilínea (línea recta), el coeficiente de correlación "R" está dado por la siguiente expresión:

  Donde , Sx y Sy son las desviaciones típicas


 
 

 
 
LIMITACIONES DE LA CORRELACION
 
 
A la correlación se le ha dado un uso muy generalizado en el análisis de series históricas; sin embargo, es necesario hacer las siguientes observaciones:
    Un buen coeficiente de correlación (R @ 1) no implica necesariamente que exista correlación entre las variables (la correlación puede ser una cuestión de azar). El número de datos afecta mucho la validez de R.
    Las series que se vayan a correlacionar deben ser depuradas o deflacionadas previamente. Es conveniente trabajar con series reales, per cápita, precios constantes, etc., para que la correlación sea más significativa.
    Las predicciones basadas en regresiones y correlaciones son válidas solamente si persisten las condiciones en las cuales se basaron; en consecuencia, pierden su validez, al variar éstas bruscamente.
EJEMPLO 5.12
 
Si se conoce que la cantidad demandada de un producto en un período de 10 años ha sido la siguiente:
AÑOS
CANTIDAD DEMANDADA
(Y)
1975
48
1976
45
1977
52
1978
55
1979
57
1980
61
1981
60
1982
65
1983
62
1984
70
Calcular cuál será la demanda estimada para los años 1985, 1990 y 1995, ajustando los datos observados a una recta, por el método de mínimos cuadrados.
La ecuación estimada de la recta es y = mx + b, donde m es su pendiente y b es su intercepto con el eje y.
AÑOS
X
Y
X2
XY
Y2
1975
-9
48
81
-432
2.304
1976
-7
45
49
-315
2.025
1977
-5
52
25
-260
2.704
1978
-3
55
9
-165
3.025
1979
-1
57
1
-57
3.249
1980
1
61
1
61
3.721
1981
3
60
9
180
3.600
1982
5
65
25
325
4.225
1983
7
62
49
454
3.844
1984
9
70
81
630
4.900
Sumatorias
0
575
330
401
33.597
Sumatorias/n
0
57.5
33.0
40.1
3.359.7 (n=10)

 
La pendiente y el intercepto con el eje Y serán:



 
 
Intercepto Y:

 
 
Coeficiente de correlación:

 
 
De donde:

 
 
Y la ecuación de la curva es Y=1.21X +57.5
 
a) Demanda en 1985 x= 11 y(1985)=71
b) Demanda en 1990 x=21 y(1990)=83
c) Demanda en 1995 x=31 y(1995)=95
 
 
REGRESIONES POTENCIALES

FUNCION LOGARITMICA
Es la regresión más utilizada en análisis de demanda. Su expresión es: y = BxM donde B y M son las constantes (parámetros) a ser determinados. M es el coeficiente de elasticidad en series de Demanda - Precio o Demanda - Ingreso.
Tomando logaritmos, la ecuación se convierte en: lob . B + Mlogx, la cual graficada en papel logaritmico daría una recta de la forma:
 
 
Y = mX + b, donde
 
 
Y = logY, m = M, b = logB, X = log.x
 
 
O sea que, con estos reemplazos, los parámetros M y logB (y por consiguiente B) se pueden calcular con las mismas fórmulas deducidas para m y b en la regresión lineal.
El método del cálculo se ilustra en el Ejemplo 5.13.
 
 
EJEMPLO 5.13
Se desea estimar la demanda total, año a año, de un producto para el período 1985 - 1991, conocida información:
    La tasa de crecimiento anual del ingreso por persona en el período 1985 - 1991 será del 5%.
    La tasa de crecimiento anual de la población consumidora en el período 1985-1991 será del 2%.
    La población consumidora en el año 1984 era de 1.000.000 de habitantes.
    El ingreso y la demanda están relacionados así:
AÑOS
INGRESO POR PERSONA
CANTIDAD DEMANDA POR PERSONA
 
(Precios constantes)
Unidades
 
(X)
(y)
1975
110
220
1976
116
240
1977
121
250
1978
127
255
1979
134
262
1980
140
265
1981
147
280
1982
154
285
1983
162
290
1984
169
300

 
 
 
Se supone que estos valores observados x e y se ajustan a una ecuación exponencial del tipo:
 
 
Y = BxM (M= coeficiente de elasticidad-ingreso)
 
 
La cual expresada en forma logarítmica queda:
 
 
Log.y = M log.x + log.B
 
 
La cual graficada en papel logarítmico, daría una línea recta.
 
 
Se puede observar que esta última ecuación es similar a la ecuación de una recta de la forma Y= mX + B, donde:
 
 
Y = log. Y m = M b = log.B, X = log.x
 
 
O sea que con estos reemplazos el problema se puede resolver en forma similar al ejemplo anterior, computando primero los valores de las sumatorias de los logaritmos, tal como se muestra en la tabla subsiguiente:
 
AÑOS
INGRESO POR PERSONA
CANTIDAD DEMANDA POR PERSONA
(log . x)
(Log.y)
(Log.x)(Log.y)
(Log.x)2
(Log.y)2
 
(x)
(y)
 
 
 
 
 
1975
110
220
2.04139
2.34242
4.78179
4.16728
5.48694
1976
116
240
2.06446
2.38021
4.91385
4.26199
5.66540
1977
121
250
2.08278
2.39794
4.99438
4.33799
5.75012
1978
127
255
2.10380
2.40654
5.06288
4.42599
5.79144
1979
134
262
2.12710
2.41830
5.14396
4.52457
5.84818
1980
140
265
2.14613
2.42325
5.20061
4.60587
5.87212
1981
147
280
2.16732
2.44716
5.30378
4.69726
5.98858
1982
154
285
2.18752
2.4584
5.37001
4.78525
6.02626
1983
162
290
2.20952
2.46240
5.44072
4.88196
6.06340
1984
169
300
2.22789
2.47712
5.51875
4.96349
6.13612
 
SUMATORIA
 
21.35791
24.21018
51.73073
45.65165
58.62856
 
Sumatoria/n(n=10)
 
2.13579
2.42102
5.17308
4.56516
5.86286

 
Los valores buscandos de M y log.B son:
 
 

 
 
Intercepto

Y la ecuación logarítmica queda:

  LogY= 0.64992 logx + 1.04787

Coeficiente de correlación de la formula logaritmica:
 
 

 
  Donde
 
 

 
 
 
 
 
 
Para calcular la demanda en los años solicitados, recordar que:
 
 
In = Io (1+ 0.05)n y Pn = Po (1+0.02) n
 
 
Donde:
 
 
Io y Po = Ingreso por persona y población, respectivamente, en el año (0) (1984)
In y Pn = Ingreso por persona y población, respectiva en el año n
0.05 y 0.02 = Crecimiento anual del ingreso por persona y de la población, respectivamente, período 1985 -91.
AÑO
INGRESO POR PERSONA
Log x
Log y
CANTIDAD DEMAN. POR PERSONA
POBLACION
DEMANDA TOTAL
 
(X)
 
(Aplica fórmula)
(y)
(000)
(Millones de Unidad)
1984
169
 
 
 
1.000
 
1985
177
2.24797
2.49313
311
1.020
317
1986
186
2.26951
2.50698
321
1.040
334
1987
196
2.26226
2.52160
332
1.061
352
1988
205
2.31175
2.53414
342
1.082
370
1989
216
2.33445
2.54873
353
1.104
390
1990
226
2.35411
2.56137
365
1.126
411
1991
238
2.37621
2.57582
377
1.149
433

 
La demanda total también pudo haberse calculado aplicando la fórmula:
 
 
D y = MD x + D P
 
 
D y = Tasa de crecimiento de la demanda total
D x = Tasa de crecimiento del ingreso por persona
M = Elasticidad ingreso = 0.64292
D P = Tasa de crecimiento de la población
 
 
Reemplazando,
 
 
Ay = 0.64292 x 5% + 2% = 5.21%
La demanda estimada para 1984 es:
 
X = 169 log . x = 2.22789
 
Log y = 0.64292 x 2.22789 + 1.04787 = 2.48022
 
Y = 300 yn = 300(1+0.0521)n
De donde:
 
 
AÑO
 
1984
300
1985
317
1986
334
1987
352
1988
370
1989
390
1990
411
1991
433

 
FUNCION SEMILOGARITMICA
Su expresión es: y = Bemx, donde e es la base de los logaritmos naturales ( e = 2.7182818…) y B y m son constantes.
Tomando ln. (logaritmos naturales, base e):
Ln.y = mx + ln.B, que graficada en papel similogaritmico, sería una recta de la forma: Y = mX + b, donde:
 
 
Y = ln.y, b = ln.B
 
 
Con estos reemplazos, se pueden calcular los parámetros m y ln.B con las mismas fórmulas deducidas para m y b en la regresión lineal.