EN ES
Vol. 29. Num. 2. 2013. Pages 75-82

Transformaciones de datos en la elaboraci贸n de estudios salariales

Data transformations in salary surveys

Fornieles, Albert

Resumen

El presente trabajo pretende mostrar algunos aspectos de la preparación y el tratamiento de los datos procedentes de encuestas salariales con vistas a la elaboración de informes retributivos. Veremos cómo, tras probar diferentes transformaciones alternativas, se puede comprobar que mediante una transformación logarítmica es posible mejorar la asimetría y la curtosis de las variables del modelo (facturación y salario), así como convertir en lineal una relación entre dos variables que con los datos originales no lo es, lo que facilita el análisis de los datos al permitir utilizar el modelo de regresión. Estudiaremos la relación entre el salario y el tamaño de la empresa, ya que esta relación es la que mejor predice el salario de mercado que debe obtener un empleado en un puesto determinado. Presentamos un ejemplo de la aplicación del modelo de regresión para el estudio de esta relación.

Abstract

This article intends to show some of the aspects involved when elaborating and processing data coming from salary surveys to produce retribution reports. We will see how after trying different alternative transformations it is possible to verify that, through a logarithmic transformation, the asymmetry and kurtosis of a model’s variables can be improved (revenues and salary) as well as a relation between two variables converted in lineal –something that would have been impossible to achieve with the original data. This would make data analysis easier, because it allows the use of the regression model. We will  study the relation between salary and company size, because this relationship is the best to predict the market salary that is earned by a specific jobholder. We give an example of application of a regression model for studying this relationship.

El presente trabajo pretende mostrar algunos aspectos de la preparaci贸n y el tratamiento de los datos procedentes de encuestas salariales con vistas a la elaboraci贸n de informes retributivos. Para la exposici贸n del tema hemos escogido un ejemplo desarrollado con datos reales, en el que la utilizaci贸n de las transformaciones ha permitido mejorar la posibilidad de an谩lisis e interpretaci贸n de los datos. El tema presentado se ubica en el contexto de uno de los aspectos que est谩n tomando mayor auge en la gesti贸n de los recursos humanos: la pol铆tica salarial y, m谩s concretamente, los estudios salariales.

A lo largo del art铆culo estudiaremos la relaci贸n que se establece entre el salario y el tama帽o de la empresa. Esta relaci贸n es crucial en la confecci贸n de estudios salariales, ya que el tama帽o de la empresa es la variable que mejor predice el salario de mercado -el mercado salarial se define como el colectivo de empresas que est谩n en disposici贸n de contratar a las mismas personas; obviamente, este mercado no es el mismo para todos los puestos de la empresa- que debe obtener un empleado que ocupa un puesto determinado.

En la figura 1 (reproducida de CEINSA, 2012) se pueden apreciar los mercados de referencia para los puestos de los distintos niveles jer谩rquicos y 谩reas funcionales. En efecto, el tama帽o de la organizaci贸n es la variable que muestra mayor influencia en la remuneraci贸n, especialmente en lo que concierne a los cargos ejecutivos.

Figura 1. Mercados de referencia para los puestos de los distintos niveles jer谩rquicos y 谩reas funcionales.

Figura 1 . Mercados de referencia para los puestos de los distintos niveles jer谩rquicos y 谩reas funcionales.

Aunque existen diversos indicadores para medir el tama帽o de una organizaci贸n -valor de los activos, valor a帽adido, beneficios- los m谩s significativos y f谩ciles de obtener de manera fiable son la cifra de facturaci贸n (volumen de ventas) y el n煤mero de empleados en la n贸mina de la empresa (plantilla).

A efectos retributivos, el volumen de ventas es un predictor m谩s eficaz que la plantilla para la mayor铆a de los cargos, por lo que prescindiremos de los datos de la plantilla (v. gr., CEINSA, 1995, 2012; PE, 2006; Watson Wyatt, 2004).

Las razones te贸ricas que justifican la influencia del tama帽o de la empresa sobre el salario son varias (v. gr., CEINSA, 1995, 2012; PE, 2006; Watson Wyatt, 2004).

鈥 La responsabilidad y complejidad de un cargo directivo aumenta a medida que se incrementa el valor de las magnitudes econ贸micas asociadas al puesto de trabajo: n煤mero de personas que dependen de 茅l, presupuestos de gastos, de inversi贸n, valor de los activos que maneja, etc. Todos estos par谩metros est谩n relacionados con el tama帽o de la organizaci贸n.
鈥 Las empresas grandes suelen tener m谩s escalones retributivos que las peque帽as, por lo que el abanico salarial -la diferencia entre los sueldos m谩s altos y los bajos- se amplia normalmente a medida que aumenta el tama帽o de la organizaci贸n.
鈥 La incidencia econ贸mica del coste de la estructura directiva suele ser proporcionalmente mayor en una empresa peque帽a que en una empresa grande, por lo que 茅sta se halla en condiciones de soportar costes salariales per capita m谩s elevados.

En este trabajo veremos c贸mo la relaci贸n entre las variables predictora (facturaci贸n) y criterio (salario) no es lineal, por lo que para la realizaci贸n del modelo de regresi贸n se hace necesaria la transformaci贸n de las variables. El objetivo el art铆culo es mostrar que es la m谩s adecuada para este tipo de estudios.

Formalmente, en el 谩mbito cient铆fico, podemos definir la transformaci贸n de una variable como el resultado de aplicar alguna expresi贸n id茅ntica sobre todos sus valores, de manera que cada uno de ellos guarde una misma correspondencia con los datos de la variable original. En esta expresi贸n pueden intervenir variables, constantes, operadores aritm茅ticos y funciones (Dom猫nech, 1999).

En este mismo sentido, el Diccionari de la llengua Catalana (Institut d'Estudis Catalans ), define transformaci贸n en su aceptaci贸n matem谩tica como una "aplicaci贸n biyectiva entre dos subconjuntos de un espacio" (traducido por el autor). En definitiva, como se帽ala Salvador (1996), las transformaciones consisten en obtener valores num茅ricos diferentes a los originales, manteniendo la capacidad de representaci贸n de las relaciones emp铆ricas.

Un buen indicador de la utilidad de las transformaciones lo podemos encontrar en el hecho de que pr谩cticamente todos los programas inform谩ticos de tratamiento de datos (paquetes espec铆ficamente estad铆sticos, hojas de c谩lculo, gestores de base de datos, etc.) tienen implementadas multitud de funciones y utilidades destinadas a facilitar su realizaci贸n. As铆, por ejemplo, SPSS o SAS tienen alrededor de media docena de instrucciones exclusivamente dedicadas a la transformaci贸n de datos, adem谩s de m煤ltiples funciones de todo tipo (matem谩ticas, l贸gicas, de gesti贸n de valores missing , etc.) 煤tiles para las transformaciones de datos (v. gr., Dom猫nech, 1999; Norusis, 2011).

El objetivo de las transformaciones de datos es conseguir alguna ventaja en los an谩lisis, preservando a la vez la informaci贸n relevante y no dificultando -mejor dicho, en general, facilitando- la interpretaci贸n de los resultados. Como veremos, existen numerosas transformaciones, que van desde una operaci贸n aritm茅tica (multiplicaci贸n, divisi贸n, etc.) hasta las puntuaciones de raz贸n, la inversa, las escalas de potencia de Tukey (1977), la logar铆tmica, etc. (v. gr., Freixa, Salafranca, Gu脿rdia, Ferrer y Turbany, 1992; Pe帽a y Romo, 1997).

Algunas transformaciones permiten, adem谩s de simplificar los c谩lculos, aumentar el nivel de potencia de las pruebas estad铆sticas, mejorar la simetr铆a de la distribuci贸n, comparar valores de distribuciones distintas, etc., lo que facilita la aplicabilidad de las pruebas estad铆sticas con las que usualmente se analizan los datos (v. gr., Dom猫nech, 2000; Dom猫nech y Sarri谩, 1995; Fornieles, Cosculluela y Turbany, 2007; Freixa et al., 1992). Adem谩s muchas veces, en caso de que interese, permiten acercar la forma de una relaci贸n no lineal a una recta al modificar el escalado de la variable o variables (Moore, 1993; Osorio y Fornieles, 1995; Levin, 1998).

Para que las transformaciones transmitan fielmente la informaci贸n contenida en los datos originales, Freixa et al. (1992) se帽alan que es preciso que cumplan la siguiente serie de requisitos:

1) Simplicidad : propiedad que no se refiere a las operaciones matem谩ticas implicadas si no que trata sobre el efecto que la transformaci贸n ejerce en los datos originales. Las m谩s simples son las lineales, ya que solo afectan al valor num茅rico. Las transformaciones mon贸tonas no lineales adem谩s alteran las distancias relativas, pero conservan el orden de las observaciones originales.
2) Continuidad : garantiza que solo se producir谩n los cambios deseables en las distancias relativas entre los puntos de la escala transformada.
3) Monotonicidad : la funci贸n debe preservar el orden y, por ende, todos los estad铆sticos basados en 茅l.
4) Derivabilidad : asegura la ausencia de brusquedades susceptibles de invalidar la re-expresi贸n.

Siguiendo a Pe帽a y Romo (1997) clasificaremos las transformaciones en lineales y no lineales. Como ya hemos se帽alado, cuando el objetivo de las transformaciones se limita a facilitar la interpretaci贸n de los datos, sin producir ning煤n cambio esencial en la configuraci贸n de la variable, utilizaremos las transformaciones lineales. Estas transformaciones son las m谩s sencillas y las m谩s empleadas en la vida cotidiana (v. gr., la transformaci贸n de pesetas a euros).

Hemos visto c贸mo las transformaciones lineales cambian los valores num茅ricos de la variable, pero no modifican la forma (asimetr铆a y curtosis) de la distribuci贸n. Sin embargo, en muchas ocasiones los datos recogidos en su m茅trica original presentan valores alejados, asimetr铆a, muestran un patr贸n de relaci贸n no lineal entre variables, etc., que conviene corregir. Las transformaciones no lineales permiten corregir la forma de la distribuci贸n, acercando a la normalidad las distribuciones asim茅tricas y/o con curtosis excesiva. En nuestra exposici贸n nos limitaremos a las transformaciones mon贸tonas, es decir, a aquellas en las que todos los valores de la variable original disminuyen o aumentan su valor aun cuando, obviamente, el montante sea diferente a lo largo del recorrido de la variable.

Centr谩ndonos en primer lugar en el caso univariable, tendr谩 sentido aplicar una de estas transformaciones cuando queramos ir en sim茅trica una distribuci贸n que con la m茅trica original no lo es. La conveniencia de trabajar con distribuciones sim茅tricas queda justificada por las siguientes razones: a) las distribuciones sim茅tricas permiten describir el centro sin ambig眉edades ya que los 铆ndices de tendencia central coincidir谩n, b) adem谩s este tipo de distribuciones son m谩s f谩cilmente interpre y c) para preservar la robustez de los m茅todos estad铆sticos habituales es preciso que los datos sean sim茅tricos (Freixa et al., 1992).

Por 煤ltimo, cabe se帽alar que en el caso de tratar la cuesti贸n desde el punto de vista de la relaci贸n entre variables -por ejemplo, desde la perspectiva de la regresi贸n- las transformaciones permiten rectificar relaciones que no son lineales con los datos originales (v. gr., CEINSA, 1995; Freixa et al., 1992; Moore, 1993; Levin, 1998). En este trabajo tambi茅n se abordar谩 esta cuesti贸n.

M茅todo

Participantes

La muestra est谩 compuesta por 381 directores t茅cnicos que trabajan en empresas colaboradoras de CEINSA. Para la elaboraci贸n de este trabajo se eliminaron previamente los valores extremos de la distribuci贸n salarial (por encima del centil 99 y por debajo del centil 1) y los empleados de este puesto que trabajaban en empresas con una facturaci贸n mayor de 60.000 millones de pesetas al a帽o (360 millones de euros).

Materiales

La recogida de informaci贸n para la elaboraci贸n del informe se realiza mediante un cuestionario (en papel o en disquete) cumplimentado por las empresas colaboradoras en el que se recoge informaci贸n sobre las caracter铆sticas de la empresa y del empleado necesarias para realizar el modelo de regresi贸n. El tratamiento de los datos se realiza con SPSS y con programas "ad hoc".

Procedimiento

La recogida de informaci贸n se realiza enviando por correo convencional o electr贸nico el cuestionario (ya sea en papel o informatizado) a la empresa durante los meses de marzo y abril.

El plazo de recogida finaliza el 25 de junio y a partir de finales de mayo se lleva a cabo un seguimiento telef贸nico a las empresas colaboradoras. Las compa帽铆as que participan en el estudio reciben informaci贸n sobre los incrementos salariales y tienen una bonificaci贸n del 50% en la compra del informe de remuneraciones. El tratamiento de los datos se lleva a cabo durante los meses de junio y julio, ya que el informe debe ponerse a la venta en el mes de septiembre.

Resultados

A continuaci贸n veremos diferentes alternativas de transformaci贸n que permiten obtener una mejor simetr铆a de la variable salario. Lo dicho para esta variable es aplicable para la facturaci贸n, cuyo comportamiento es todav铆a m谩s extremo. Estudiaremos en cada caso la asimetr铆a y la curtosis de la variable estudiada.

La gr谩fica de la figura 2 muestra una distribuci贸n salarial cl谩sica (v. gr., CEINSA, 1995, 2012; Moore, 1993; PE, 2006; Pe帽a y Romo, 1997; Watson Wyatt, 2004), con muchos salarios en la parte baja de la distribuci贸n y pocos en la parte alta, lo que conlleva que nos encontremos ante una distribuci贸n claramente asim茅trica (coeficiente de asimetr铆a de Pearson = 1.24, SE asimetr铆a = 0.12) y leptoc煤rtica (coeficiente de curtosis = 1.90, SE curtosis = 0.25). Este efecto es todav铆a m谩s exagerado en la variable ventas (asimetr铆a = 5.99, curtosis = 46.82).

Figura 2. Histograma de los datos salariales originales

Figura 2. Histograma de los datos salariales originales

Si deseamos mejorar estos aspectos mediante una transformaci贸n la soluci贸n ha de pasar por "estirar" los datos hacia la cola de la distribuci贸n. Una de las formas de lograrlo es cambiar el escalado de la variable, alargando las distancias entre los puntos. De las posibles alternativas para aplicar en este caso (inversa, logar铆tmica, ra铆z cuadrada, etc.) la transformaci贸n logar铆tmica es la que mejor consigna sus objetivos (coeficiente de asimetr铆a = 0.3 y curtosis = 0.2). En la figura 3 se pueden apreciar los resultados obtenidos la transformaci贸n logar铆tmica en base 10, as铆 como tambi茅n con otras transformaciones.

Figura 3 . La gr谩fica de mayor tama帽o corresponde a la transformaci贸n logar铆tmica. Las peque帽as corresponden, por orden, a las siguientes transformaciones: elevar los valores al cuadrado, "ra铆z cuadrada", "inversa" y "normalizada".

La primera gr谩fica (la de mayor tama帽o) es la obtenida con la transformaci贸n logar铆tmica en base 10. Las gr谩ficas peque帽as corresponden, por orden, a la transformaci贸n realizada al elevar los valores al cuadrado que, como era de esperar, empeora la simetr铆a (coeficiente de asimetr铆a = 2.33). Las dos gr谩ficas siguientes corresponden a las transformaciones "ra铆z cuadrada" e "inversa", que mejoran la forma de la distribuci贸n, aunque en menor grado que la logar铆tmica (coeficientes de asimetr铆a = 0.75 y 0.44, respectivamente). Por 煤ltimo, como ejemplo de transformaci贸n lineal, hemos incluido la "normalizada", que obviamente no modifica ni la forma de la distribuci贸n ni sus valores de asimetr铆a y curtosis.

Para el caso de la relaci贸n entre variables presentamos un ejemplo de la aplicaci贸n del modelo de regresi贸n -en este caso simple- para el estudio de la relaci贸n entre ventas y salario.

Como ya hemos se帽alado, una vez que nos situemos en un determinado puesto de trabajo, el tama帽o de la organizaci贸n -operativizado mediante la variable facturaci贸n- es la variable que muestra mayor influencia sobre la remuneraci贸n.

El volumen de ventas de la empresa es la variable m谩s importante. Para ilustrar su influencia, presentamos en las p谩ginas siguientes un ejemplo de la t茅cnica de regresi贸n, referida en este caso a una sola variable. Se trata, por tanto, de una regresi贸n simple; sin embargo, los principios subyacentes son esencialmente los mismos de la regresi贸n m煤ltiple. En los informes salariales de CEINSA, para las estimaciones salariales utilizamos la t茅cnica de regresi贸n m煤ltiple. Puede verse el modelo completo en CEINSA (2012).

La gr谩fica de la figura 4 es la cl谩sica "nube de puntos" - diagrama de dispersi贸n -, que representa la relaci贸n entre las dos variables. Cada punto simboliza la posici贸n de un individuo. Puede apreciarse c贸mo la influencia del volumen de ventas de la empresa en la remuneraci贸n es evidente. Sin embargo, no se trata de una relaci贸n de tipo lineal, lo que aconseja llevar a cabo alguna transformaci贸n de las variables que "linealice" la relaci贸n.

Figura 4. Nube de puntos correspondiente a la relaci贸n entre volumen de ventas y salario

Figura 4 . Nube de puntos correspondiente a la relaci贸n entre volumen de ventas y salario

Las coordenadas de la citada gr谩fica vienen definidas en sentido horizontal por la cifra de ventas de la empresa en la que trabaja y en el sentido vertical por la remuneraci贸n bruta anual que percibe. Como podemos apreciar, se produce una fuerte aglomeraci贸n en la zona inferior izquierda. Esta concentraci贸n se produce por dos motivos. Tanto la distribuci贸n salarial como el tama帽o de las empresas tienen -en nuestra muestra y en la realidad- una distribuci贸n de tipo piramidal: a medida que aumentamos los valores, disminuye el n煤mero (lo que genera la asimetr铆a que hemos visto anteriormente). El formato de presentaci贸n utilizado no corrige esta situaci贸n, ya que estamos trabajando con escalas lineales, construidas seg煤n una progresi贸n aritm茅tica. Como veremos en los cuadros siguientes, la utilizaci贸n de escalas construidas con otro tipo de progresi贸n produce resultados sensiblemente distintos.

En una primera impresi贸n ya se aprecia que los puntos no se hallan distribuidos al azar, siendo apreciable la tendencia a que la remuneraci贸n crezca a medida que aumenta el tama帽o de la empresa.

En segundo lugar, en la gr谩fica de la figura 5 hemos trazado una "l铆nea de tendencia" en la que se puede apreciar claramente una curvatura progresivamente desacelerada. Esta forma curvil铆nea que aparece en la figura -con una pendiente pronunciada al principio, que despu茅s se va suavizando progresivamente- es caracter铆stica de la relaci贸n entre el tama帽o de la empresa y la remuneraci贸n de los cargos ejecutivos.

Figura 5. L铆nea de tendencia de relaci贸n entre volumen de ventas y salario

Figura 5 . L铆nea de tendencia de relaci贸n entre volumen de ventas y salario

Queda claro que si intent谩ramos representar la relaci贸n entre ambas variables por medio de una recta, obtendr铆amos un mal ajuste.

Por ejemplo, si construy茅ramos la recta sobre el tramo inicial que agrupa el grueso de las observaciones, en la derecha "nos saldr铆amos del cuadro", es decir, su prolongaci贸n producir铆a remuneraciones disparatadas para los individuos que trabajan en empresas grandes.

Aunque a primera vista puede dar una impresi贸n distinta, la distribuci贸n que aparece en la gr谩fica de la figura 6 es exactamente la misma de las dos gr谩ficas anteriores. La diferencia estriba en que en este caso utilizamos escalas logar铆tmicas para representar ambas variables.

Figura 6. L铆nea de tendencia de la relaci贸n entre los logaritmos del volumen de ventas y del salario

Figura 6 . L铆nea de tendencia de la relaci贸n entre los logaritmos del volumen de ventas y del salario

Aunque la l铆nea de tendencia que vimos en la gr谩fica anterior se puede utilizar para estimar la remuneraci贸n correspondiente a un determinado tama帽o de empresa, se utiliza una recta de regresi贸n como la que aparece representada en la gr谩fica de la figura 7, que puede ser expresada mediante una expresi贸n matem谩tica sencilla Y = K + b*X.

Figura 7. Recta de regresi贸n entre los logaritmos del volumen de ventas y del salario

Figura 7 . Recta de regresi贸n entre los logaritmos del volumen de ventas y del salario

La pendiente de la recta pone de manifiesto una estrecha relaci贸n entre el tama帽o de la empresa y la remuneraci贸n, caracter铆stica de los puestos directivos. Si traz谩ramos las rectas de regresi贸n para los diferentes puestos, observar铆amos que la influencia del tama帽o se va atenuando a medida que descendemos a trav茅s de la escala jer谩rquica.

Discusi贸n

Hemos visto como, tras probar diferentes alternativas, la transformaci贸n logar铆tmica es la opci贸n que mejor corrige la asimetr铆a y la curtosis de la variable estudiada, consiguiendo un acercamiento m谩s que aceptable a una distribuci贸n de tipo normal. Adem谩s, por lo que respecta a la relaci贸n entre variables, permite ir en lineal una relaci贸n que con los datos originales no lo es.

Esto es consecuencia directa del hecho de que en una escala lineal la distancia entre dos cantidades es proporcional al valor directo de 茅stas. Por ejemplo, refiri茅ndonos al volumen de ventas, la distancia entre 5.000 y 10.000 ser铆a la misma que entre 35.000 y 40.000. Por el contrario, en una escala logar铆tmica, la distancia entre dos cantidades es proporcional al logaritmo de 茅stas. Por ejemplo, entre 1.000 (log = 3) y 10.000 (log = 4) existe la misma distancia que entre 10.000 (log = 4) y 100.000 (log = 5). La gr谩fica adjunta no llega hasta 100.000, pero se puede observar esta equivalencia, por ejemplo, entre 200 y 300, 2.000 y 3.000. 20.000 y 30.000. etc.

La primera consecuencia de la transformaci贸n logar铆tmica es que la l铆nea de tendencia que antes se acercaba a una curva potencial ahora se aproxima razonablemente a la forma de una l铆nea recta. Otra consecuencia secundaria es que la aglomeraci贸n de puntos en el extremo inferior izquierdo de la gr谩fica se distribuye ahora de manera m谩s uniforme, lo que nos permite recuperar la representaci贸n gr谩fica de la nube de puntos, con una discriminaci贸n aceptable. La pendiente de la recta pone de manifiesto una estrecha relaci贸n entre tama帽o de empresa y remuneraci贸n, caracter铆stica de puestos directivos. Si traz谩ramos las rectas de regresi贸n para los diferentes puestos, observar铆amos que la influencia del tama帽o se va atenuando a medida que descendemos a trav茅s de la escala jer谩rquica.

En definitiva, la transformaci贸n logar铆tmica es la que mejor cumple con los prop贸sitos de este trabajo, tanto en el caso univariable como en relaci贸n entre variables.

Extended Summary

The present work shows some aspects related with the treatment of data collected from salary surveys. The use of transformations has allowed us to improve the possibility of analysis and interpretability of the data. Along the article we will study the relationship between salary and size of the company (turnover). Clearly, turnover is the more effective salary predictor. However, the relationship between turnover and salary is not linear. If we want to use linear regression, variables must be transformed.

A good indicator of the utility of the transformations can be found in the fact that all software for data analysis has implemented several s to facilitate its performance. In this case, the aim of the transformations is to achieve some advantage in the analyses, facilitating the interpretation of the results. More specifically, the aim is to move the form of a no linear relation closer to a straight.

The transformations could be classified in linear and no linear. When the aim of the transformations limits the interpretation of the data without producing any essential change in the configuration of the variable, linear transformations will be used. These transformations are the simplest and the most commonly applied in daily life (e.g., to transform US Dollars to Euros). Linear transformations change values, but do not modify the form (asymmetry and kurtosis) of the distribution. However, frequently the data collected in his original metrics present asymmetry and a pattern of no linear relation between variables. The non linear transformations allow correcting the form of the distribution, drawing the asymmetric distribution near normality.

First, we will with a single-variable case; it will make sense to apply one of these transformations when we want to turn symmetrical a distribution that is not symmetrical in the original metrics. The advantage of working with symmetrical distributions is justified by the following reasons: a) the symmetrical distributions allow us to describe the centre without ambiguities; b) moreover, this type of distributions are more easily interpretable; and c) in order to preserve the robustness of the usual statistical methods the data must be symmetrical. Finally, we will address the question of the relationship between variables from the perspective of linear regression; the transformations try to straighten relations that are not linear in the original data. In this work we will also tackle this question.

Method

Sample and procedure

The sample is composed of 381 Technical Directors working in companies partners of CEINSA (company of Human Resources specialised in salary reports and studies) who filled in some questionnaires. For the preparation of this work the extreme values of the salary distribution (above centile 99 and below centile 1) and the employees working in companies with a turnover exceeding 360 million euros were excluded. The questionnaire contains the necessary information about the company and the employees to perform the model of regression (Company: turnover, geographic location, number of employees, sector of activity, etc.; Employee: total remuneration, variable remuneration, age, seniority, level of education, number of subordinates, etc.).

Results and Discusion

We will try different alternatives of transformation in order to obtain a better symmetry of variable wage. The same treatment is applied for the turnover, a variable that behaves even more extremely. In each case, we will study the asymmetry and the kurtosis of the variable studied.

Figure 2 shows a classical salary distribution, with most wages concentrated at the bottom and a few at the top. We are consequently confronted clearly with an asymmetric (Pearson's coefficient of asymmetry = 1.24, SE asymmetry = 0.12) and leptokurtic distribution (kurtosis = 1.90, SE kurtosis = 0.25). This effect is even more exaggerated in the variable sales. (asymmetry = 5.99, kurtosis = 46.82).

If we wish to improve these effects by means of a transformation, one of the ways to do it is to change the scale of the variable, lengthening the distances between the points. Possible alternatives to apply in this case are reverse, logarithmic, square root transformations. The logarithmic transformation is the best to achieve the goal (asymmetry = 0.3 and kurtosis = 0.2).

The first graphic in figure 3 (the largest) is the one obtained with the logarithmic transformation to base 10. The other graphics correspond to the transformation performed when increasing the values to the square, square root, and inverse transformations, that improve the form of the distribution, although to a lower degree than the logarithmic one (asymmetry = 0.75 and 0.44, respectively). Finally, as an example of linear transformation, we have d the normal one. Obviously, it does not modify the shape of the distribution (same values of asymmetry and kurtosis).

In the case of the relationship between the turnover and wage variables, an application of a simple regression model is presented. As we have already highlighted, the size of the company (turnover) is the variable that shows a greater influence on the remuneration (in CEINSA's salary reports, for estimated market salaries we use multiple regression models).

Figure 4 shows the scatter diagram, that graphically represents the relation between both variables. We can observe how the influence of turnover over remuneration is evident. However, it is not a linear relationship, which would recommend carrying out some transformation.

The coordinates of the afore-mentioned graphic are defined horizontally by the amount of sales of the company in which the employee works and vertically by the yearly gross income the employee gets. As we can see, it produces a strong agglomeration in the lower left zone. The format of the presentation used does not correct this situation, since we are working with linear scales, built according to an arithmetical progression.

As we will see in the following graphics, the use of scales built with another type of progression produces noticeably different results. It can firstly be observed that the points are not found randomly distributed, showing a tendency of the remuneration to grow at the same pace as the turnover does.

In Figure 5 we have plotted a trend line, in which an increasingly decelerated curvature can be noted. This curvilinear shape that appears in the figure with a pronounced slope at the ning, progressively softening, is characteristic of the relation between the size of the company and the managers' income.

It remains clear that if we tried to represent the relationship between both variables by means of a straight line, we would obtain a poor adjust. For example, if we built the straight line on the initial stretch that groups the thickness of the observations, it would go out of the picture on the right side, that is to say, its prolongation would produce absurd remuneration for individuals who work in big companies.

Although at first sight it would not be noticed, the distribution that appears in Figure 6 is exactly the same as the two previous graphics. The difference is that in this case we use logarithmic scales to represent both variables.

Although the trend line observed in the previous graphic can be used to estimate the corresponding remuneration of a certain size of company, a straight line on the regression, like the one represented in figure 7, that can be expressed by means of a simple mathematical expression Y = K + b * X, is normally used instead.

The slope ("b" of the equation) of the straight line evidences a narrow relation between size of the company and remuneration, characteristic of the managerial positions. If we plotted the straight line on the regression for the different positions, we would observe that the influence of the size diminishes as we go down through the hierarchical scale.

After testing different alternatives, the logarithmic transformation is the best option to correct the asymmetry and the kurtosis, achieving a more than acceptable approach to a normal distribution. Besides, considering the relationship between variables, it allows turning a relation linear, which is not so in the original data.

This is a direct consequence of the fact that in a linear scale the distance between two quantities is proportional to the direct value of these. For example, regarding the volume of sales, the distance between 5,000 and 10,000 would be the same as between 35,000 and 40,000. On the contrary, in a logarithmic scale, the distance between two quantities is proportional to the logarithm of these. For example, between 1,000 (log = 3) and 10,000 (log = 4) the same distance exists as between 10,000 (log = 4) and 100,000 (log = 5). The graphic shown does not reach 100,000, but this equivalence can be observed, for example, between 200 and 300, 2,000 and 3,000, 20,000, and 30,000.

The first consequence of the logarithmic transformation is that the trend line that almost got into a potential curve earlier, gets now reasonably closer to the form of a straight line. Another consequence is that the agglomeration of points on the lower left extreme of the graphic is distributed in a more uniform way, which allows us to recover the graphic representation of the cloud of points, with an acceptable discrimination. The slope of the straight line evidences a close relationship between size of company and remuneration.

In conclusion, the logarithmic transformation is the one which best fulfils the purposes of this work, as much in the case of single-variable as in the relationship between variables.

Conflicto de intereses

El autor de este art铆culo declara que no tiene ning煤n conflicto de intereses.


Manuscrito recibido: 11/04/2013
Revisi贸n recibida: 06/08/2013
Aceptado: 06/08/2013

DOI: http://dx.doi.org/10.5093/tr2013a11

 

*La correspondencia sobre este art铆culo debe enviarse a Albert Fornieles Deu.
Facultad de Psicolog铆a. Edificio B Campus UAB. 08193 Bellaterra.
E-mail: Albert. fornieles@uab.cat

 

 


Referencias

CEINSA (1995). Pol铆ticas retributivas. Barcelona: Ceinsa.

CEINSA (2012). Informe de Remuneraciones. Barcelona: Ceinsa.

Dom猫nech, J. M. (1999). Introducci贸n al paquete estad铆stico SPSS en Ciencias de la Salud . Bellaterra: Universitat Aut贸noma de Barcelona.

Dom猫nech, J. M. (2000). Diagn贸sticos de una modelo de regresi贸n m煤ltiple. An谩lisis multivariante: Modelos de Regresi贸n . Barcelona: Signo.

Dom猫nech, J. M. y Sarri谩, A. (1995). M茅todos de estimaci贸n. An谩lisis multivariante: Modelos de Regresi贸n . Barcelona: Signo.

Fornieles, A., Cosculluela, A y Tubany, J. (2007). An谩lisis de Datos en Psicolog铆a. Barcelona: Editorial UOC.

Freixa, M., Salafranca, Ll. Gu谩rdia, J., Ferrer, R. y Turbany, J. (1992). An谩lisis Exploratorio de Datos: Nuevas t茅cnicas estad铆sticas . Barcelona: PPU.

Levin, R. I. (1998). Estad铆stica para administradores (7陋 ed.). New Jersey, NJ: Prentice.

Moore, D. (1993). Decisions Through Data . Colecci贸n de v铆deos. Barcelona: Fundaci贸 per la UOC.

Norusis. (2011). SPSS Base 19.0. Chicago: Autor.

PE (2006). Remunerations survey. London: PE.

Pe帽a, D. y Romo, J. (1997). Introducci贸n a la Estad铆stica para Ciencias Sociales . Madrid: McGraw Hill.

Salvador, F. (1996). Quantificaci贸 de les observacions, escales de mesura . Barcelona: Edi UOC.

Tukey, J. W. (1977). Exploratory Data An谩lisis . Reading, MA: Addison-Wesley.

Watson Wyatt (2004). Informe de Remuneraciones. Barcelona: Watson Wyatt.

Copyright © 2018. Colegio Oficial de Psicólogos de Madrid

© Copyright 2018. Colegio Oficial de Psicólogos de Madrid ContactPrivacy PolicyCookies Policy

We聽use聽our聽own聽and聽third颅party聽cookies.聽The聽data聽we聽compile聽is聽analysed聽to聽improve聽the聽website聽and聽to聽offer聽more personalized聽services.聽By聽continuing聽to聽browse,聽you聽are聽agreeing聽to聽our聽use聽of聽cookies.聽For聽more聽information,聽see聽our cookies policy

Aceptar
h**a**