Medidas de tendencia central para datos no agrupados: media, mediana y moda. Similitudes, diferencias y cuidados al calcularlas

Ésta es la entrada 82 del blog. La dedicaremos a las medidas de tendencia central. Como otros temas sobre los que he escrito, parecería que éste pudiera limitarse a poner un ejemplo en el que quede muy claro cómo se calculan la media, la mediana, la moda y ¡listo! Ya lo dominamos.

Quizá para contestar un examen sencillo sí, pero nuestro aprendizaje quedaría muy limitado a lo mecánico (ver más sobre aprendizaje eficiente aquí). Veamos qué más se puede decir de éstas medidas. Nos limitaremos a ver el tema con datos no agrupados, en una entrada posterior lo revisaremos con datos agrupados.

¿Qué significa “medidas de tendencia central”?

Bueno, no hay ningún significado oculto, pues el nombre lo dice: son medidas que nos permiten conocer las características de un conjunto de datos porque miden, de diferentes formas, hacia qué valor tiende (se acerca) el centro de ese conjunto de datos.

bayesian-2889576_640_optEsto es, las medidas de tendencia central ayudan a entender cómo se comportan los datos, siempre y cuando su distribución sea relativamente normal, es decir, que los datos que más se repiten estén más al centro. Si los graficáramos según su frecuencia, se verían más o menos como en la imagen.

El tema pertenece a la estadística, que busca las características típicas de un conjunto de datos y que retomaremos más adelante, incluyendo la explicación más detallada de lo que pasa en esa imagen.

¿Cuáles son las tres medidas de tendencia central más usadas? ¿Cómo se calculan?

Media. Se suman todos los datos y se dividen entre el número de datos.

Mediana. Se acomodan todos los datos en orden ascendente y se encuentra el dato central, que está en medio de ellos.

Moda. Es el dato que más se repite.

Listo… terminamos… hasta el siguiente miércoles…
.
.
.
Es broma, hay mucho más qué decir. Veamos

Media

También conocida como media aritmética, promedio aritmético o simplemente promedio. No es indispensable acomodar los datos en orden para calcularla, pero si se hace, puede multiplicarse cada dato por su frecuencia, para hacer más rápido la suma.

Los datos recabados como cero no modifican la suma, pero sí cuentan para determinar el número entre el que se divide, por lo que sí modifican el promedio.

Se puede considerar el centro de gravedad de toda la distribución, pues en ella se representan todos los valores observados.

La media puede servir para representar un conjunto de datos. Por ejemplo, si en un grupo las personas tienen una estatura cuya media es 1.50 m, entonces el 1.50 m representa la estatura de todos, aunque puede no ser la estatura de ninguno en particular.

Si la media de temperatura de un mes fue 35°, sabremos que fue un mes caluroso, aún sin conocer las temperaturas diarias.

En muchas ocasiones, es suficiente con esa información para tomar decisiones, por eso es tan importante saber calcularla bien.

boy-and-girl-2734392_640_optConocer la media de un grupo es bueno para saber si un dato está por encima o por debajo de ella y qué tanto. Por ejemplo, con el dato de que la media de estatura de un niño a los 2 años es 88 cm, podemos saber si nuestro hijo de esa edad está muy por debajo o muy por arriba de esa medida y pensar si es necesario consultar al pediatra a ese respecto.

También facilita la comparación de dos grupos mediante un solo dato. Si la altura promedio de los hombres de 15 años es mayor que la altura promedio de las mujeres de 15 años, se puede conjeturar a partir de solo esos dos datos que, en general, los hombres de 15 años son más altos que las mujeres de esa edad.

La media aritmética sirve, además, para realizar una partición equitativa (yo agregaría que debería usarse sólo para algo que no dependa del esfuerzo individual directamente). Como cuando se reparten las propinas en un restaurante. Si todos se esforzaron más o menos igual, es una buena idea que las propinas se repartan parejo entre todos.

chicken-4392550_640_optA propósito de eso, escuché un chiste que dice: la estadística es la ciencia que señala que, si tú te comiste dos pollos y yo me comí cero pollos, en promedio cada uno comió un pollo y estamos muy bien alimentados. Realidades y opiniones aparte, hay que saber calcular e interpretar con cuidado los datos estadísticos.

Mediana

También conocida como media posicional, por ocupar el centro de los datos.

Más formalmente, se puede definir como el lugar del valor central de una sucesión. La divide en un número igual de valores anteriores y sucesores.

Realmente no importa si los datos se ordenan de forma ascendente o descendente, pues la mediana corresponderá al mismo valor.

Si el número de datos es non, la media corresponderá a un único valor. Si es par, corresponderá al promedio entre los dos valores centrales.

Para localizar el dato que corresponde a la mediana, se puede usar el método artesanal de ir tachando pares de números de cada orilla hasta llegar al dato o los datos del centro.

O se puede hacer el siguiente cálculo para identificar a qué posición de los datos ordenados le corresponde el valor de la media: (número de datos + 1) / 2.

Notarán que si el número de datos es non, la división dará un resultado entero, que será la posición donde está el dato que corresponde a la mediana. Si hay 9 datos, el dato que corresponde a la mediana está en la posición (9 + 1) / 2 = 5

Si el número de datos es par, la división dará un resultado a medio camino entre dos enteros. La mediana será el promedio de las dos posiciones correspondientes: si hay 10 datos, el cálculo da (10 + 1 ) / 2 = 5.5, que está a medio camino entre 5 y 6. Esas son las posiciones de los datos que es necesario promediar para obtener la mediana. Es frecuente que esos datos sean iguales y por ello no se requiera realmente ningún cálculo.

Ojo, en matemáticas hay al menos otra definición de mediana, en geometría, donde es, en un triángulo, la línea de unión entre el punto medio de los lados y los vértices opuestos. Son líneas que se cortan en el centro de gravedad del triángulo. Pero eso será tema de otra entrada.

Moda

Puede haber más de un dato que corresponda a la moda.

Si son dos datos, se considera una distribución bimodal. Si son más, multimodal.

Sirve para un objetivo distinto que las otras dos medidas, pues para ciertos objetivos puede ser más interesante saber qué dato se repite más que cuál es el promedio de los datos. Y si la moda es muy diferente a la media, se puede considerar que el comportamiento de los datos no es normal.

Comparemos las tres medidas de tendencia central

Ahora comparemos algunas de las características, lo cual nos permitirá comprender más a fondo estas medidas:

La media es un dato único.

La mediana también, aunque en ocasiones es necesario promediar dos datos.

La moda puede no ser un dato único, incluso puede llegarse al extremo de que todos los datos aparezcan la misma cantidad de veces, es decir, que su frecuencia sea la misma y cada uno de ellos forme parte de la moda.

 

Para obtener la media, no es trascendente que los datos estén ordenados al sumarlos (recuerden que el orden de los sumandos no altera la suma).

Para obtener la mediana, es indispensable que los datos estén ordenados.
El cálculo en sí de la mediana es más sencillo que el de la media, aunque el proceso de ordenar puede ser tardado si se hace a mano.

Para obtener la moda, sólo es necesario tener clara la frecuencia (número de veces que aparece) de cada dato, para identificar la mayor. No es indispensable ordenar ni por el valor de los datos ni por la frecuencia, aunque ayuda para saber si los datos que son la moda están cerca entre sí y del centro o de los extremos del listado.

 

La media puede verse afectada por datos extremos muy diferentes a los demás, que sesgan o alejan de la realidad el dato obtenido.

La mediana no se ve afectada por los datos extremos, muy diferentes al resto, pues sólo toma en cuenta el dato central.

La moda tampoco considero que se vea afectada por datos extremos, pues si son tan frecuentes como para aparecer como moda, entonces no creo que deban considerarse extremos.

Nota: las medidas de tendencia central se expresan en las mismas unidades que los datos a partir de los cuales se obtuvieron (año, kg, cm).

Otros conceptos relacionados

Frecuencia: número de veces que se repite un dato. Indispensable para identificar la moda y para el trabajo con datos agrupados que veremos en otra entrada.

Rango medio: (valor más alto + valor más bajo) / 2. Es otra medida de tendencia central, menos popular en los textos escolares. Indica el centro de los datos desde otra perspectiva, como el promedio de los valores mayor y menor. También se le conoce como medio rango.

¿Es suficiente con las medidas de tendencia central para saber cómo se comporta un conjunto de datos?

Puede no serlo, pues al estar enfocadas en el centro, se pierde el enfoque en los extremos. Es decir, se sabe cómo se comporta sólo el centro de los datos pero no el conjunto completo de ellos.

Para saber cómo se comportan los datos lejos del centro, están las medidas de dispersión, que indican qué tanto difieren los datos entre sí.

En esta entrada sólo mencionaremos una: Rango de variación. Como su nombre lo indica, señala la variación máxima de los datos y se obtiene restando al valor mayor el valor menor.

Mientras más pequeño sea el rango de variación, más homogéneo será el conjunto de datos, es decir, menos diferencia habrá entre los menores y los mayores.

Comparación de medidas de tendencia central y de dispersión

Este tema se enseña una y otra vez a lo largo de la educación básica y los alumnos lo entienden con relativa facilidad. Conviene entonces aprovechar para profundizar en las distintas características de cada una de las medidas de tendencia central, para que el aprendizaje sea menos superficial, y que se identifique que es una buena idea tomarlas en cuenta todas al mismo tiempo, para tener más claro lo que representan los datos analizados y poder tomar mejores decisiones con ellos.

Veamos esta tabla con 6 conjuntos de datos (A, B, C, D, E, F) y sus correspondientes medidas de tendencia central y rango de variación. Las fórmulas y procedimientos para calcular todas las medidas fueron previamente comentadas en esta entrada.

Al analizar toda la información, nos daremos cuenta cómo algunos conjuntos que generaron medidas iguales son muy distintos entre sí, lo cual nos permite entender que, en ocasiones, es necesario un análisis más profundo de los datos para tomar decisiones.

Tabla MTC

A falta de ejemplos en las secciones precedentes de la entrada, expliquemos aquí cómo se calculan todas las medidas para el conjunto de datos A:

La media se obtiene sumando 1 + 2 + 2 + 3 + 3 + 3 + 4 + 4 + 5 = 27 y dividiendo esa cantidad entre el número de datos: 27 / 9 = 3

La mediana se obtiene ordenando los datos (ya están ordenados) y ubicando el dato en la posición (9 + 1) / 2 = 5, según la fórmula que se presentó antes. El dato que está en la posición 5 es 3.

La moda es el dato que más se repite, que también es el 3.

El dato más pequeño es 1, el más grande es 5, por lo que el rango de variación es 4.

Ahora comparemos los distintos conjuntos de datos y sus medidas:

Los conjuntos de datos A, B y C tienen exactamente las mismas medidas de tendencia central y de dispersión, sin embargo los datos en sí son distintos. Eso será más o menos relevante dependiendo qué tipo de decisión se vaya a tomar.

Entre los conjuntos de datos D y E, ante un mismo rango y mediana, se nota que en el primero los datos está muy cargados hacia arriba del tres, mientras que en el segundo están cargados hacia abajo del tres.

Comparando las medidas del E y el F, podemos deducir que, aunque la moda es tres en ambos, hay más unos en el segundo caso, pues el promedio es menor.

En el G, aunque la moda es el uno, y la mediana es el tres, el promedio está muy por encima de ambos, por lo que se puede deducir que hay varios datos mucho más grandes que uno y tres.

¿Qué otras comparaciones interesantes se pueden hacer con éstos u otros conjuntos de datos?

Paréntesis importante: Las calificaciones y un promedio especial

Además de las tres medidas anteriores, existe un promedio especial: el promedio ponderado, en el que no todos los valores tienen el mismo peso. Se puede decir que no son igual de importantes.

En esos casos, a cada dato se le asigna su peso, que puede ser el porcentaje del valor final al que se llegará.

Pongamos un ejemplo, sin entrar en el debate de qué debería de tener más peso en la evaluación de un alumno, por favor. Eso queda fuera del alcance de esta entrada. Digamos que la calificación de un periodo en una materia está formada por:

40% Examen escrito
30% Proyecto
20% Tareas
10% Participación en clases

Suponiendo que la máxima calificación sea 10, como suele ser en México, si un alumno obtiene:

7 en el examen
8 en el proyecto
10 en las tareas
9 en la participación en clases

Su calificación sería: 7 * 0.4 + 8 * 0.3 + 10 * 0.2 + 9 * 0.1 = 8.1

¿Les ha pasado que algunos de sus alumnos consideren que las tareas suben, literalmente, su calificación del examen? No entienden que todo se promedia de forma ponderada, que es algo muy distinto a tomar la calificación del examen e irle agregando puntos por los demás rubros. Dedico algunos minutos cada semestre, y después cada periodo, para explicar y re-explicar esto.

El promedio de todas las materias sí suele ser un promedio aritmético, en el que todas las calificaciones valen lo mismo, aunque para algunas instancias (oficiales) ciertas materias no se tomen en cuenta.

Más ideas para abordar este tema

Bueno, dar un conjunto de datos y pedir que obtengan las tres medidas de tendencia central es lo que todo el mundo hace. ¿Qué más se les ocurre que se puede hacer? Además de proponerle a los alumnos que comparen casos como los presentados en la tabla, podemos preguntar, por ejemplo:

–El promedio de 16 datos fue 3, ¿cuánto suman los datos?

–Si se tienen 3 datos, la media es 4 y dos de los valores son 5 y 4, ¿cuál es el tercer valor?

–El dato de la mediana está en la posición 15 ¿cuántos datos son?

–Para este conjunto de datos, ¿qué dato debemos agregar para que la mediana y la moda sean iguales?  10 14 18 20

¿Sólo hay una respuesta para la pregunta anterior? ¡No! tanto si agregamos 14 como si agregamos 18, la moda y la mediana serían el número que agregamos.

quiz-1373314_640_opt–Si quieres lograr un 8 en tu promedio del periodo y has obtenido en las primeras 4 materias 6, 8, 9, 6. ¿Cuánto necesitas sacar en la que te falta?
Está bien, acepto que esa pregunta puede ser cruel. Pero también ubica a las personas en la realidad: es necesario esforzarse desde un principio y en todas las materias para obtener un buen promedio.

 

 

Para cerrar

Ésta fue una entrada que parecía que sería corta y no lo fue. También fue un poco rara porque prácticamente no incluye un ejemplo resuelto paso a paso de cada concepto por separado. Me pareció más funcional poner los ejemplos de la tabla todos juntos, explicando sólo el primero. Espero que también a ustedes les funcione bien.

Como siempre, gracias por leer y compartir. Confío en que el mensaje de que una buena relación con las matemáticas es posible llegue cada vez a más personas, y que las ideas que comparto sirvan de semilla para que ustedes generen muchas más, en beneficio de sus hijos y alumnos.

¡Hasta el siguiente miércoles!

Rebeca

PD: Quiero agradecer a estas páginas en las que me apoyo constantemente para redactar el blog: pixabay y webresizer

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios .