¿Existe el muestreo semiprobabilistico?

Esta es la pregunta que Carlos Javier Bastardo lanzó en el grupo Estadística para todos de Linkedin y que generó 38 comentarios. Tal y como apuntó uno de los participantes en el debate, la pregunta es sencilla, la respuesta no lo es.

Tal como indicábamos en un post anterior, las fichas técnicas deben mencionar la metodología de selección de la muestra. Al revistar varias fichas técnicas de estudios de mercado cuantitativos, encontramos que la terminología utilizada para ello es muy variada, hay quien habla de muestreo cuasi probabilístico, multietápico, muestreo de diseño híbrido o modelo de diseño de muestra asistido.

¿Son todos ellos muestreos semiprobabilísticos?

Jorge Alberto Vujosevich, en su respuesta razonó que hablamos de diseños muestrales probabilísticos cuando se conoce la probabilidad de cada elemento de la población para entrar en la muestra, cuando desconocemos esta probabilidad, hablamos de  muestreo no probabilístico. Desde este punto de vista, se dice que una muestra es "representativa" cuando goza de las mismas características que la población, es decir, las distribuciones de frecuencias para todas las variables son iguales. Obviamente esta es una situación ideal. Las distribuciones de las variables en la muestra podrían ser muy parecidas/similares a las de la población y aceptamos que la muestra es representativa y podemos trabajar con ella para extrapolar las conclusiones a la población. En los diseños probabilísticos se puede estimar la diferencia entre la distribución en la muestra y en la población (error muestral), con cierto grado de probabilidad/confiabilidad.

Como en raras ocasiones se puede aplicar un muestreo probabilístico, los investigadores construimos muestras que sean representativas, al menos en un grupo de variables. O sea, que las distribuciones de frecuencias de algunas variables (no todas) sean parecidas/similares a la población.

¿Es correcto denominar a estas muestras semi-probabilísticas?

Tal como indica Joaquín Muñoz, entonces estamos ante un muestreo multietapico, donde en las primeras etapas se utiliza muestreo probabilístico y en la última o ultimas uno no probabilístico, generalmente por cuotas.

Pero cuando utilizamos modelos multietápicos, es necesario indicar la metodología de selección muestral aplicada en cada una de las etapas. Y en sentido estricto, estamos ante una muestra no probabilística.

Tal como añadió al debate Hugo Casanova existe un precedente bibliográfico, éstas fueron sus palabras: “Cooperaré con la discusión haciendo referencia a un texto ya clásico de los maestros Azorín y Sanchez-Crespo (padre), "Métodos y Aplicaciones del Muestreo" donde señalan que Cochran, Mosteller y Tukey llaman muestreo «semiprobabilístico superior» cuando se conoce la probabilidad de extracción de una cierta parte o segmento de la población, pero no de un elemento dentro de él, y, «semiprobabilístico inferior» cuando se conoce la probabilidad de extracción de los elementos dentro del segmento, pero no la de este. Para que el muestreo sea probabilístico ha de ser semiprobabilistico «superior e inferior». 

Un ejemplo del primero consistiría en la selección aleatoria de manzanas (urbanas) de una ciudad, dejando a la decisión o arbitrio de los entrevistadores, la selección de cierto número de viviendas o de familias dentro de las manzanas elegidas. En el segundo, la selección de los municipios de un país que nos parezcan más típicos o representativos, efectuando dentro de estos una selección aleatoria de explotaciones agrícolas (por ejemplo)”

Por último, en el debate se trató sobre la pertinencia y motivo de estos muestreos “cuasi probabílisticos”. La conclusión es que estos tipos de muestreo, al incluir alguna etapa en la que la selección muestral sí ha sido probabilística, ofrecen una mejor imagen, como si fueran de mayor calidad que las selecciones muestrales por cuotas u otras muestras no probabilísticas. En cuanto a la pertinencia, parece que no nos queda más remedio que aplicarlos, puesto que las muestras aleatorias simples hace años que no se utilizan por su coste en unos casos y por la imposibilidad de aplicarlos la mayoría de veces.

Pero recuerda, no es correcto en estos casos calcular el error y la significación, a pesar de que es una práctica habitual y en los casos en los que se presenta, se debería indicar lo siguiente: “si la muestra se hubiese obtenido por un muestreo aleatorio simple, el error sería de…”

¿Te interesa profundizar en el tema? Aquí te dejo el link al Libro “Métodos y aplicaciones de muestreo” de Francisco Azorín y José Luis Sanchez-Crespo (1995).

Deja un comentario