sábado, 25 de octubre de 2014

¿Por qué hay artículos científicos que avalan la homeopatía, acupuntura, reiki, etc? #La Ciencia y sus Demonios #noticias


Cualquiera que haya buscado en internet sobre cualquier tema sobre salud (o incluso aunque no) habrá podido comprobar la enorme cantidad de remedios milagrosos, curalotodos y demás estafas que, bajo la cobretura de una palabrería de apariencia científica, pululan por la red. Para el común de los mortales, muchas veces es difícil distinguir cuándo el remedio de turno es legítimo y cuando no es más que un sacacuartos. Esto es especialmente cierto cuando algunas de estas pseudoterapias es respaldada por algunos médicos, tal y como sucede con la homeopatía, la acupuntura, quiropráctica, reiki, los antineoplasmones de Burzynski, etc. Sus defensores “médicos”, muchas veces con formación científica, se encargan de producir una gran cantidad de estudios que demuestran las bondades de su terapia favorita. Estos estudios, a su vez, son usados por los defensores, vamos a llamarles “amateurs”, que aparecen en cualquier blog que los critique con argumentos como “pues mira el artículo XXX publicado en la revista YYY”.



En la mayoría de los casos, una primera lectura del artículo presentado por el magufo de turno ya es suficiente para ver una gran cantidad de deficiencias. Normalmente estos artículos tienen un número muy pequeño de casos, no tienen en cuenta el efecto placebo, no usan el doble ciego, las técnicas estadísticas son deficientes, etc. Sin embargo, entre toda la morralla que hay en estos campos, sí podemos encontrar algunos casos puntuales de estudios bien hechos, con un número adecuado de casos, considerando placebo, etc. Lo curioso es que, en la mayoría de los casos, cuando otro grupo intenta replicar esos resultados obtiene resultados negativos. ¿Por qué sucede esto? ¿Quién tiene razón, el que encuentra que el tratamiento es eficaz, o el que no?


Para poder explicarlo, primero tenemos que entender qué es lo que realmente se hace en un estudio clínico. Cuando un paciente recibe un tratamiento y se cura, en realidad no sabemos si se ha curado por el tratamiento o por cualquier otra causa. De la misma manera, si el paciente no mejora, no podemos asegurar que el tratamiento no sea efectivo. Tal vez factores que ignoramos han contribuido al fracaso. ¿Cómo podemos saber entonces si un tratamiento merece la pena o no? Pues la manera de hacerlo es administrándoselo a muchos pacientes y comparando cómo reaccionan esos pacientes frente a los que no lo han recibido o han recibido otro, al que llamaremos grupo de control. Si el grupo que ha recibido el tratamiento tiene más casos de curaciones o mejoras que el de control, ya podemos empezar a decir que la terapia funciona… bueno, no del todo.


Hay muchas cosas que tenemos que tener en cuenta antes de cantar victoria. Primero, nos tenemos que asegurar de que el grupo de control y el del tratamiento sean equivalentes para todos los factores que pueden influenciar el resultado (sexo, edad, otras enfermedades, nivel económico…). Por ejemplo, si en un grupo la edad media es mucho mayor que en el otro, es esperable que sus resultados sean peores, independientemente de la bondad del tratamiento. Muchas veces los factores que hay que controlar son muy sutiles, por lo que muchos estudios quedan invalidados al descubrirse algún factor que no se ha tenido en cuenta.


Pero incluso con un control estricto de todos los factores, todavía podemos tener problemas. Y eso es debido a las bases matemáticas en las que se fundamentan los estudios clínicos. En este tipo de trabajos, se comparan dos tratamientos (o un tratamiento y placebo), y se miden las diferencias entre los resultados de uno y otro grupo. Incluso si ambos grupos son exáctamente iguales, estadísticamente sería muy improbable que obtuvieramos exáctamente los mismos resultados, por lo que la pregunta fundamental que debemos responder no es ¿cuál es la diferencia entre ambos grupos? sino ¿son estas diferencias significativas o producto de fluctuaciones estadísticas?


Para contestar a esta pregunta se tienen en cuenta dos hipótesis diferentes. La primera se llama hipótesis alternativa, que es la que queremos “demostrar”: que nuestro tratamiento funciona y es mejor que el otro, o que nada. La segunda se llama hipótesis nula. Generalmente es “no existe diferencia entre el tratamiento y placebo”, o “el tratamiento A no es mejor que el tratamiento B”. Esta se considera cierta por defecto, y el resultado final no es una “demostración” de si el tratamiento funciona o no, sino cómo de probable es tener los resultados que hemos obtenido si la hipótesis nula es cierta. Hay muchas maneras de reportar esto, pero una de las más comunes es usar el factor p o factor de significancia. Su valor es, precisamente, la probabilidad mencionada. Aunque con ciertas críticas, en medicina se empiezan a considerar relevantes resultados con un valor de p<0.05, o sea, resultados con una probabilidad menor del 5% si la hipótesis nula fuera cierta.


Como esto es un poco abstracto, vamos a ver un ejemplo simple para ilustrarlo. Imaginemos que, para celebrar las visitas que tiene el blog, los colaboradores nos vamos a tomar unas cervezas. En un momento dado, y ya con unas cuantas jarras vacías, Ateo666666 y yo nos apostamos quién paga la cuenta a cara o cruz. Ateo saca una moneda, la lanza y sale cruz…¡mierda! me toca pagar. Sin embargo, yo no estoy muy convencido. Todos sabemos que los ateos son seres inmorales, mentirosos y beben sangre humana, así que tengo la seria sospecha de que Ateo ha usado una moneda trucada, así que me hago con ella para comprobarlo.


Mi intención para demostrar la perversidad de Ateo es lanzar la moneda cinco veces y comprobar cuántas veces obtengo cara y cuántas cruz. Aquí mi hipótesis nula es que la moneda es una moneda sin trucar y por lo tanto la probabilidad de obtener cruz es del 50%. Mi hipótesis alternativa es que la probabilidad de obtener cruz es mayor del 50%. Así que empiezo a lanzar la moneda. La primera sale cruz, eso tiene una probabilidad del 50% (p=0.5). La segunda, también cruz, p=0.25. La tercera, p=0.125, la cuarta, p=0.0625 y la quinta cruz consecutiva tiene una significancia de p=0.03125. Ahí está mi prueba de la infamia de Ateo, así que corro raudo a denunciarle ante el resto de colaboradores para expulsarle por su inmoralidad.


Pero resulta que Manuel, que es un escéptico malvado, no está tan convencido como yo, y me pide la moneda para repetir el experimento él mismo. Lanza la moneda cinco veces y obtiene cara tres veces y cruz dos. La probabilidad de sacar cruz dos o más veces lanzando una moneda sin trucar cinco veces es de p=0.8125. ¿Cómo puede ser esto? Observad que mi resultado es poco probable, poco más del 3%, pero no especialmente difícil. ¿Puede ser que la moneda sea justa y yo haya obtenido simplemente un resultado extremo? ¿O está trucada y ha sido Manuel el que ha obtenido un resultado extremo? ¿A cuál de los dos experimentos debemos creer?


Para resolver el dilema, nombramos juez a J.M.. Para determinar qué creer ante estos resultados, J.M. decide hacer el equivalente a una revisión sistemática de estudios. En estas revisiones, un autor o grupo de autores recolecta los datos de todos los experimentos pertinentes y analiza estadísticamente sus resultados teniendo en cuenta la calidad de cada uno, el número de casos representados, los factores que se han tenido en cuenta, etc. En nuestro ejemplo la situación es mucho más simple. Ambos experimentos son idénticos y tienen el mismo número de casos, así que podemos analizarlos de forma sencilla. J.M. se da cuenta de que ambos resultados pueden ser considerados como resultados parciales de un experimento en el que se haya lanzado la moneda 10 veces, obteniendo cruz 7 veces y cara 3. En estas circunstancias, nuestro factor p es de 0.1719. Es decir, con una moneda que tenga una probabilidad del 50% de obtener cruz, este resultado, o uno más extremo, tiene una probabilidad de obtenerse de casi el 17.2%. Así que por mucho que me pese, me toca pagar la ronda de cervezas y ofrecer una disculpa a Ateo por haber dudado de su honradez.


Así, este es, básicamente, el motivo por el que hay algunos estudios bien realizados en los que se encuentran efectos significativos de terapias evidentemente inútiles, como la homeopatía, la acupuntura, aromaterapía, etc. Además, este efecto se ve exacervado por el llamado sesgo de publicación. Si alguien pretende publicar en una revista prestigiosa que el cáncer no se puede curar con agua mágica, ¿qué respuesta puede esperar? ¿Has descubierto que clavar una aguja en la ingle no cura el asma? Buena suerte intentando publicar eso. En cambio, un resultado sorprendente sí tiene mucha más aceptación. De forma que, cuando uno revisa los artículos publicados sobre una determinada terapia, no está obteniendo una muestra significativa, sino una sesgada hacia la existencia de un efecto terapeutico.


Nota:

Si alguien quiere calcular las probabilidades por su cuenta, en el caso de la moneda se debe usar la distribución binomial.



La Ciencia y sus DemoniosFuente
La Ciencia y sus Demonios / facebook.com / twitter.com / youtube.com
La primera gran virtud del hombre fue la duda y el primer gran defecto la fe (Carl Sagan)