Ceguera para ver bien

Posted on Posted in Ciencia

 

Lento pero seguro, me resigné al hecho de que, para algunos fanáticos de la medicina alternativa, ninguna explicación será suficiente. Para ellos, la medicina alternativa parecía haberse transformado en una religión, una secta cuyo credo central debe ser defendido a toda costa contra el infiel”.

Edzard Ernst[1]

 

Si no entiende esto puede costarle la vida, como le ha costado a muchos. Por eso le suplico que lo lea, por más largo o difícil que sea.

Un año nos dicen que una prueba ha demostrado que tomar café dos veces al día evita cierta condición y al año siguiente nos dicen lo contrario. Leemos que tomar ciertos productos combaten tal o cual condición y al año siguiente nos dicen que no son efectivos.

Los medios están llenos de estas cosas: hace poco una presentadora de TV española publicó a los cuatro vientos que el limón curaba el cáncer. ¿De dónde sacó tal cosa? Naturalmente los que tienen algo que ganar o perder se referirán al estudio que les convenga para promover su causa (digamos, vender limones), que en muchas ocasiones es independiente de la salud pública. ¿Cómo procedemos para saber si algo es cierto o no? La respuesta no es difícil: lo ponemos a prueba. ¿Usted asevera tal o cual cosa?: ¡Demuéstrelo, poniéndolo a prueba!

No necesitamos mucha prueba ni albergamos dudas cuando se trata de cosas que son evidentes y para las cuales conocemos lo que ocurre. Poner la mano sobre una hornilla encendida causa quemaduras, cuanto más caliente o más sea el tiempo de contacto, más seria la quemadura y nadie lo duda, la cosa es directa y el efecto contundente. Además, sabemos lo que ocurre; entendemos lo que pasa cuando ponemos un churrasco sobre las brasas.

La cosa se pone menos clara si pretendemos que fumar un cigarro con ciertas hierbas especiales, (la moxibustión), cerca del dedo pequeño del pie de una mujer embarazada, causa que el feto que está presentando “de nalgas” (podálica) cambie a posición “de cabeza” (cefálica). No es chiste, un resultado así ha sido publicado en una revista[2]. Queremos entender cómo es que algunos investigadores pueden concluir tal cosa, o concluir que una persona tiene poderes “paranormales”. No basta con darle el tratamiento a una persona o dos, y constatar que han mejorado, (anécdotas y testimonios que escuchamos a diario, pero que no demuestran nada aunque sean muy persuasivos). No tenemos manera de saber si se hubieran mejorado de todas formas, o si mejoraron por otros factores que se desconocen. Tampoco es suficiente que el “vidente” tenga una racha de aciertos, esas cosas ocurren al azar y sin un cuidadoso análisis estadístico no se puede concluir mucho.

Hay ocasiones en que la ceguera es necesaria para ver las cosas como son. Tiene que ver con el hecho de que en muchas situaciones operan sesgos cognitivos, comenzando con la influencia de nuestras expectativas sobre nuestras cogniciones. Si usted espera que la comida sea muy buena, tenderá a percibirla como muy buena, y también se dará lo contrario.

Por eso es que para muchas pruebas se recurre a la ceguera. En una prueba de distintos vinos, le servimos al catador, pero no le dejamos ver la botella (mejor que ni vea el vino), lo cegamos. Para evitar cualquier indicio, (por medio de lenguaje no verbal involuntario), que pueda influenciar el juicio, cnviene también que el que sirva el vino no sepa cuál es, y así realizamos una prueba doblemente ciega. Para evitar algún sesgo en los catadores les asignamos un vino recurriendo a una lotería, y así realizamos una prueba aleatoria doblemente ciega. Si luego de estos cuidados metodológicos, y asegurándonos que se ha realizado un número razonable de pruebas, encontramos que un vino sale consistentemente mejor catalogado que otro, podremos asumir que realmente hay una diferencia.

En una investigación criminal, a un testigo se le presentan fotografías de posibles sospechosos, o se le presentan varios sospechosos en una alineación para ver si reconoce a alguno(a). En estos casos también es recomendable la ceguera, ya que hay muchas formas verbales y no-verbales en las cuales el investigador, que posiblemente sospeche de alguien en particular, puede influenciar a la víctima. Es preferible que el investigador no sea el que conduzca la entrevista.

El efecto placebo, junto a la remisión espontánea de algunas condiciones, juega un papel muy importante al considerar muchas terapias que en ocasiones parecen funcionar y llevan a la conclusión errónea de que la terapia fue la causa de la mejoría. Es por esto que los estudios experimentales de efectividad de una medicina o terapia deben realizarse como “estudio aleatorizado doblemente ciego con control de placebo” en el cual ni los participantes ni los investigadores saben a cuál grupo pertenecen los participantes.

doble ciego

pruebaEn estos estudios se utilizan dos (o más) grupos, uno de “tratamiento” y otro de “control” cuyos miembros son seleccionados aleatoriamente, escogidos para que sean comparables en todas las características pertinentes (edades, sexo, condición física, salud, etc.), formando dos muestras de una población. Se le administra el tratamiento al grupo de tratamiento y al grupo de control se le administra un placebo que simula el tratamiento, ya sea una píldora de azúcar, una inyección de solución salina, o agujas de acupuntura que no penetran, para así determinar la efectividad de la terapia o medicamento al comparar los resultados para los dos grupos.

La aleatorización al escoger a cuál grupo pertenece un participante es el mejor modo (aunque no es perfecto) de evitar que otros factores (algunos desconocidos) afecten los resultados, ya que se presume que estos factores estarán presentes en cantidades comparables en ambos grupos, siempre que los grupos sean suficientemente numerosos.

Este tipo de ensayo clínico es el que se requiere de la industria farmacéutica por las autoridades que reglamentan las medicinas (en EE.UU. es la FDA, Food and Drug Administration, en Europa la EMA, Agencia Europea de Medicamentos). Se critica cómo estas agencias no son independientes, cómo se realizan estos estudios, cómo los intereses industriales tratan de controlar los resultados y evitar resultados adversos. Pero al menos hay algo. Se conocen casos de actuaciones indebidas por parte de las compañías farmacéuticas, pero se conocen gracias a que investigadores dedicados no se dejaron intimidar[3].

Lo que es difícil de entender es la razón por la cual otros productos, que se mercadean como si fueran medicinas (productos homeopáticos, suplementos nutritivos, vitaminas), que dicen “promover”, “aliviar”, “mejorar”, o “ayudar”, no se someten al mismo examen. Bueno, no es tan difícil de entender: cuando en 1938 el congreso de los EE.UU. promulgó el Federal Food, Drug and Cosmetic Act, que autoriza a la FDA a evaluar la seguridad de alimentos, drogas y cosméticos, el entonces senador por Nueva York, Royal Copeland, médico homeopático, logró relevar de estas exigencias a todos los productos listados en la Homeopathic Pharmacopeia, y así hasta el presente.

Existe una industria paralela a la farmacéutica que está “por la libre”. Vaya a una tienda “naturista” y verá una abundancia de potes con todo tipo de productos que dicen ser buenos para algo, sin que nadie lo haya puesto a prueba. Lo curioso es que pocos protestan por la falta de control y prueba de la eficacia de estos productos, y muchos se tragan las pastillas sin saber lo que se tragan. En el caso de remedios “homeopáticos” ni pruebas hay que hacer, ya que por muy buenas razones no pueden ser efectivos.

Tengo un suplemento a base a hierbas: “Digesplex, formula digestiva*”, que se mercadea como producto para ayudar a la digestión. El asterisco en la etiqueta lleva a un texto en letra chica que dice: “Esto no ha sido evaluado por la FDA. Este producto no es para diagnosticar, tratar, curar, o prevenir una enfermedad.” Es una aclaración obligada para estos suplementos. Pero si el producto “no es para diagnosticar, tratar, curar, o prevenir una enfermedad”, ¿Entonces para que rayos es? Muchos de estos productos se mercadean anunciando que sirven para una larga lista de condiciones. Cuanto más larga la lista más cuestionable el producto. Cuando algo sirve para todo lo más probable es que no sirva para nada.

Paul Offit[4], autor importante en relación al tema dice: “Es necesario enfocar en la calidad de los estudios científicos. Y cuando estos estudios no existen, debemos insistir en que se realicen. Si no, seguiremos engañándonos por terapias cuyos reclamos son ilusorios.

Ante el resultado de una prueba, experimento o encuesta en la cual medimos para dos muestras de una población el valor promedio de la cantidad de interés (colesterol en la sangre, nivel de dolor, acierto de una carta, etc.), la primera pregunta pertinente (aceptando que las muestras fueron obtenidas correctamente) es la siguiente: ¿Cuál es la probabilidad de que el resultado – muchas veces la diferencia entre el valor estimado de un parámetro para un grupo tratado y uno no tratado de control, o un grupo expuesto y uno no expuesto – sea meramente producto del azar?

La pregunta surge dado que dos muestras de una misma población no darán exactamente el mismo resultado, especialmente cuando se trata de grupos de personas que difieren unas de otras en muchas propiedades, y en la forma que responden a tratamientos. Si la probabilidad es alta de que la diferencia observada entre las dos muestras sea producto del azar, entonces no hay nada más que buscar. Pero si la probabilidad es baja, da lugar a pensar que la diferencia puede no ser producto del azar, por lo cual se investigarán los factores que causaron la diferencia y posiblemente se pueda pensar que el tratamiento es la causa de la diferencia observada, o que el sujeto realmente tiene poderes paranormales.

La hipótesis que los resultados no difieren de los esperados al azar, es decir que no hay un efecto, se denomina hipótesis nula (nula en el sentido de ningún efecto o consecuencia) y se escribe H0 (se dice hache sub cero). En un juicio la hipótesis nula es que el acusado es inocente. Luego, la acumulación de evidencia y testimonios se compara con lo esperado si fuera inocente, y puede resultar en un veredicto de culpabilidad “más allá de duda razonable”.

La significancia p de una prueba es la probabilidad de que el resultado tenga al menos el valor obtenido, dado que la hipótesis nula es cierta. Por ejemplo, si H0 es “el medicamento no baja el colesterol” y en la muestra tratada obtengo en promedio un colesterol 10% más bajo, p es la probabilidad de que este resultado se obtenga si el medicamento no baja el colesterol y se trata meramente de un resultado del azar.  Se estipula típicamente (por tradición) p=0,05 (95%) o p=0,01, (99%) con lo cual se quiere decir que en el primer caso la diferencia encontrada (en la estadística de interés) tiene una probabilidad de una en veinte de ocurrir al azar y en el segundo probabilidad de una en cien de ocurrir, si H0 fuera cierta (es decir la diferencia fuera solamente producto del azar). Pero no significa que los datos no pueden ocurrir si H0 es cierta (solamente tienen baja probabilidad), por lo cual no dicen que H0 es falsa.

Suponga que usted quiere examinar si una moneda está equilibrada, y esa es su H0. Realiza una prueba y lanza la moneda 4 veces y obtiene 4 caras. La probabilidad de obtener cuatro caras al azar en una moneda equilibrada es (1/2)4=1/16, es decir que solamente espera este resultado una vez en 16 pruebas (de lanzar la moneda cuatro veces) o en 6% de las veces (p=0,06). ¿Concluye entonces que la moneda no es una moneda equilibrada (rechaza H0)? No tan rápido. Si usted repite la prueba cien veces espera que en seis salgan cuatro caras puramente por azar, y la prueba que usted hizo puede ser una de ellas. En este caso, es posible hacer la prueba 100 veces, y resolver la duda. En los casos de pruebas clínicas no es tan fácil. Sirva esto como cautela al evaluar un resultado estadístico (donde en la mayoría de los casos no se realizan cien ni diez estudios).

Una diferencia estadística significativa entre dos resultados con un nivel de p= 0,05 (nivel aceptado en las ciencias sociales y en medicina) indica lo siguiente: si suponemos que los dos grupos proceden de muestras aleatorias que representan la misma población cuyas propiedades se pueden estimar a partir de las propiedades de las muestras y si suponemos que hemos realizado 100 pruebas con dos grupos de esta misma población, entonces esperaríamos que la diferencia encontrada entre los dos grupos sea igual o mayor que la encontrada en solo 5 de los 100 casos.

En las ciencias físicas se exigen niveles de significancia de 1 en 10000 en vez de 1 en 20 y eso es una gran diferencia. El problema es que 0.05 es muy laxo, especialmente cuando se trata de cosas que son contrarias al conocimiento científico y es la razón de tantos resultados espurios.

Cuando un estudio epidemiológico concluye que tomar una copa de vino al día es bueno para la salud, (resultado de algún estudio en el cual se informó el valor de p, aunque la prensa solamente diga “resultados significativos”), o que la moxibustión es efectiva, lo único que está señalando es que se encontró una diferencia y más nada. No significa que tomar una copa de vino al día causa buena salud, que es como usualmente se reporta y entiende el resultado, o que la moxibustión causa la mejor presentación del feto.

Una diferencia significativa, no quiere decir que la H0, (tomar una copa de vino al día no afecta la salud), sea falsa.  Además, si fuera falsa (es decir que es cierto que los que toman una copa de vino al día son más sanos), puede muy bien ser consecuencia de otros factores que son causas contribuyentes (a su vez relacionadas al tomar vino) que, por ejemplo, podrían estar relacionadas a que los bebedores de vino son en promedio personas de un nivel social distinto y con mejor acceso a servicios de salud.

Un resultado estadísticamente significativo poco dice si no se tiene información adicional, y sirve solamente como punto de partida para realizar más estudios. La situación cambia cuando se obtienen varios resultados similares independientes, y es la razón por la cual los resultados científicos importantes requieren al menos un estudio que confirme los resultados iniciales.

Hay una documentada tendencia, por parte de las revistas científicas a preferir la publicación de resultados positivos, lo cual a su vez causa que muchos resultados negativos ni se manden para publicación, generando lo que se conoce como el “efecto del archivo” (un error de selección). Se prefiere publicar un artículo[5],[6]: Estudio indica la efectividad de X, que un artículo: Estudio indica la inefectividad de X, a menos que X sea algo ya establecido o controversial).

Este efecto conduce a viciar los resultados de meta-estudios o revisiones sistemáticas de la literatura. Como ejemplo extremo suponga que, de 100 estudios, 95 no rechazan H0 y no se publican y 5 que por azar dan resultados estadísticamente significativos (p=0,05) se publican.[7] Puede ver el problema.

El Dr. Ben Goldacre relata en su importante libro[8] que, basado en un estudio clínico de la efectividad de la droga anti depresiva “reboxetine”, la recetó a un paciente. El estudio, realizado con 254 pacientes, había sido publicado en una revista académica. Más tarde, un grupo de investigadores pudo determinar que existían otros seis estudios, totalizando diez veces más pacientes que el estudio positivo, cuyos resultados fueron negativos, pero no fueron publicados. Reboxetine no es efectiva más allá del placebo.

Las pruebas de significancia son particularmente importantes cuando no se entiende o se entiende poco lo que está pasando (ocurre con la evaluación de terapias o medicamentos, las prácticas de agricultura, psicología experimental, ciencias sociales) y es necesario establecer un efecto.

Cada vez que una prueba en el área paranormal ha dado resultados marginalmente positivos, estudios que han buscado replicar los resultados han determinado de que se trata de falsos positivos. Los siguientes criterios adicionales sirven para evaluar la significancia de un resultado y decidir cuándo sería convincente para considerar el rechazo de H0:

  • ¿Cuál es la plausibilidad de H0? Si H0 es algo establecido, entonces se necesitará un valor de p muy pequeño para rechazarla. Consideraremos algo como extraordinario si contradice mucho de lo que sabemos del mundo. El lema es: resultados extraordinarios requieren prueba extraordinaria.
  • ¿Cuáles son las consecuencias de rechazar H0? Si rechazar H0 implica aceptar algo que no tiene un buen fundamento y ni tan siquiera sea plausible (como percepción extra sensorial o moxibustión) entonces es posible que no se deba considerar, y que sea mejor alternativa aceptar que ocurrió algo de baja probabilidad que no necesita explicación (o que hubo fraude o mal diseño experimental).

En resumen: Un resultado con cierto valor alto de significancia (valor de p pequeño) solamente nos permite decir que si la hipótesis nula H0 es cierta (que solamente se trata de lo esperado al azar) entonces ocurrió algo inusual (que tiene una probabilidad p de ocurrir) o acaso que H0 es falsa, pero no prueba más nada. Menos cuando se utiliza un p=0.05 lo cual para muchos estudios no es adecuado.

Aclaremos una cuestión semántica: interpretamos “significante” como “importante” o “grande” pero no son lo mismo. Además de la significancia estadística interesa la magnitud de la diferencia. Un estudio puede resultar en una diferencia significativa (p=0,05) en algo (es decir que probablemente hay una diferencia), y no por eso es una diferencia importante. Una crema para la piel que dice: “Su uso hará que se vea 10 años más joven” implica un efecto importante, mientras que si dijera: “Su uso hará que se vea un mes más joven”, no será de gran interés por más que la prueba que se haya realizado sea estadísticamente significativa (sin entrar en cómo se determinaría “más joven”).

Ante cualquier aserción que diga que tal o cual cosa causa tal o cual otra pregunte: ¿Cómo lo saben?

Aunque en muchos casos no conocemos el mecanismo (por ser multifactorial y complejo) por el cual se produce un efecto (cómo exactamente fumar causa cáncer), o no existe un mecanismo (como en el caso de la moxibustión o la homeopatía), en otros conocemos los mecanismos y nos asombraríamos si no se produjera un efecto (como lo es el caso del calentamiento global por el mecanismo del efecto invernadero). Encontrar un nexo con mecanismos conocidos es la forma más segura de evaluar la importancia del resultado.

Dudar de la realidad del nexo entre el calentamiento global y la emisión de CO2 (establecido por cientos de estudios independientes), no solo es irracional, sino que es estúpido y perverso, (Lo cual no quita que unos cuantos estúpidos y perversos lo nieguen).

Por eso le presento una de las gráficas más terribles del mundo. Son los resultados de la medida del aumento de la concentración de dióxido de carbono en la atmósfera, medidos en Mauna Loa. Son tan precisos que hasta muestran la oscilación anual por el crecimiento de plantas en el verano de hemisferio norte. Cualquiera que sabe algo de atmósferas planetarias entiende que esto causa el ineludible aumento en su temperatura superficial. La curva roja representa el promedio de la emisión cumulativa anual de CO2 medida de la combustión de combustibles fósiles y la fabricación de cemento. (vea aquí).

carbonf

Cuando los resultados de estudios estadísticos van en contra de los intereses de algún grupo (político, religioso, industrial, empresarial), se recurre a “sembrar la duda” por parte de científicos prostituidos, políticos corruptos y relacionistas públicos, buscando o fabricando un resultado contradictorio (por más que sea uno en mil) y enfocando en la incertidumbre que siempre estará presente. En su importante libro “La duda es su producto” David Michaels[9] cita de un documento de 1969 de Brown and Williamson (productores de Kool, Lucky Strike, Pall Mall y Viceroy, entre otros): “La duda es nuestro producto, ya que es la mejor forma de competir con los hechos que existen en la mente del público, Es también la manera de establecer una controversia.

 

[1] Edzard Ernst (2015). A Scientist in Wonderland. Academic

[2] Vas J, Aranda- Regules JM, Modesto M, et al. Acupuncture in medicine: journal of the British Medical Acupuncture Society. 2013;31(1):31-8.

[3] Ben Goldacre (2012). Bad Pharma: How Drug Companies Mislead Doctors and Harm Patients.  Faber and Faber.

[4] Paul A. Offit (2013). Do you believe in Magic? The Sense and Nonsense of Alternative Medicine. Harper.

[5] TED. Ben Goldacre http://www.ted.com/talks/ben_goldacre_battling_bad_science?language=en.

[6]http://www.ted.com/talks/ben_goldacre_what_doctors_don_t_know_about_the_drugs_they_prescribe.

[7] Robert Rosenthal (May 1979). “The file drawer problem and tolerance for null results”. Psychological Bulletin 86 (3): 638–641.

[8] Ben Goldacre (2013). Bad Pharma: How Drug Companies Mislead Doctors and Harm Patients. Faber and Faber. pág. 6.

[9] David Michaels (2008). Doubt is their Product. Oxford University Press. pág.11.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *