Tarea 3: Fraude y mala praxis en IA/Deep Learning: el caso de un libro de Machine Learning retractado por citas inventadas

1) LECTURAS (ETIQUETA “(2) FRAUDE” DEL E-LIBRO)
He revisado las 7 entradas del e-libro bajo la etiqueta “(2) Fraude”. La primera es más general y las siguientes entran en aspectos más concretos (algunas en formato infografía con poco texto). He leído con profundidad 3–4 de ellas, centrando la atención en:

- Qué se considera fraude / mala praxis y por qué no es solo “falsificar datos”.
- Por qué puede haber resultados publicados erróneos y cómo influyen incentivos y sesgos.
- La importancia de transparencia, reproducibilidad y la publicación de resultados negativos.
- La diferencia entre corregir, emitir una nota, y retractar (retraction) cuando el problema es estructural.


2) CASO ELEGIDO (CERCANO A IA/DEEP LEARNING)
Caso: Retractación de un libro de Machine Learning en una editorial académica por contener referencias/citas inventadas o gravemente erróneas.

Resumen:
En 2025 se publicó un libro de Machine Learning (nivel “de básicos a avanzado”) en una editorial académica. Se detectó que una parte significativa de su bibliografía incluía citas inexistentes o incorrectas (referencias que no se pueden localizar, atribuciones mal asignadas, datos bibliográficos incoherentes, etc.). Tras la revisión y el proceso editorial correspondiente, el libro terminó marcado como “retractado” (RETRACTED BOOK) en la web de la editorial.

Por qué es un caso relevante para nuestra disciplina:
- El problema ocurre dentro de Machine Learning, es decir, en el núcleo de IA (no es un tema “de fuera”).
- La bibliografía en IA/DL funciona como base para aprender, reproducir métodos y contextualizar afirmaciones. Si las citas son falsas o irreales, se rompe el puente entre el texto y el conocimiento verificable.
- Es un tipo de mala praxis “moderna”: no se trata necesariamente de inventar resultados experimentales, sino de inventar soporte bibliográfico (autoridad académica artificial), algo especialmente peligroso si se ha usado IA generativa sin verificación humana rigurosa.


3) COMENTARIO DEL CASO EN RELACIÓN CON LAS LECTURAS

3.1) Fraude vs. “fraude blando” y el papel de la verificación
Una idea fuerte de las lecturas es que el fraude no es solo fabricar datos: también incluye manipular el proceso científico o presentar como sólido algo que no lo es. En este caso, aunque no se está falsificando un dataset, sí se está degradando la integridad del documento mediante referencias falsas o no verificadas.

En IA esto es crítico porque:
- Mucha gente aprende por “papers + repos + bibliografía”.
- Las citas dan legitimidad a afirmaciones técnicas.
- Si la bibliografía falla, el lector no puede comprobar el origen de ideas, ni separar lo consolidado de lo especulativo.

Por tanto, la bibliografía no es un adorno: es parte del “método” y de la rendición de cuentas científica.

3.2) “Publicado” no significa “verdadero” (y no solo en papers)
Otra tesis recurrente de las entradas es que una parte relevante de lo publicado puede ser erróneo por incentivos, prisas, sesgos o fallos de revisión. El caso lo ilustra en un formato diferente a un paper: un libro con sello editorial también puede tener fallos graves si la revisión/edición no detecta problemas básicos.

En IA/DL hay presión por producir:
- artículos,
- tutoriales,
- libros,
- contenido formativo “rápido”.

Esa presión puede incentivar la velocidad sobre la verificación, y en ese contexto los errores (o atajos) se escalan con facilidad.

3.3) Transparencia, reproducibilidad y cultura de “contar lo que no sale”
La lectura sobre resultados negativos y sesgo de publicación se centra en experimentación, pero su filosofía aplica aquí: la ciencia robusta exige trazabilidad. En IA/DL, la trazabilidad incluye:
- que las referencias existan realmente,
- que se pueda acceder a los trabajos citados,
- que el contenido esté respaldado por fuentes verificables.

Si una parte del texto se apoya en citas inventadas, se produce una ilusión de rigor similar al “cherry-picking”: parece sólido, pero no lo es. Aunque no sea un experimento, el mecanismo es parecido: construir una narrativa “bonita” sacrificando verificabilidad.

3.4) Corrección vs retractación: por qué este caso acaba retractado
Las entradas que hablan de correcciones/retractaciones diferencian errores menores de problemas estructurales. Un error puntual se corrige; una base defectuosa compromete el documento entero. En este caso, si el problema es sistemático (múltiples citas inexistentes), afecta a la confianza global del libro: el lector no sabe qué partes están sólidamente apoyadas y cuáles no.

Además, aunque se retracte, queda el problema del “efecto zombi”: copias descargadas, citas ya hechas, material que circula. En IA esto es especialmente fuerte porque el contenido se replica en PDFs, repositorios y mirrors.

Conclusión parcial:
La retractación sirve como mecanismo de higiene científica, pero llega tarde. Por eso la prevención (verificación y transparencia desde el principio) es más eficaz que la corrección a posteriori.


4) APRENDIZAJES Y BUENAS PRÁCTICAS PARA IA / DEEP LEARNING (A PARTIR DE LAS LECTURAS)

1) Verificación bibliográfica obligatoria:
- Comprobar DOI/arXiv/URL, autores y título real.
- No dar por buena una cita “porque suena creíble”.

2) Responsabilidad humana explícita:
- Usar herramientas (incluida IA) no exime de revisar.
- Si se usa IA para redactar, la revisión de bibliografía debe ser humana y sistemática.

3) Reproducibilidad y trazabilidad como norma cultural:
- En papers y proyectos de DL: código, seeds, configs, datasets, y claridad sobre qué condiciones reproducen el resultado.
- Evitar claims inflados y reportar límites.

4) Aceptar correcciones sin defensividad:
- Corregir rápido, documentar cambios, y si el problema es estructural, retractar es mejor que sostener un registro científico contaminado.


5) CONCLUSIÓN GENERAL
Este caso demuestra un tipo de mala praxis muy relevante para IA/Deep Learning: fabricar o no verificar el soporte bibliográfico, creando una apariencia de rigor que no se puede comprobar. Conecta con las lecturas del e-libro en dos ideas centrales: (1) el fraude y la mala praxis no son solo falsificar datos, también son romper mecanismos de verificación; y (2) el ecosistema científico necesita transparencia, trazabilidad y mecanismos formales (corrección/retractación) para sostener la confianza.

En una disciplina como IA, donde la velocidad de producción es altísima y la presión por “resultados bonitos” es real, el caso refuerza una lección práctica: la integridad no es solo ética abstracta, es un requisito técnico para que el conocimiento sea reutilizable, reproducible y fiable.

Comentarios

  1. Excelente. En todo el ecosistema científico y su necesidad de integridad es obvio que ya había porblemas, pero la irrupción de la IA de uso general está suponiendo una revolución en estas cuestiones...

    ResponderEliminar
  2. Excelente análisis y caso de fraude científico. Es muy acertado cómo conectas la teoría de la asignatura con la realidad actual de la IA. Me quedo con tres puntos clave:

    La bibliografía no es relleno: Como bien dices, en Deep Learning la trazabilidad es parte del método. Una cita inventada es un "bug" en el sistema de conocimiento.

    Negligencia automatizada: El caso que expones de 2025 alerta sobre un nuevo tipo de fraude: confiar ciegamente en la IA para validar ciencia. La responsabilidad de verificar siempre debe ser humana.

    El "efecto zombi": Es preocupante que, aunque se retracte el libro, el error ya esté indexado o clonado en repositorios. Esto refuerza que la prevención y el rigor en la revisión son nuestra única defensa real.

    Gran aporte para entender que la integridad académica en nuestra disciplina es, ante todo, un control de calidad técnico.

    ResponderEliminar

Publicar un comentario

Entradas populares de este blog

Un modelo matemático de riesgo–recompensa para la decisión de mus en el juego del Mus

¿Cómo podemos enseñar a las máquinas a aprender de forma más inteligente y eficiente?