¿Amigo o enemigo? Entrenando a una IA para decidir en milisegundos

Neurotheon es un experimento de IA que entrena a un sistema de defensa para distinguir entre enemigos, aliados y neutrales en un entorno incierto a traves de reinforcement learning.

jul 15, 2025

En los sistemas modernos de defensa, saber cuándo disparar es tan importante como saber a quién. Los entornos tácticos actuales están llenos de incertidumbre: aliados que cruzan el campo de visión, enemigos ocultos tras la niebla electrónica (parcialmente invisibles al radar), y reglas de enfrentamiento que cambian en tiempo real según las condiciones. Esto obliga a que no podamos fiarnos únicamente de reglas fijas.

Así nace Neurotheon, un experimento para entrenar un sistema de defensa autónomo capaz de tomar decisiones complejas por sí mismo. El objetivo es que aprenda a distinguir entre enemigos, aliados y objetivos neutrales, y que actúe de forma estratégica, segura y explicable.

Neurotheon es una palabra inventada a partir de dos raíces griegas: (1) “Neuro”, por las redes neuronales que forman la base del sistema de aprendizaje; y (2) “Theon”, derivada de theos (dios) o theon (deidad), en alusión a entidades con poder de juicio, control y acción.

A diferencia de los sistemas tradicionales de identificación amigo-enemigo, que funcionan con reglas predefinidas, Neurotheon aprende desde cero. Utiliza un enfoque de aprendizaje por refuerzo (reinforcement learning), basado en ensayo, error y recompensas cuidadosamente diseñadas. No le decimos qué hacer, sino que le enseñamos a evaluar las consecuencias de sus decisiones.

El cerebro detrás de Neurotheon

Para que Neurotheon aprenda a decidir, no lo programamos con reglas fijas. En lugar de decirle qué hacer, lo colocamos en un entorno simulado donde debe actuar, observar las consecuencias, y aprender de ellas. A esto se le conoce como aprendizaje por refuerzo (reinforcement learning).

En este paradigma, un agente (el sistema) interactúa con un entorno. En cada momento, observa lo que tiene alrededor, elige una acción (disparar, esperar, apuntar en dos direcciones), y recibe una recompensa que le dice si su decisión fue buena o mala. Con el tiempo, ajusta su comportamiento para maximizar las recompensas acumuladas.

Nuestro algoritmo: Proximal Policy Optimization (PPO)

El algoritmo que usamos para entrenar al agente es PPO (Proximal Policy Optimization). Es uno de los métodos más robustos y estables dentro del aprendizaje por refuerzo.

La función de pérdida que optimiza se define como:

\( L_{\text{PPO}}(\theta) = \mathbb{E}_t\left[ \min \left( r_t(\theta) \hat{A}_t,\ \text{clip}\left(r_t(\theta),\ 1 - \epsilon,\ 1 + \epsilon\right) \hat{A}_t \right) \right]\)

La función de pérdida en PPO le enseña al agente cuánto y cómo debe ajustar su comportamiento después de cada episodio. En pocas palabras:

Si una acción que tomó funcionó mejor de lo esperado, el agente refuerza esa decisión y la vuelve más probable en el futuro.
Si una acción resultó peor, el agente la corrige y reduce su tendencia a repetirla.
Pero, para evitar que los cambios sean demasiado agresivos o inestables, se impone un límite de cuánto puede modificar su comportamiento en cada paso.

Esto permite un aprendizaje continuo, pero controlado. El agente mejora sin olvidar lo que ya aprendió ni reaccionar de forma impulsiva a una sola experiencia.

La red neuronal del agente

Desde el punto de vista computacional, el agente es una red neuronal del tipo MLP (Multi-Layer Perceptron). Esta red actúa como su "cerebro", procesando lo que ve y decidiendo qué hacer.

Entrada: una cuadrícula de 31×31×3, donde cada canal representa la presencia de enemigos, aliados y la propia torreta.
Arquitectura: dos capas ocultas de 256 neuronas con activaciones ReLU.
Salida: una de 37 posibles acciones: quedarse quieto, disparar en una dirección o disparar en dos direcciones combinadas.

Esta red se entrena episodio tras episodio, ajustando sus parámetros con los gradientes calculados por PPO, hasta que la torreta aprende a responder de forma táctica y precisa, incluso bajo incertidumbre.

¿Qué le enseñamos a este agente?

Lanzar al sistema en medio del caos desde el inicio no habría funcionado. Por eso usamos un enfoque progresivo llamado curriculum learning, inspirado en cómo se entrena a soldados o pilotos: primero lo básico, luego situaciones complejas.

Dividimos el entrenamiento en cinco fases, donde cada una introduce un nivel mayor de dificultad:

3 enemigos, rutas rectas, visión completa, sin enfriamiento
5 enemigos, movimiento en zigzag
7 enemigos, trayectorias en espiral, sensores con menor alcance
9 enemigos, se reduce cuántas veces seguidas puede disparar
11 enemigos, visión mínima, trayectorias impredecibles

El cambio entre fases ocurre automáticamente tras cierto número de pasos de entrenamiento. Este proceso ayuda al agente a desarrollar primero habilidades básicas (como no disparar a aliados), antes de enfrentar condiciones reales en las que debe tomar decisiones bajo presión e incertidumbre.

Entrenamiento en acción

Antes de entrar en los detalles del razonamiento del agente y los errores más frecuentes, te mostramos cómo se ve Neurotheon en acción.

En este video podrás ver una sesión real de entrenamiento, donde el agente enfrenta múltiples amenazas en tiempo real. Cada episodio se desarrolla con reglas distintas, sensores limitados y enemigos que se comportan de forma cada vez más impredecible.

Observa cómo el agente toma decisiones tácticas:

Evalúa si debe disparar o esperar
Evita fratricidios en situaciones inciertas
Aprende a responder bajo condiciones adversas, con aliados cerca y bajo presión

El video está acelerado para resaltar las decisiones más interesantes del agente. A lo largo del episodio verás cómo su puntería, cautela y precisión se desarrollan a medida que aprende del entorno.

¿Qué significan esos cuadros rojos que aparecen por momentos en el video?

(No, no hablo de los enemigos…)

Lo que ves aquí es un mapa de saliencia generado durante la fase 5 del entrenamiento. Esta cuadrícula representa la atención del agente en un momento específico, justo antes de tomar una acción.

Las zonas en rojo no son objetivos; son las áreas del entorno que más influyeron en su decisión. Mientras más intenso el color, mayor fue el peso que el modelo asignó a esa región al decidir si disparar, esperar o girar.

Es una forma de ver qué estaba pensando el agente en ese instante.

Ejemplo del mapa de saliencia durante la fase 5.

¿Qué aprendió el agente y qué podemos mejorar?

Durante el entrenamiento, observamos una evolución progresiva en las capacidades del agente a lo largo de los cinco hitos curriculares definidos. Gracias al entorno enriquecido con visión parcial, movimiento complejo de enemigos, y penalizaciones por fuego amigo, el agente desarrolló comportamientos no triviales y adaptativos:

Lo que funcionó bien:

Mejora progresiva y consistente en precisión y eliminación de enemigos durante los primeros tres hitos del curriculum. El agente aprendió a priorizar blancos visibles y usar eficientemente los disparos duales.
Adaptación al “fog of war”: el agente internalizó el rango sensorial, disparando únicamente cuando las condiciones de visibilidad lo permitían.
Uso estratégico del disparo doble en fases avanzadas, con picos notables en precisión y maximización de recompensa.
Gestión del riesgo: frente a mayor densidad enemiga, el agente adoptó una postura más defensiva, enfocándose en sobrevivir antes que eliminar, evidenciando una estrategia emergente.

Oportunidades de mejora:

Aliados alcanzados: el número de impactos a aliados no disminuyó significativamente. Esto sugiere que el agente aún no diferencia correctamente entre enemigos y aliados en condiciones complejas.
Recompensa por episodio estancada: a pesar de matar más enemigos, la recompensa no muestra una mejora clara, debido a:
- Penalizaciones constantes por fuego amigo.
- Incapacidad del agente para cubrir múltiples frentes bajo presión.
Sensibilidad al cambio de curriculum: cada transición curricular provoca caídas abruptas en desempeño, especialmente al introducir cooldowns y patrones erráticos de movimiento en los enemigos.

Conclusiones y siguientes pasos

Este experimento demuestra que, incluso en entornos complejos con múltiples amenazas, aliados y condiciones cambiantes, es posible entrenar agentes capaces de desarrollar estrategias emergentes mediante aprendizaje por refuerzo.

El uso de curriculum learning permitió una progresión controlada en la dificultad, y herramientas como saliency maps nos ayudaron a interpretar las decisiones del agente de forma transparente.

Si bien se lograron avances significativos en precisión, adaptación y control del entorno, persisten desafíos clave como la diferenciación confiable de entidades y la optimización de la recompensa total, lo que abre camino a futuras mejoras.

Próximos pasos

Introducir visión más rica (RGB o multicanal) y atención visual
Entrenamiento con múltiples agentes cooperativos
Técnicas de regularización para evitar retrocesos bruscos ante cambios de fase
Mejora de la penalización por fuego amigo con diferentes mecanismos

Todo el código, y modelos se encuentran disponibles en el repositorio de GitHub: https://github.com/dgarciarieckhof/neurotheon

The Data Chronicles

Discusión sobre este post