Mostrando las entradas con la etiqueta Big Data. Mostrar todas las entradas

domingo, 29 de julio de 2018

Generales: Según Big Data, Napoleón fue el mejor general de la Historia

Napoleón fue el mejor general de todos los tiempos, y las matemáticas lo demuestran

Ranking cada * general en la historia de la guerra

*Casi todos

Ethan Arsht | Towards Data Science

Cuando [Escipión el] Africano preguntó quién, en opinión de Aníbal, era el general más grande, Aníbal [Barca] lo nombró a Alejandro [Magno] ... en cuanto a quién ocuparía el segundo lugar, Aníbal seleccionó a Pirro ... y le preguntó a Aníbal quién era el tercero, se nombró a sí mismo sin titubear. Entonces Escipión se echó a reír y dijo: "¿Qué dirías si me hubieras derrotado?"

- Livio

Al igual que Aníbal, quería clasificar a los líderes poderosos en la historia de la guerra. A diferencia de Aníbal, busqué utilizar datos para determinar las habilidades de un general, en lugar de las cuentas específicas de los logros de los generales. El resultado es un sistema para clasificar a cada comandante prominente en la historia militar.

El método

Inspirado por la sabermetrics del béisbol, opté por usar un sistema de Wins Above Replacement (WAR). WAR se usa a menudo como una estimación de las contribuciones de un jugador de béisbol a su equipo. Calcula las ganancias totales agregadas (o restadas) por el jugador en comparación con un jugador de nivel de reemplazo. Por ejemplo, un jugador de béisbol con 5 WAR contribuyó con 5 ganancias adicionales para su equipo, en comparación con las contribuciones promedio de un jugador de ligas menores de alto nivel. WAR está lejos de ser perfecto, pero proporciona una forma de comparar jugadores en base a una estadística.

Adopté WAR para estimar las contribuciones de un táctico militar dado por encima o por debajo de un general promedio. Mi modelo, que explico a continuación, proporciona una estimación del desempeño de un general promedio en cualquier circunstancia. Luego puedo evaluar la calidad de un general en función de cuánto excedieron o no alcanzaron a un general de reemplazo en las mismas circunstancias (suponiendo que un general de reemplazo se desempeñara en un nivel promedio). En otras palabras, encontraría la WAR de los generales en guerra.

¡Chequee el gráfico interactivo aquí!

Los datos

Mi primer desafío fue construir un conjunto de datos confiable. Como no pude encontrar un conjunto completo de datos de batallas históricas, decidí construir el mío. Utilicé las listas de batallas de Wikipedia como punto de partida. Aunque no es exhaustivo, las listas de Wikipedia incluyen 3.580 batallas únicas y 6619 generales, que proporcionaron una muestra suficiente para crear un modelo. Luego desarrollé una función que podría raspar información clave para cada batalla, incluidos todos los comandantes implicados en la batalla, las fuerzas totales disponibles para esos comandantes y el resultado de la batalla. El conjunto de datos resultante proporcionó una gran muestra de batallas para crear un rendimiento de referencia (nivel de reemplazo), contra el cual compararía el rendimiento de generales individuales.

Muestra de datos de batalla en Wikipedia, antes de raspar

Muestra de datos de batalla eliminados y procesados en el marco de datos

Luego construí un modelo lineal a partir de esa muestra de batallas. Para cada batalla, separé las fuerzas de los combatientes en infantería, caballería, artillería, fuerza aérea y armada. Podría entonces ponderar la ventaja numérica o la desventaja de un general en comparación con su adversario, y aislar mejor la habilidad del general como táctico. El modelo resultante fue sorprendentemente conservador en sus pesos, lo que sugiere que las cantidades de soldados en bruto tienen un efecto relativamente pequeño en comparación con otros factores como el terreno o la tecnología, que la investigación adicional podría investigar con más detalle. En este proyecto, sin embargo, los resultados pueden inflar la importancia de la agudeza táctica de un comandante en comparación con otros factores.

Estaba listo para clasificar a cada general y profundizar en los resultados. Lo hice aislando las batallas de cada general y asignando un puntaje WAR a su actuación en cada batalla. Por ejemplo, el emperador francés Napoleón ganó .49 WAR por su victoria en la Batalla de Borodino. Dado que las tropas francesas superaron ligeramente en número a las fuerzas del Imperio ruso, el modelo le da a un general de reemplazo en la posición de Napoleón un 51% de posibilidades de victoria. El sistema WAR le asigna a Napoleón 1 victoria por su victoria, pero resta la posibilidad de que un general de reemplazo hubiera ganado de todos modos. Por lo tanto, Napoleón gana .49 victorias por encima del reemplazo.

El sistema usa una metodología similar para manejar derrotas. Por ejemplo, al general ruso Mikhail Kutuzov, uno de los adversarios de Napoleón en la Batalla de Borodino, se le atribuyó -.49 GUERRA del enfrentamiento. Al sufrir la derrota, logró -1 de victoria, pero hay un 51% de posibilidades de que un general de reemplazo haya perdido de todos modos.

Los resultados

Entre todos los generales, Napoleón tuvo la mayor WAR (16.679) por un amplio margen. De hecho, el siguiente jugador con mejor rendimiento, Julio César (7.445 WAR), tenía menos de la mitad de la WAR acumulada por Napoleón en sus batallas. Napoleón se benefició de la gran cantidad de batallas en las que lideró las fuerzas. Entre sus 43 batallas enumeradas, ganó 38 y perdió solo 5. Napoleón superó las dificultades en 17 de sus victorias, y comandó en desventaja en todas sus 5 derrotas. Ningún otro general se acercó a Napoleón en batallas totales. Mientras Napoleón comandaba fuerzas en 43 batallas, el siguiente general más prolífico era Robert E. Lee, con 27 batallas (el conteo promedio de batallas era de 1.5). El gran conteo de batallas de Napoleón le permitió más oportunidades para demostrar su destreza táctica. Alejandro Magno, a pesar de ganar todas sus 9 batallas, acumuló menos WAR en gran parte debido a su carrera más corta y menos prolífica.

La altura de Napoleón era de 1,45m, ligeramente más alta que la media de su tiempo.

Sin embargo, fuera del éxito periférico de Napoleón, las WAR de los generales se adhieren en gran medida a una distribución normal. Esto sugiere que su éxito es atribuible al talento de comando, más que a una anomalía en los hallazgos del modelo. De hecho, el WAR total de Napoleón fue de casi 23 desviaciones estándar por encima de la media WAR acumulada por los generales en el conjunto de datos.

Napoleón es un gran atípico con casi 17 guerras

También hubo generales que tenían una WAR total sorprendentemente baja a pesar de su reputación como maestros tácticos. Robert E. Lee, comandante del Ejército de los Estados Confederados, terminó con una WAR negativa (-1.89), sugiriendo que un general promedio habría tenido más éxito que Lee al frente de los ejércitos de la Confederación. Lee estaba cargado de desventajas considerables, incluido un gran déficit en el tamaño de su ejército y los recursos disponibles. Sin embargo, su reputación como táctico experto probablemente no se merezca, y su WAR apoya a los historiadores que han criticado su estrategia general y el manejo de batallas clave, como ordenar el desastroso 'Pickett's Charge' en el último día de la Batalla de Gettysburg. En palabras del profesor de la Universidad de Carolina del Sur, Thomas Connely, "uno considera si al sur no le hubiera ido mejor si no hubiera poseído a Robert E. Lee".

El mariscal de campo alemán Erwin Rommel, apodado el "Zorro del Desierto" por sus éxitos en el norte de África durante la Segunda Guerra Mundial, también tuvo un mal desempeño en este modelo, terminando con -1.953 WAR. Este hallazgo cuestiona los elogios que Rommel recibió como táctico de los generales modernos, incluidos Norman Schwarzkopf y Ariel Sharon. Sin embargo, al igual que Lee, Rommel ha sido objeto de considerable debate histórico. En particular, los críticos han atribuido gran parte de su reputación como genio táctico tanto a la propaganda alemana como a la de los aliados. Según informes, los generales británicos exageraron las habilidades tácticas de Rommel para minimizar la desaprobación con respecto a sus derrotas.

Los generales modernos tuvieron un desempeño relativamente pobre en el modelo. El general estadounidense George S. Patton, descrito por el historiador Terry Brighton como "uno de los más grandes generales de [la Segunda Guerra Mundial]", acumuló solo .9 WAR. El fracaso de los generales modernos para desempeñarse bien en la WAR puede atribuirse a los cambios en la guerra que han impedido que los generales individuales participen en una gran cantidad de batallas.

Moshe Dayan aumentó su WAR ganando la Guerra de los Seis Días, a pesar de una desventaja numérica

Entre los generales posteriores a la Segunda Guerra Mundial, los comandantes israelíes se destacaron. El líder militar israelí Moshe Dayan finalizó con 2.109 WAR (60º general), una cantidad impresionante para un general moderno pero relativamente modesto en comparación con los tácticos anteriores al siglo XX. De manera similar, el ex primer ministro israelí Ariel Sharon acumuló 2.171 WAR (58° general) por sus éxitos en el campo de batalla en la Guerra de Seis, la Guerra de Seis Días y la Guerra de Yom Kippur.

Finalmente, comparé la evaluación de Aníbal de los mejores generales de todos los tiempos con mi modelo. Según la WAR, Aníbal subestimó sus propias habilidades. De todos los generales hasta la fecha, Aníbal tuvo la mayor WAR en 5.519 (6º general). Alejandro Magno, a quien Aníbal llamó el general más importante, estaba justo detrás de la marca de Aníbal con 4.391 WAR (décimo general). Sin embargo, Alejandro murió después de luchar solo 9 batallas, ganando todas. Aníbal tuvo 17 batallas para acumular valor, ganando 13, perdiendo 2 y empatando 2. Por lo tanto, estoy de acuerdo con la evaluación de Aníbal de que Alejandro era el táctico más hábil, aunque Aníbal proporcionó más valor total: Alejandro demostró su habilidad para ganar batallas, y probablemente habría seguido ganando si no hubiera sucumbido a la enfermedad.

Representación de la Batalla de Cannas, una victoria decisiva para Aníbal contra los cónsules romanos Varro y Paulus

Mis hallazgos difieren radicalmente de la evaluación de Aníbal con respecto a Pirro de Epiro, un general griego y un rival romano temprano. Mi modelo acredita a Pirro con solo 3 batallas y -0.53 de WAR. Aunque Aníbal atribuye a las tácticas militares innovadoras de Pirro, soy profundamente escéptico con respecto a su perspicacia táctica general, incluso antes de considerar su incapacidad para evitar bajas catastróficas a sus ejércitos durante sus victorias.

Este proyecto y las visualizaciones resultantes con suerte proporcionan una forma divertida e interesante de explorar y comparar el éxito relativo de los generales. WAR proporciona un paradigma útil para comparar empíricamente generales, aunque las investigaciones futuras podrían mejorar este modelo al expandir el conjunto de datos o al considerar otros factores, como la fuerza del oponente. Por favor, juegue con la visualización, y si está buscando un general específico, simplemente escriba la URL 'https://ethanarsht.github.io/military_rankings/***.html', donde *** es el nombre del general , exactamente como aparece en Wikipedia.

ACTUALIZACIÓN 12/11: En base a los comentarios de muchas personas cuyo trabajo respeto bastante, quise explícitamente exponer algunas advertencias al análisis anterior. En primer lugar, esta pieza pretende ser un experimento de pensamiento divertido, no una clasificación definitiva, o una contribución académica al campo de la historia militar. Creo que algunos de los resultados de este proyecto, especialmente Lee y Rommel, proporcionan datos interesantes para discusiones más amplias sobre sus habilidades tácticas. De ninguna manera afirmo que mi análisis proporcione la imagen completa, o algo cercano a ella.

Además, dado que confío mucho en Wikipedia para los datos y la categorización de esos datos, hay agujeros e incoherencias en mis entradas. Dada mi falta personal de recursos, es inverosímil para mí llevar a cabo un proyecto de esta escala mientras verifico la precisión de cada punto de datos.

Finalmente, debo reiterar que mi clasificación es del valor agregado táctico de un general, no de sus habilidades estratégicas generales, o de quién ganaría en una hipotética carrera mano a mano con equipos y tropas igualados.

Una vez más, creo que la gran mayoría de los lectores interpretaron esta pieza como quería: un experimento mental con resultados interesantes e interactividad entretenida. Gracias a todos los que leyeron la pieza y / o respondieron.

ACTUALIZACIÓN 12/8: Por demanda popular, la visualización ahora incluye WAR promedio por batalla. Simplemente coloque el cursor sobre el punto de un general y aparecerá 'WAR por batalla' en la ventana emergente.

Además, algunas personas han tenido problemas para navegar por el desorden de un repositorio de GitHub asociado con el proyecto. He puesto dos hojas de cálculo importantes en este Google Drive: una con todos los datos de número de tropas y otra con los resultados de WAR para cada batalla.

ACTUALIZACIÓN 12/6: Quería responder a algunas líneas razonables y persistentes de crítica constructiva que he recibido en los últimos días.

¡Datos perdidos! Varias personas han señalado con precisión los combates / generales desaparecidos en los datos, particularmente en relación con los mongoles, incluidos Genghis Khan y Subutai. Este es un problema importante, y se debe a mi dependencia de las listas de batallas de Wikipedia. Esto es algo que debería haber capturado antes, y planeo actualizar el conjunto de datos para incluir una mayor cantidad de batallas. Sin embargo, manejar estos datos requiere una gran cantidad de entrada / limpieza manual de datos, y me tomará un tiempo considerable antes de poder agregar una actualización importante al conjunto de datos.

Estrategia versus táctica: La gente ha argumentado que un general estaba subestimado / sobrevalorado debido al resultado final de sus campañas. Estoy muy específicamente preocupado con la agudeza táctica de un general, y no su toma de decisiones estratégicas. Por lo tanto, Napoleón no debería perder el crédito por su desastrosa campaña en Rusia, ni George Washington debe obtener crédito por su enfoque estratégico de la Guerra Revolucionaria Americana.
Wins Above Replacement versus Wins Above Average versus Wins Probabilidad añadida: Quienes están familiarizados con la sabermetrics de béisbol han señalado rápidamente que mi modelo no refleja el enfoque de Wins Above Replacement en todos los aspectos, ya que WAR de béisbol utiliza un genérico de primer nivel. jugador de ligas menores como su línea de base. Simplemente asigné la calidad promedio como mi nivel de reemplazo. Posiblemente no sea completamente exacto, pero creo que está bastante claro lo que estoy usando como referencia en la metodología anterior.

Gracias a aquellos de ustedes que han brindado críticas constructivas.

Blogs FDRA