jueves, 26 de junio de 2014

Estadística exploratoria de la primera fase del mundial Brasil-2014 y SISTEMA DE GRÁFICOS BASE DE R (PARTE 1)

SE VIENEN LOS OCTAVOS DE FINAL DE LA COPA DEL MUNDO, BRASIL-2014; YA SE CONOCEN LOS 16 EQUIPOS CLASIFICADOS, PERO.....

CÓMO FUE SU RENDIMIENTO EN LA PRIMER FASE?
QUIEN HIZO MÁS GOLES? A QUIEN LE HICIERON MÁS GOLES?
QUIEN HIZO MÁS FALTAS? QUIEN MUERDE MÁS?



Entonces, con el fin de responder estas y otras preguntas, R para Chibchombianos vuelve con este nuevo post cargado de sed de goles y contento con la selección Chibchombia...
Aprovechando en esta ocasión los datos que brinda el mundial para, explicar los fundamentos de funcionamiento del SISTEMA DE GRÁFICOS BASE DE R.

En esta parte (parte 1) mostraré de los gráficos obtenidos usando el sistema base de R, utilizando los datos proporcionados por Google acerca de los equipos que clasificaron a octavos de final.
En la parte número 2 (siguiente post) explicaré como realizar los gráficos aquí mostrados con R y los parámetros básicos de gráficas en R.
(NOTA: por tal motivo no se afanen o se alarmen por el uso indiscriminado de colores ya que he utilizado diferentes colores y diferentes tipos de gráficos, olvidándome del "estilo correcto" de presentación de datos, en beneficio de explicar como cambiar parámetros de los gráficos en R)

A continuación como quedan las llaves (pueden hacer sus predicciones, al final de este post presento mi predicción INTUITIVA con base a los gráficos obtenidos y un poquito de amor a la camiseta):
Fuente: Google


1. EFECTIVIDAD DE LOS PAÍSES CLASIFICADOS (ANOTACIONES, GOLAZOS!):



En el gráfico se puede que, las tres selecciones con mayor número de goles anotados en la primera fase del mundial son Holanda, Colombia y Francia, con 10, 9 y 8 goles respectivamente, seguidas por Alemania, Suiza y Brasil, todas con 7 goles. Los equipos que menos anotaciones han convertido son Grecia y Nigeria, con 2 y 3 goles, respectivamente.

En cuanto a goles en contra se puede observar que Suiza y Argelia, son los equipos que más goles han recibido, con 6 y 5 goles respectivamente; seguidos por Estados Unidos, Uruguay y Grecia, con 4 goles. Por otra parte, los equipos que menos goles han recibido son Bélgica, Costa Rica y México (el arquero de México es tremendo), que solo recibieron un gol; mientras que Brasil, Colombia, Francia y Alemania recibieron 2 tantos.
Ahora bien, los goles a favor y en contra muestran la efectividad de sus delanteros y por otro lado las proezas de las defensas y los arqueros (sin tener en cuenta otro tipo de variables y condiciones), pero entonces para medir el equipo en su totalidad se utiliza la diferencia de goles (goles a favor - goles en contra = diferencia de goles), para la primera fase del mundial tenemos que, aunque Holanda haya anotado 1 tanto más que Colombia, también recibió un gol más, lo cual hace que sean los dos equipos con mejor rendimiento con una diferencia de goles de +7, seguidos de Francia con +6 y de Brasil y Alemania con +5. El caso de Grecia es único, se clasifico con una diferencia de goles de -2 "dejando pelo en el alambre", en mi concepto tuvieron un poco de suerte, pero habría que ver si les funciona con esta Costa Rica que viene a "matar y comer del muerto";
Finalmente, Estados Unidos, Nigeria y Uruguay, se clasificaron con una diferencia de goles de 0.



2. ATAQUE DE LOS PAÍSES CLASIFICADOS A TRAVÉS DE LOS PARTIDOS DE LA PRIMERA FASE:





Brasil es un equipo que siempre trata de mantener el mismo ritmo en todo el partido y durante todos los tres partidos de la primera fase se mantuvo con el balón mucho más tiempo que su rival (>50% de posesión del balón en los 3 partidos); del mismo modo Colombia y Costa Rica, aunque no mantuvieron la mayor cantidad de tiempo el balón que sus rivales (~45% de posesión del balón), son equipos que dejan jugar, mantienen un ritmo constante y son INFALIBLES Y LETALES EN EL CONTRAGOLPE y la generación de opciones de gol, en especial Colombia que tiene la mayor efectividad junto con Holanda, en todo el campeonato. Estos tres equipos, son equipos calientes, que en el segundo tiempo a pulmón definen partidos y soportan humedades y calor de ollas de presión. Con respecto a la posesión del balón, los equipos que más tratan de mantener el balón y de atacar (así no hayan sido tan efectivos, como en el caso de Argentina, exceptuando a Messi), son Argentina, Chile (aunque varía mucho de un partido a otro, es decir, en unos partidos atacaba más que otros), Francia (con gran variación también entre los partidos) y Alemania (que es una máquina de atacar); mientras que los equipos que menos tienen el balón son Estados Unidos, Argelia, y Grecia (aunque este tiene variación entre partidos).

Con respecto a remates y remates directos al arco Francia es la campeona en ataque, los delanteros prueban mucho la media distancia, y la mayoría de balones van directo a la portería, se conviertan en gol o no. Francia es un inquietador con remates y puede verse claramente que así se ha comportado en todos los partidos y supera a los demás equipos considerablemente; del mismo modo Suiza, Argentina y Brasil prueban mucho el arco contrario, aunque varían en comportamiento de un rival a otro. Los equipos que menos prueban la media distancia y rematan al arco son Argelia, Estados Unidos, 
Chile, Costa Rica y México, aunque los tres primeros varían mucho de un partido al otro. Los tiros de esquina para Argentina son un reflejo de su baja definición, supera a los demás países con un margen muy amplio, pero también es evidente que intentan e intentan y por alguna razón no convierten tanto como quisieran; por otra parte, Brasil y Francia son los siguientes que más han cobrado tiros de esquina en el mundial.

3. ATAQUE TOTAL DE LOS PAÍSES CLASIFICADOS A OCTAVOS EN LA PRIMERA FASE:


Con respecto a la totalidad de ataques y posesión del balón promedio en los tres partidos que ha jugado cada seleccionado se puede evidenciar lo siguiente:
Francia remata MUCHO MÁS que la mayoría de los equipos, Seguido por Suiza, Argentina, Brasil y Belgica, mientras que Chile es el equipo que menos remata, seguido de Costa Rica, USA y Argelia. Este mismo comportamiento puede observarse en los remates que van directo al arco, y se puede ver que Colombia, Holanda y Alemania tienen una cantidad de remates al arco similar, pero que a la hora de rematar o definir es muy difícil que no conviertan un gol, quizá porque los remates de media distancia no son su fuerte como es el caso de Messi (Argentina) sino el juego colectivo.
En cuanto a tiros de esquina totales se observan los mismos resultados que el numeral anterior y con respecto a la posesión del balón puede observarse que los equipos que más mantienen el balón a sus pies son Argentina, Chile, Alemania, Francia, Bélgica y Brasil, mientras que los demás equipos tienen posesión de balón similares.


4. RENDIMIENTO EN LA PRIMERA FASE DE LOS PAÍSES CLASIFICADOS A OCTAVOS DE FINAL:




Primero que todo se puede observar que ningún equipo de los clasificados perdió más de 1 partido (Argelia, USA, Nigeria, Suiza, Uruguay, Grecia y Chile perdieron de a un partido en la fase de grupos), y que ninguno empato más de 1 partido en la fase de grupos (Argelia, USA, Alemania, Nigeria, Francia, Costa Rica, Grecia, México y Brasil empataron de a 1 partido en la fase de grupos).

Por otra parte se puede observar que el patron mínimo de rendimiento para que un equipo pase a la segunda fase del mundial es 1 empate, 1 derrota y 1 victoria (Argelia, USA, Nigeria y Grecia cumplieron con este patrón al cual también quería acceder Portugal pero no le alcanzo, y son los 4 equipos con el peor rendimiento de los 16 clasificados a la segunda fase cada uno con 4 puntos y con rivales difíciles por delante).
Por otra parte los 4 equipos con mejor rendimiento en la fase de grupos que lograron 9 puntos de 9 son Colombia, Holanda (estos dos con mayor diferencia de goles), Argentina y Bélgica. 





5. TARJETAS Y JUEGO SUCIO:








Se puede observar que el equipo con menos faltas cometidas y menos tarjetas (1 tarjeta amarilla y 24 faltas) recibidas en lo que va del Mundial es Argentina, y su buen comportamiento se ha mantenido constante en los tres partidos jugados. Al seleccionado Argentino le siguen en muestra de Fair Play y buen comportamiento las selecciones de Alemania, Suiza y Francia; que también se mantienen constantes aunque Francia varia un poco. 

Las selecciones que más han variado en comportamiento con el trascurrir de los partidos son Holanda, Brasil y Bélgica (Colombia también varia un poco pero en menor medida).
Por otra parte las selecciones que más han cometido faltas en lo que va del mundial son Costa Rica, Uruguay, Holanda, Argelia, Colombia, Grecia y Bélgica en ese orden.
La gravedad de las faltas puede ser medida también por el número de tarjetas amarillas y rojas obtenidas en los primeros tres partidos, en este sentido, los equipos que se ganaron más tarjetas amarillas son Uruguay (6), Grecia (6), México (5), Argelia (5), Bélgica (4), Francia (4), Chile (4), Brasil (4).
Mientras que Holanda, a pesar de cometer tantas faltas, solo tiene 3 tarjetas amarillas y Colombia y Costa Rica 2 cada una. 
Con respecto a las tarjetas rojas, solo 2 de los equipos clasificados obtuvieron cada uno una tarjeta roja, Uruguay y Bélgica. 

TENIENDO EN CUENTA QUE URUGUAY TIENE EL MAYOR NÚMERO DE TARJETAS AMARILLAS, TIENE UNA TARJETA ROJA, Y ES EL SEGUNDO EQUIPO QUE HA COMETIDO MÁS FALTAS, ESTA CLARO QUE DE LOS EQUIPOS CLASIFICADOS URUGUAY ES EL EQUIPO MÁS SUCIO O "PUERCO" PARA JUGAR. (sin mencionar a Luis "mordelon" Suarez quien fue suspendido por un comportamiento que no tiene presentación).


Nota: independientemente de que a Uruguay le toque jugar en octavos contra Colombia, en mi opinión la sanción a Suarez es justa, lo que hizo no tiene forma de ser aceptado.
Y advierto que gane o pierda Colombia, nuestra selección es UN EQUIPO!
Y no por el hecho de que Radamel Falcao García no este jugando, estamos anticipando, pronosticando o justificando nuestras derrotas, así Falcao sea una pieza clave en nuestra cuadrilla! Así que Uruguay tiene que responder sin Suarez como Francia responde sin Ribery o Colombia sin Falcao (AUN MÁS PORQUE EL SE HIZO SACAR DEL MUNDIAL Y NO FUE POR LESIÓN). Y ganemos o perdamos no se justificara por la presencia de Falcao o la ausencia de Suarez.


6. QUIEN ES EL MÁS "MORDELON"?:


"Obviamente sho soy el ma' mordelon" Luis Suarez 


######################################################################
######################################################################
######################################################################

LES DEJO MI APUESTA/PREDICCIÓN DE COMO RESULTARÁ EL MUNDIAL...
espero que hayan disfrutado este post y para la próxima (parte 2), les compartiré como se hacen los gráficos que les presente, el código, scripts, datos, parámetros y fundamentos del sistema de gráficos base de R. 

HASTA LA VISTA Y "QUE VIVA CHIBCHOMBIA, MI PATRIA QUERIDA, CON AGUARDIENTE 'MAGUILA'"



9 comentarios:

  1. (y) Gracias y espero subir pronto el código y la explicación... un saludo

    ResponderEliminar
  2. Lindas las estadísticas.. peeeeero.. Argentina va a salir campeón. el fútbol no tiene nada que ver con números. jajaja

    ResponderEliminar
  3. No quiero sonar demasiado critico, pero la verdad es que a estas graficas les falta mucho por mejorar. Algunos comentarios:
    - No hay coherencia en los colores usados. Se podria usar un color por pais y mantener ese color a lo largo de todo el articulo.
    - El orden de los paises no es consistente en diferentes graficos; o se mantiene el mismo orden a lo largo del articulo (e.g. orden alfabetico), o se ordenan los paises siguiendo algo en la grafica (e.g. de mayor a menor).
    - En las graficas de barras horizontales los nombres de los paises estan muy juntos y se sobrelapan.
    - En las cifras totales no hay razon por la cual unas figuras son barras horizontales, otras verticales, y otras simplemente puntos.
    - Las graficas de goles deberian mantener constante el eje X.
    - El eje Y en posesion del balon deberia comenzar en 0 dado que estan hablando de porcentajes.
    Hay mucho que se puede mejorar en estas graficas, y el codigo para hacerlo es bien sencillo.

    ResponderEliminar
  4. En el inicio del post digo: "por tal motivo no se afanen o se alarmen por el uso indiscriminado de colores ya que he utilizado diferentes colores y diferentes tipos de gráficos, olvidándome del "estilo correcto" de presentación de datos, en beneficio de explicar como cambiar parámetros de los gráficos en R". por lo cual advierto que mi camino es el como se hacen gráficos, no una opinión de como deben hacerse.

    Hay diferentes estilos, diferentes colores, diferentes formas, yo no obligo a la gente a casarse con el mio. Lo que pretendo es mostrar como hacerlo, que si usted quiere cambiar los colores SEPA como hacerlo, que si usted quiere cambiar los ejes, sepa como hacerlo, que si usted quiere cambiar el tamaño de las letras y los puntos por lineas o cientos de cosas más sepa como hacerlo. Eso es lo que yo pretendo, si alguien quiere saber cuales son las formas "optimas" de presentación de gráficas puede tomar un curso corto de diseño gráfico, de manejo de colores, de presentación de datos, o de otra cosa.
    Acá usted puede saber que si no le gusto el color PUES YA SABE COMO CAMBIARLO.
    Bien lo dice el título del blog: "como utilizar R de la forma más desmenuzada posible".
    Quizá usted no haya leido frecuentemente este blog, (si lo hizo pues gracias y espero que le haya gustado) pero este blog tiene un patrón fijo, un objetivo claro desde el principio.
    Finalmente le recomiendo para la próxima, LEER COMPLETAMENTE EL POST, incluyendo las notas y advertencias para que entienda mejor el objetivo del mismo.
    Gracias

    ResponderEliminar
  5. Cierto, hay una advertencia al comienzo acerca del color, pero esa no es razon suficiente para su abuso. El color tiene un uso muy importante dentro de la presentacion grafica de datos y debe ser usado con cuidado, lo cual este post no transmite. En todos los casos aca parece que el color se esta cambiando usando 'col = ****' en plot() or boxplot() y usando paletas estandar de R, asi que no hay mucha variedad en lo que se esta haciendo para justificar dicho abuso.
    El post podria mejorarse mostrando tambien buenas practicas en el uso del color. Por ejemplo, la primera figura podria ser a blanco y negro, mostrando los parametros 'por defecto' de R; la segunda podria mostrar usar colores solidos y paletas base, similar a como se hace en la primera actual. Y a partir de la tercera ser puede mostrar como asignar el mismo color a cada pais a traves del resto del post. De esa manera hay un uso incremental de color, comenzando desde 'ninguno', pasando por los colores basicos de R, y terminando con un uso apropiado que demuestra mejores practicas sin perder lo que ya se esta transmitiendo. Incluso, se podria usar esto para introducir mejores paletas de colores, como las proporcionadas en el paquete RColorBrewer.

    Dejando a un lado el uso del color, el resto de mis comentarios aun aplica. Si el proposito es mostrar un uso desmenuzado de R, es mejor utilizar una aproximacion incremental, similar a la descrita para colores, en vez de un sancocho de estilos sin pies ni cabeza.

    El hecho que este sea un post para principiantes no justifica que las graficas sean tan crudas, pues asi no se esta demostrando el increible potencial de R. De veras el esfuerzo que estan haciendo es comendable, pues R no es una herramienta tan facil de aprender si no se tiene experiencia previa. Preparar cursos y tutoriales no es sencillo (lo se por experiencia, pues he ensennado clases de R avanzado), por lo cual se que toda critica tiene valor. Por eso mismo he intentado ser constructivo en mis criticas, sennalando las cosas que considero deben mejorarse, en vez de decir "eso esta feo" y ya.

    Saludos.

    ResponderEliminar
    Respuestas
    1. bueno, tendré que ser más explicito:
      (NOTA: por tal motivo no se afanen o se alarmen por el uso indiscriminado de colores ya que he utilizado diferentes colores y diferentes tipos de gráficos, olvidándome del "estilo correcto" de presentación de datos, en beneficio de explicar como cambiar parámetros de los gráficos en R). QUE QUIERO DECIR?:

      1. Quien determina qué es razón suficiente? quien dijo que busco una "razón suficiente"? quien dijo que desde el principio no sabía que estaba usando indiscriminadamente los colores? lo digo en la advertencia y ciertamente no le doy importancia para mi objetivo personal en el blog y en el post, porque no, porque no es mi objetivo, porque no quiero, porque busco otras cosas. No pretendía decirlo así, pero así es.

      2. Claro que el color tiene un papel importante! ESO LO SABE CUALQUIERA. pero la pregunta es: tiene un uno importante en los análisis exploratorios?. usted mismo lo dice: en la PRESENTACIÓN [...] DE DATOS, esto no es un paper, esto no es un portafolio de trabajo, NO LO ES PARA NADA, simplemente es un trabajo demostrativo de lo más sencillo y humilde para explicar ciertas cosas.

      2. Y NO, EL POST NO TRANSMITE COMO USAR LOS COLORES, OBVIO NO LO TRANSMITE. pero se ha preguntado si yo quiero mostrar cómo se usan los colores? la respuesta es NO, no quiero transmitir eso.

      3. OBVIO, la función BASE! LO MÁS BÁSICO, EL FUNDAMENTO DE COLORES ES "col=""", pero es que ES PRECISAMENTE ESO lo que quiero, no me interesa para nada mostrar EN ESTE POST RColorBrewer, me interesa cero ( 0 ) mostrar eso en este post, no es mi objetivo. Lo que quiero mostrar es el fundamento de colorear en R, algo muy básico, algo para alguien que quiera colorear algo de manera rápida y sencilla, 'exploratoriamente'.

      4. puede tener 3000 ordenes diferentes la forma de presentarlo, ascendente, descendente, de izquierda, de derecha, y millones de formas más, la verdad me importa muy poco encontrar la forma correcta, prefiero que el lector adapte el coloreado a sus propias necesidades, A SUS PROPIOS REQUERIMIENTOS.

      5. LA VERDAD EL RESTO DE COMENTARIOS TAMBIÉN FUERON ADVERTIDOS PREVIAMENTE, leyendo la advertencia no hace falta ser un genio para darse cuenta que se usan los colores y los tipos de gráficas de manera revuelta, indiscriminada, muestro variedad, posibilidades, como cambiar ciertas cosas, no orden, no la manera "apropiada" inexistente, hay muchísimas "maneras apropiadas"

      6. Ahora, si usted le llama "sancocho" (cosa que en realidad me ofende, y bastante), pues si, eso quería mostrar una variedad (NO TODAS) de cosas que se pueden hacer, NO PRETENDO MOSTRAR EL UNIVERSO DE R en gráficado, NO, SOLO UNA PARTE QUE ES LA QUE ME IMPORTA.

      7. AMIGO, ESTO NO ES R AVANZADO, y si esta buscando eso quiero decirle que esta en el lugar equivocado, no pretendo mostrar TODO EL INCREÍBLE POTENCIAL DE R, y ESTE POST NO SE LLAMA "COLORES EN R" o no se llama "forma optima de presentar gráficos en R".

      8. Finalmente es así de sencillo, YO NO BUSCO NADA DE LO QUE USTED ME DICE, NO CONSIDERO HABERME EQUIVOCADO PORQUE NO ME DESVELA BUSCAR ESAS COSAS QUE USTED ME RECOMIENDA, NO EN ESTE POST, INICIALMENTE NI BUSCABA ESO NI AHORA LO BUSCO, QUIZÁ EN OTRO POST, O QUIZÁ EN OTRO BLOG.

      NO PUEDE ESPERAR QUE LE VENDAN TORNILLOS EN UNA PANADERIA!! este blog tiene otros objetivos, este post también tiene otros objetivos, no se confunda.
      Y si quiere eso pues en su blog de R AVANZADO, puede hacer un post de manejo de colores "apropiado" o presentación "apropiada" de gráficas en R.

      9. YA LA VERDAD USTED CRUZO LA BARRERA DEL RESPETO CON EL "sancocho" y el "eso esta feo".
      a mi la verdad lo que usted me sugiere para este post NO ME IMPORTA, (y perdón por decirlo así), PERO NO ME IMPORTA NADA PARA ESTE POST, cuyo objetivo es diferente.

      Gracias por leer de todos modos, y no me parece constructivo. Espero que haya entendido el punto, la dirección de este post con esta "explicación".

      Eliminar
  6. PERÚ ganará el mundial yo lo sé ;)

    ResponderEliminar