Un entorno y lenguaje de programación diseñado específicamente para el análisis estadístico y la elaboración de gráficos.
Descripción
A diferencia de lenguajes de propósito general (como Java o C++), R nació de la necesidad de las personas dedicadas al análisis estadístico de contar con una herramienta flexible para manipular datos complejos.
Historia
El lenguaje R tiene sus raíces en otro lenguaje llamado S, desarrollado en los Laboratorios Bell por John Chambers y sus colegas a finales de los años 70.
Origen
Fue creado en 1993 en la Universidad de Auckland (Nueva Zelanda) por Ross Ihaka y Robert Gentleman (de ahí el nombre «R», por las iniciales de sus creadores y como un juego de palabras sobre el lenguaje S).
Filosofía open source
En 1995, R se lanzó como un proyecto de software libre bajo la licencia GNU. Esto fue un punto de inflexión, ya que permitió que una comunidad global de académicos y científicos contribuyera a su desarrollo.
Evolución
En el año 2000 se lanzó la versión 1.0.0, considerada la primera versión estable para uso público masivo. Desde entonces, es gestionado por el R Development Core Team.
Funciones principales
R no es solo un lenguaje, sino un sistema integrado. Sus capacidades se dividen principalmente en tres áreas.
Gestión de datos
Permite limpiar, transformar y filtrar grandes volúmenes de datos. Utiliza estructuras llamadas dataframes, que son esencialmente tablas similares a las de Excel pero mucho más potentes.
Cálculo estadístico
Incluye desde pruebas básicas (medias, varianzas, t-test) hasta modelos complejos, como regresiones lineales o regresiones no lineales, análisis de series temporales y algoritmos de clasificación de machine learning.
Visualización de datos
Es famoso por su capacidad para crear gráficos de alta calidad, incluso para una publicación académica. A través de librerías, como ggplot2, permite crear visualizaciones de datos altamente personalizadas.
Aplicaciones
Investigación académica y científica
Es el estándar en biotecnología, medicina y psicología, entre otras disciplinas, para validar experimentos.
Data science y big data
Se utiliza en data science para predecir comportamientos de consumo, analizar riesgos financieros y segmentar mercados.
Ecosistema de paquetes (CRAN)
La mayor fortaleza de R es el CRAN (Comprehensive R Archive Network), una colección de más de 18000 paquetes gratuitos que extienden las funciones del lenguaje para tareas específicas (por ejemplo, análisis de datos de satélites o redes sociales).