Datascience basis Link to heading
Intro Link to heading
Data VS Big Data!!! —> Se trata de las mismas ideas y objetivos aplicadas a 2 situaciones:
- cuando el volumen, la velocidad, la variedad, la veracidad/confiabilidad, y el valor del corpus de datos en uso son manejables dentro de los parámetros básicos en cuanto a infraestructura lógica y técnicas de procesamiento
- cuando el volumen, la velocidad, la variedad, la veracidad/confiabilidad, y el valor del corpus de datos en uso son tales (en un caso o en los cinco) que hacen necesario el despliegue, operaciones y procesamiento en un ecosistema distribuido
Steps: Link to heading
En la práctica estos pasos no son lineales e incrementales, sino q pueden ser iterativos o simultáneos …como puede verse, los pasos 1 y 2 corresponden a lo q normalmente se entiende como Data Engineering, en tanto q los pasos 3 al 6 son más bien lo q corresponde al Data Scientist como tal. Sin embargo es fundamental tener presente el hecho de que, según reporte de Anaconda , al 2020 las tareas de preparación de datos continúan consumiendo al menos el 45% del tiempo (hasta el doble, en casos extremos) del Data Scientis. Por ello se considera de importancia la comprensión no sólo de DS, sino también de Data Engineering
- Obtaining data
- Cleaning/Scrubbing data
- Exploring data
- Modeling data
- Interpreting data
- Reporting/Communicating data products
Data Science VS Data Engineering Link to heading
Data Science VS Data Engineering —> Ambos se complementan. Ambos necesitan base en análisis, programación, y Big Data.
- Data Engineer: Mucho más avanzado en programación y software tooling, e infraestructuras distribuidas. Su input es el Raw Data (múltiple, no estructurado, messy) de los diversos Business Systems. Su output serían las Data Pipelines.
- Data Scientist: Mucho más avanzado en recursos/tooling cuantitativos (Matemática, Estadística) y métodos científicos, Machine Learning, y Modeling/Analytics. Su input serían las Data Pipelines. Su output serían los Data Products.
Lógica del Análisis Cuantitativo, y algunas de las técnicas principales Link to heading
- Descubrir estructura en el corpus de datos (que normalmente es muy grande y sin orden aparente), así como extraer factores clave del mismo. Cómo se ve la data y qué información contiene. Aprendizaje no supervisado: Clustering, Análisis de Componentes Principales PCA.
- Podemos modelizar la data como una relación de función (regresión)? Podemos usar datos continuos para realizar predicciones?. Aprendizaje Supervisado: Regresión Lineal, Inferencia, Regresión No Lineal, Causalidad.
- Podemos modelizar la data como una relación de función (test de hipótesis y clasificación)? Podemos usar datos discretos para realizar predicciones?. Test de Hipótesis, Intervalos de Confianza, Estimación de Probabilidad, Clasificadores SVM y Perceptrones, Regresión Logística.