Preguntas etiquetadas con r

R es un entorno de software y lenguaje de programación libre y de código abierto para computación estadística, bioinformática y gráficos.

15
Python vs R para aprendizaje automático
Estoy empezando a desarrollar una aplicación de aprendizaje automático para fines académicos. Actualmente estoy usando R y entrenándome en ello. Sin embargo, en muchos lugares, he visto personas que usan Python . ¿Qué utilizan las personas en la academia y la industria, y cuál es la recomendación?

1
¿Cómo obtener la correlación entre dos variables categóricas y una variable categórica y una variable continua?
Estoy construyendo un modelo de regresión y necesito calcular lo siguiente para verificar las correlaciones Correlación entre 2 variables categóricas multinivel Correlación entre una variable categórica de niveles múltiples y una variable continua VIF (factor de inflación de varianza) para variables categóricas de niveles múltiples Creo que es incorrecto usar …

9
¿Es el lenguaje R adecuado para Big Data?
R tiene muchas bibliotecas dirigidas al análisis de datos (por ejemplo, JAGS, BUGS, ARULES, etc.), y se menciona en libros de texto populares como: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Aprendizaje automático con R". He visto una directriz de 5 TB para que un conjunto de datos se considere como …
48 bigdata  r 


7
Procesos organizados para limpiar datos
Desde mi limitada experiencia en ciencia de datos con R, me di cuenta de que limpiar datos incorrectos es una parte muy importante de la preparación de datos para el análisis. ¿Existen mejores prácticas o procesos para limpiar los datos antes de procesarlos? Si es así, ¿existen herramientas automatizadas o …
34 r  data-cleaning 

1

3
Parámetros de Hypertuning XGBoost
XGBoost ha estado haciendo un gran trabajo cuando se trata de lidiar con variables dependientes categóricas y continuas. Pero, ¿cómo selecciono los parámetros optimizados para un problema de XGBoost? Así es como apliqué los parámetros para un problema reciente de Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", …
27 r  python  xgboost 

5
Imagen de VM para proyectos de ciencia de datos
Como hay numerosas herramientas disponibles para las tareas de ciencia de datos, y es engorroso instalar todo y construir un sistema perfecto. ¿Hay una imagen de Linux / Mac OS con Python, R y otras herramientas de ciencia de datos de código abierto instaladas y disponibles para que las personas …
24 python  r  tools 

9
¿Alguna consola R en línea?
Estoy buscando una consola en línea para el idioma R. Al igual que escribo el código y el servidor debe ejecutarse y proporcionarme la salida. Similar al sitio web Datacamp.
24 r  statistics 


6
¿Qué utilizas para generar un tablero en R?
Necesito generar informes periódicos (diarios, mensuales) del panel de análisis web. Serán estáticos y no requieren interacción, así que imagine un archivo PDF como salida de destino. Los informes mezclarán tablas y gráficos (principalmente gráficos minigráficos y viñetas creados con ggplot2). Piense en los paneles de estilo Stephen Few / …
17 r  visualization 


5
agrandar el mapa de calor marino
Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
¿Cómo predecir probabilidades en xgboost?
La siguiente función de predicción también proporciona valores -ve, por lo que no puede haber probabilidades. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Busqué en Google e intenté pred_s <- predict(bst, x_mat_s2,type="response") pero …

4
¿Los pandas ahora son más rápidos que data.table?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Los puntos de referencia data.table no se han actualizado desde 2014. Escuché en algún lugar que Pandasahora es más rápido que data.table. ¿Es esto cierto? ¿Alguien ha hecho alguna referencia? ¿Nunca he usado Python antes pero consideraría cambiar si pandaspuede vencer data.table?
16 python  r  pandas  data  data.table