Preguntas etiquetadas con bigdata

Big data es el término para una colección de conjuntos de datos tan grandes y complejos que resulta difícil procesarlos utilizando herramientas de administración de bases de datos disponibles o aplicaciones de procesamiento de datos tradicionales. Los desafíos incluyen captura, curación, almacenamiento, búsqueda, intercambio, transferencia, análisis y visualización.

12
¿Qué tan grande es el big data?
Mucha gente usa el término big data de una manera bastante comercial , como un medio de indicar que grandes conjuntos de datos están involucrados en el cálculo y, por lo tanto, las posibles soluciones deben tener un buen rendimiento. Por supuesto, big data siempre lleva términos asociados, como escalabilidad …

9
¿Es el lenguaje R adecuado para Big Data?
R tiene muchas bibliotecas dirigidas al análisis de datos (por ejemplo, JAGS, BUGS, ARULES, etc.), y se menciona en libros de texto populares como: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Aprendizaje automático con R". He visto una directriz de 5 TB para que un conjunto de datos se considere como …
48 bigdata  r 


11
Ciencia de datos en C (o C ++)
Soy un Rprogramador de idiomas. También estoy en el grupo de personas que se consideran científicos de datos pero que provienen de disciplinas académicas distintas de la CS. Sin embargo, esto funciona bien en mi papel como Científico de Datos, al comenzar mi carrera Ry tener solo conocimientos básicos de …



1

6
¿Cómo hacer SVD y PCA con big data?
Tengo un gran conjunto de datos (alrededor de 8 GB). Me gustaría utilizar el aprendizaje automático para analizarlo. Entonces, creo que debería usar SVD y luego PCA para reducir la dimensionalidad de los datos para la eficiencia. Sin embargo, MATLAB y Octave no pueden cargar un conjunto de datos tan …

3
Ideas del proyecto de ciencia de datos [cerrado]
Cerrada . Esta pregunta está basada en la opinión . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que pueda ser respondida con hechos y citas editando esta publicación . Cerrado hace 5 años . No sé si este es un lugar adecuado para hacer …




5
agrandar el mapa de calor marino
Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


3
¿Cuándo son engañosos los valores p?
¿Cuáles son las condiciones de datos que debemos tener en cuenta, donde los valores p pueden no ser la mejor manera de decidir la significación estadística? ¿Existen tipos de problemas específicos que caen en esta categoría?