Mieux comprendre l'univers du Big Data grâce à 10 expressions-clés: Le Big data: Big data est le terme anglais pour désigner les mégadonnées ou données massives. Il s'agit des données issues de la sphère web et des objets connectés. Lexique big data.com. Ces dernières sont tellement volumineuses et de nature diversifiée qu'elles requièrent de nouvelles techniques de collecte, de stockage et de traitement pour pouvoir être exploitées. L'open Data: L'open Data est une donnée numérique produite par une entreprise, un service public ou une collectivité. Sa particularité vient du fait qu'elle est mise en ligne selon une méthode structurée permettant son libre accès et sa libre réutilisation par tous (open data = donnée ouverte) La CRM: Le custmer Relationship Management ou la Gestion de la relation client (GRC) regroupe les diffents outils et techniques visant à capter, à analyser et à traiter les donnée relatives aux prospects et aux clients. Le data Mining: Le data Mining ou exploitation de données consiste à extraire une connaissance ou un savoir d'une masse de données souvent issues du Big data.
Lexique Big Data A Structured
Avec l'internet des objets, des opportunités business importantes s'offrent aux entrepreneurs, mais également une multitude de défis pour réussir à tirer partie des flux de données échangés entre les systèmes. — Smart Data —
Si la notion de Big Data sert à qualifier les technologies autour du traitement de volumes de données de plus en plus important, la notion de Smart Data désigne, quant à elle, la capacité à adresser un use case précis en collectant les données les plus pertinentes et celles qui seront facilement exploitables. Ce terme est davantage tourné vers l'efficacité du ciblage que vers l'importance de la volumétrie. — Temps réel —
Le temps réel est l'une des principales caractéristiques du Big Data. Lexique big data insights lexisnexis. La donnée n'est plus figée à un instant T, au contraire, elle est captée en temps réel. Cette notion de temps réel ne signifie pas toujours l'instantanéité, et peut renvoyer à différentes temporalités en fonction de la réalité du business. — Valeur —
Il est important de déterminer quelle donnée apportera le plus de valeur ajoutée à l'entreprise afin de ne pas stocker tout et n'importe quoi.
Lexique Big Data Training
Algorithmes génétiques: Algorithmes calqués sur les principes des évolutions génétiques d'une population et permettant d'améliorer une solution par calculs successives, comme des générations de populations, jusqu'à arriver à un optimum. Analyse discriminante linéaire: Algorithme prédictif permettant de classifier un individu dans un segment. Arbres de décision: Algorithme permettant la résolution de problèmes en les représentant sous forme d'arbre dans lequel chaque feuille représente une solution possible, les branches les choix à suivre. Lexique big data analysis. BigTable: Base de données distribuée développée par Google pour ses propres besoins, BigTable n'est pas disponible en open source mais peut être exploitée sur Google App Engine qui l'a récemment commercialisé sous forme de service Cloud. Churn: Le churn ou taux d'attrition correspond à la part des clients perdus sur une période. Clickstream: Il s'agit du flux de clics généré en permanence par les internautes sur un site Internet. C'est une source précieuse d'information pour les algorithmes de Machine Learning.
Lexique Big Data Calculator
C'est un endroit où les données se retrouveront déversées sans être organisées. Data Science La Data Science ou science des données désigne l'ensemble des études et analyses visant à apporter une compréhension et de la valeur aux données collectées par une organisation. Ce domaine regroupe trois domaines de compétences clés: les statistiques, la programmation et la connaissance métier. Echantillonnage (Sampling) Un échantillonnage désigne l'action de délimiter un sous-groupe d'individus dans une population pour étudier l'ensemble de celle-ci. Cet échantillonnage doit être considéré comme représentatif afin de pouvoir extrapoler les résultats d'analyses statistiques à la population entière. Lexique Big Data — Transition vers le monde Numerique. Framework Le cadre d'applications ou framework désigne un ensemble de classes d'objet utilisables pour créer des applications informatiques. Il fournit au développeur des objets d'interface (bouton, menu, fenêtres, boîtes de dialogue), des objets de service (collections, conteneurs) et des objets de persistance (accès aux fichiers et aux bases de données) prêts à l'emploi.
Lexique Big Data.Com
Le Data Management: Le Data Management ou gestion des données est une discipline qui valorise les données comme ressources numériques. La gestion des besoins des organismes est optimisée à travers le développement d'architectures et de pratiques spécifiques permettant d'exploiter ces nouvelles ressources de l'entreprise. Le vocabulaire du Big Data : 10 expressions clés pour tout comprendre - Ecole de commerce. La direction des systèmes d'Information: La Direction des Systèmes d'Information est une entité qui gère l'ensemble des composants matériels (serveurs, postes de travail, systèmes de stockage…) et logiciels d'un système d'information. Elle est responsable du choix et de l'exploitation des télécommunications utilisées dans l'entreprise. Les Analytics: Les Analytics sont l'application de l'informatique, de la statistique et de la recherche opérationnelle à la résolution des problèmes industriels et entrepreneuriaux. Cette discipline est liée à l'expansion de l'informatique et se réalise dans un système d'information donné. En savoir plus sur le MSc DATA MANAGEMENT
L'architecture HDFS standard est composée d'un serveur Namenode et de plusieurs serveurs Datanode. Namenode
Composant principal d'un socle HDFS, considéré comme un Master. Ce serveur contient l'intégralité de l'arbre des fichiers présents sur HDFS. Il contient également l'intégralité des metadata de ces fichiers. Lexique pour comprendre la Big Data. Le serveur Namenode est considéré comme vital dans une architecture HDFS et est souvent répliqué en 2 serveurs (Active / Standby) afin de se prémunir de toute interruption de service en cas de panne matérielle. Datanode
Considéré comme un Worker dans une architecture HDFS. Il a pour rôle de fournir les blocs de fichiers aux Namenode ou aux clients directement. Il indique également aux Namenode la localisation des blocs de fichiers qu'il contient. Bloc (HDFS)
Ce concept de bloc propre à HDFS est différent de la notion de bloc au niveau du système de fichiers hébergeant la distribution Hadoop. Par défaut, la taille d'un bloc HDFS est de 128Mo (valeur optimale par rapport au ratio temps de parcours du disque / temps de transfert de la donnée).