Big data ou méga données est un terme populaire désignant un nouveau domaine technologique pour faire face à l’explosion du volume des données ; ce qui exige des formes innovantes et rentables de traitement de l'information pour une meilleure compréhension et prise de décision.

Le phénomène big data est considéré comme l'un des grands défis informatiques de la décennie 2010-2020. Il engendre une dynamique importante tant par l'administration, que par les spécialistes sur le terrain des technologies ou des usages.

Le Big Data couvre quatre dimensions (les quarte V) : Volume, Vélocité, Variété et Véracité.

1)    Volume :

Les entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets comme transformer les 12 téraoctets de Tweets créés quotidiennement en analyse poussée des opinions sur un produit.

2)    Vélocité :
Elle représente à la fois la fréquence à laquelle les données sont générées, capturées et partagées et mises à jour. Pour les processus chrono-sensibles tels que la détection des fraudes, le Big Data doit être utilisé au fil de l'eau, à mesure que les données sont collectées par votre entreprise afin d'en tirer le maximum de valeur (exemple : Scruter 5 millions d'événements commerciaux par jour afin d'identifier les fraudes potentielles)

3)    Variété :
Le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.). De nouvelles connaissances sont issues de l’analyse collective de ces données.

4)    Véracité (ou la qualité des données) :
1 décideur sur 3 ne fait pas confiance aux données sur lesquelles il se base pour prendre ses décisions. Par exemple : comment l'analyste peut-il s’assurer que les données de réseaux sociaux comme Facebook ne sont pas des rumeurs ou des diffusions malveillantes? Donc, établir la confiance dans les Big Data représente un défi d'autant plus important que la variété et le nombre de sources augmentent.

 

Les technologies de Big data sont nombreuses. Pour optimiser les temps de traitement sur des bases de données géantes, plusieurs solutions peuvent entrer en jeu :

   Des bases de données No SQL (comme Mongo DB, Cassandra ou Redis) qui implémentent des systèmes de stockage considérés comme plus performants que le traditionnel SQL pour l'analyse de données en masse (orienté clé/valeur, document, colonne ou graphe).

   Des infrastructures de serveurs pour distribuer les traitements sur des dizaines, centaines, voire milliers de nœuds. C'est ce qu'on appelle le traitement massivement parallèle. Le Framework Hadoop est sans doute le plus connu d'entre eux. Il combine le système de fichiers distribué HDFS, la base No SQL HBase et l'algorithme MapReduce.

    Le stockage des données en mémoire (Memtables) permet d'accélérer le temps de traitement des requêtes.

Cependant, la montée en puissance du Big Data n’est pas uniquement une histoire de technologie. Les évolutions culturelles vis-à-vis de la génération et du partage d’information et les nouveaux usages et nouvelles possibilités de monétisation sont des éléments clés de l’augmentation de la richesse et du volume des data.

En conséquence, sur le plan business les entreprises ont à leur disposition de nouveaux moyens pour améliorer leur prise de décision, rendre leur organisation plus efficace et trouver de nouvelles sources de revenus.

 

                                                                                                                                                                                                                                           Elaboré par Imen KHMAISSIA