Data is everywhere: 2021

dimanche 27 juin 2021

Fauna DB

Fauna DB est une nouvelle base qui propose un protocole distribué des transactions innovant sans synchronisation d'horloge en s'inspirant du protocole Calvin développé à l'université de Yale ( D.Abadi ).

Un overview de Fauna DB

Le protocole Fauna DB

dimanche 7 février 2021

Snowflake: une base de type datawarehouse en mode cloud

Au-delà du buzz financier constitué par l'entrée en bourse de Snowflake, cette base "premium" est intéressante à étudier car elle offre une alternative aux bases proposées par les cloudeurs pour ceux qui veulent échapper un peu au vendor lock-in. Snowflake vous permet d'héberger vos données sur AWS, Microsoft et Google et donc vous fournit la possibilité de faire un choix réversible.

Snowflake est une base de type colonne dans la lignée d'Hana mais hébergée dans le cloud et peut être comparée à Google Big Query et Amazon Redshift. Si vous souhaitez avoir une vue générale sur le produit, consulter l'introduction générale.

C'est donc une base pour faire de l'analytique, mais comme Hana, elle peut supporter du transactionnel dans une certaine mesure. Pour en savoir plus, consulter la documentation sur le transactionnel. En comparaison, Google Biq Query ne supporte que l'auto-commit.

En terme d'architecture, elle s'appuie sur trois couches:

- une couche storage qui repose sur le système objet des cloudeurs ce qui lui permet de faire du time travel;

- une couche compute, nommée virtual warehouse, complètement configurable, l'équivalent des slots chez Google Biq Query;

- une couche cloud services qui regroupe les fonctionnalités essentielles d'une base ( gestion de l'infrastructure, catalogue des metadata, sécurité au sens large ... et un optimiseur ).

Comme les bases cloud, tout est géré automatiquement, de la gestion de la base à l'optimisation des requêtes. Cela permet aux DBA de se concentrer sur l'architecture et la conception et moins sur les tâches usuelles habituelles ( backup, patching, montée de version, ... ). Reste quand même à gérer les bugs inévitables avec le support et quelques optimisations ici et là ...

Elle propose des fonctions de data sharing qui peuvent être étendues à plusieurs régions et à plusieurs cloudeurs via une fonction de réplication.

La réplication lui permet aussi d'offrir une fonctionnalité de disaster recovery.

Les autres principales fonctionnalités sont décrites ici.

Si vous souhaitez aller plus loin, une série de vidéos est disponible pour compléter votre analyse.

Pour ma part, j'ai testé environ un mois Snowflake et Google Big Query, les deux bases sont des choix possibles, mais Snowflake propose plus de fonctionnalités et le GUI est plus riche. Reste bien entendu à voir ces deux bases en action en production sur de grands volumes de données, au moins qqes dizaines de TB, mais ici, l'objectif est d'atteindre le PB et dans un cadre analytique pour se faire une idée plus claire sur leur potentiel.

Hana étant réservé au monde SAP, il est intéressant de voir une offre datawarehouse s'étoffer er prendre de l'ampleur pour la rendre accessible au plus grand nombre.

Liste de livres

Cost-Based Oracle Fundamentals, Jonathan Lewis
Designing Data-Intensive Applications, Martin Kleppmann
Expert Oracle Database Architecture, Tom Kyte
Expert Oracle Exadata, K.Osborne, R.Johnson, T.Poder
Google BiqQuery: The Definitive Guide, V.Lakshmanan, J.Tigani
Hadoop, The Definitive Guide, Tom White
Kafka, The Definitive Guide, G.Shapira, T.Palino, R.Sivaram & K.Petty
Oracle Core, Essential Internals for DBAs and Developers, J.Lewis
Oracle Data Guard 11g Handbook, L.Carpenter, C.Kim, ...
Oracle Wait Interface: a practical guide to performance, diagnostics and tuning, R.Shee K.Deshpande, K.Gopalakrishnan
Real Application Clusters Handbook, K.Gopalakrishnan
Troubleshooting Oracle Performance, Christian Antognini

Data is everywhere

jeudi 11 novembre 2021

Apache Beam: traitement unifié de la donnée en mode batch et streaming

dimanche 27 juin 2021

Fauna DB

dimanche 7 février 2021

Snowflake: une base de type datawarehouse en mode cloud

Translation

Rechercher dans ce blog

Liens

Libellés

Qui êtes-vous ?

Liste des favoris

Liste de liens

Liste de livres

Autres liens

Catégories

Archives du blog