Airbyte est une plateforme open-source qui offre des avantages significatifs pour l'ingestion des données. Cet outil constitue l'un des piliers d'une Architecture de Donnée Moderne, car c'est grâce à lui qu'on nous allons pouvoir collecter et centraliser toutes les données d'une entreprise venant de différentes sources au sein d'un même Data Warehouse.
Airbyte propose une version payante de l'outil mais pour une entreprise de taille moyenne , la version open source est largement suffisante pour commencer à poser les briques de votre nouveau socle de donnée moderne. L'installation peut se faire sur Google Cloud Platform via la location d'une Machine Virtuelle dans Compute Engine. Le coût de la machine varie entre 35$ et 50$ par mois.
Pour installer l'app Airbyte, il faut dans un premier temps créer une machine virtuelle sur Compute Engine :
Sélectionner une instance et procéder à sa configuration
il faut configurer le nom de l’instance ainsi que la region ou va être hébergé l’instance de préférence en Europe.
Cocher les cases "Autoriser le trafic HTTP et HTTPS" comme ci dessous. On peut aussi modifier le disque de démarage si besoin de plus de mémoire.
Ensuite il faut configurer le pare-feu pour autoriser le port 8000 sur “default-allow-http”
Ensuite revenir sur la VM , ouvrir le terminal avec SSH puis effectuer les configurations suivantes :
Installer Docker sur la machine virtuelle en suivant les commandes suivantes :
Installer docker-compose sur la machine virtuelle en suivant les commandes suivantes :
Installer ensuite Airbyte :
C’est tout bon Airbyte devrait normalement être lancé .Pour vérifier cela rendez vous à l’adresse IP externe de la VM et rajouter :8000 puis:
Vous pouvez dès maintenant mettre en place votre première ingestion de données.
Besoin de tester Airbyte ou d'explorer les fonctionnalités de cet outil, n'hésitez pas à nous contacter.