Superset DataFusion

python superset datafusion parquet s3 analytics sql

Superset DataFusion

Implémentation d’un driver implémentant DataFusion dans les drivers Python utilisés par Superset. Cette intégration permet l’utilisation de fichiers .parquet dans Superset pour l’analyse de données.

Vue d’ensemble

Ce projet fournit une intégration entre Apache Superset et Apache DataFusion, permettant d’analyser des données stockées dans des formats Parquet, notamment sur S3. Le driver permet à Superset d’utiliser DataFusion comme moteur d’exécution de requêtes SQL.

Fonctionnalités principales

Support Parquet : Analyse de fichiers Parquet directement depuis Superset
Intégration S3 : Accès aux données stockées sur S3
Moteur SQL : Utilisation de DataFusion comme moteur d’exécution de requêtes
Driver Python : Implémentation comme driver Python pour Superset

Références

Apache DataFusion : github.com/apache/datafusion - Moteur d’exécution de requêtes SQL écrit en Rust, optimisé pour l’analyse de données à grande échelle
Apache Superset : Plateforme d’exploration et de visualisation de données

Cas d’usage

Analyse de données volumineuses stockées en Parquet
Intégration avec des données sur S3
Requêtes SQL performantes sur données columnaires
Tableaux de bord et visualisations de données

Technologies

Python : Langage d’implémentation du driver
DataFusion : Moteur de requêtes SQL en Rust
Superset : Plateforme de BI et visualisation
Parquet : Format de stockage columnaire

Contributions

Le projet est ouvert aux contributions. Les améliorations du driver, le support de nouvelles fonctionnalités DataFusion et les optimisations de performance sont les bienvenues.