Superset DataFusion
python
superset
datafusion
parquet
s3
analytics
sql
Superset DataFusion
Implémentation d’un driver implémentant DataFusion dans les drivers Python utilisés par Superset. Cette intégration permet l’utilisation de fichiers .parquet dans Superset pour l’analyse de données.
Vue d’ensemble
Ce projet fournit une intégration entre Apache Superset et Apache DataFusion, permettant d’analyser des données stockées dans des formats Parquet, notamment sur S3. Le driver permet à Superset d’utiliser DataFusion comme moteur d’exécution de requêtes SQL.
Fonctionnalités principales
- Support Parquet : Analyse de fichiers Parquet directement depuis Superset
- Intégration S3 : Accès aux données stockées sur S3
- Moteur SQL : Utilisation de DataFusion comme moteur d’exécution de requêtes
- Driver Python : Implémentation comme driver Python pour Superset
Références
- Apache DataFusion : github.com/apache/datafusion - Moteur d’exécution de requêtes SQL écrit en Rust, optimisé pour l’analyse de données à grande échelle
- Apache Superset : Plateforme d’exploration et de visualisation de données
Cas d’usage
- Analyse de données volumineuses stockées en Parquet
- Intégration avec des données sur S3
- Requêtes SQL performantes sur données columnaires
- Tableaux de bord et visualisations de données
Technologies
- Python : Langage d’implémentation du driver
- DataFusion : Moteur de requêtes SQL en Rust
- Superset : Plateforme de BI et visualisation
- Parquet : Format de stockage columnaire
Contributions
Le projet est ouvert aux contributions. Les améliorations du driver, le support de nouvelles fonctionnalités DataFusion et les optimisations de performance sont les bienvenues.