Update and add index

This commit is contained in:
Jonas Zeunert
2024-04-23 15:17:38 +02:00
parent 4d0cd768f7
commit 8d4db5d359
726 changed files with 41721 additions and 53949 deletions

View File

@@ -4,7 +4,7 @@
A curated list of awesome pipeline toolkits inspired by Awesome Sysadmin (https://github.com/kahun/awesome-sysadmin)
Pipeline frameworks & libraries
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ ActionChain (http://docs.stackstorm.com/actionchain.html) - A workflow system for simple linear success/failure workflows.
⟡ Adage (https://github.com/diana-hep/adage) - Small package to describe workflows that are not completely known at definition time.
@@ -28,8 +28,7 @@
⟡ Conan2 (https://github.com/tburdett/Conan2) - Light-weight workflow management application.
⟡ Consecution (https://github.com/robdmc/consecution) - A Python pipeline abstraction inspired by Apache Storm topologies.
⟡ Cosmos (https://mizzou-cbmi.github.io/) - Python library for massively parallel workflows.
⟡ Couler (https://github.com/couler-proj/couler) - Unified interface for constructing and managing workflows on different workflow engines, such as Argo Workflows, Tekton Pipelines, and 
Apache Airflow.
⟡ Couler (https://github.com/couler-proj/couler) - Unified interface for constructing and managing workflows on different workflow engines, such as Argo Workflows, Tekton Pipelines, and Apache Airflow.
⟡ Covalent (https://github.com/AgnostiqHQ/covalent) - Workflow orchestration toolkit for high-performance and quantum computing research and development.
⟡ Cromwell (https://github.com/broadinstitute/cromwell) - Workflow Management System geared towards scientific workflows from the Broad Institute.
⟡ Cuneiform (https://github.com/joergen7/cuneiform) - Advanced functional workflow language and framework, implemented in Erlang.
@@ -42,8 +41,8 @@
⟡ Dbt (https://www.getdbt.com/) - Framework for writing analytics workflows entirely in SQL. The T part of ETL, focuses on analytics engineering.
⟡ Dockerflow (https://github.com/googlegenomics/dockerflow) - Workflow runner that uses Dataflow to run a series of tasks in Docker.
⟡ Drake (https://github.com/Factual/drake) - Robust DSL akin to Make, implemented in Clojure.
⟡ Drake R package (https://github.com/ropensci/drake) - Reproducibility and high-performance computing with an easy R-focused interface. Unrelated to Factual's Drake 
(https://github.com/factual/drake). Succeeded by Targets (https://github.com/ropensci/targets).
⟡ Drake R package (https://github.com/ropensci/drake) - Reproducibility and high-performance computing with an easy R-focused interface. Unrelated to Factual's Drake (https://github.com/factual/drake). Succeeded by Targets 
(https://github.com/ropensci/targets).
⟡ Dray (https://github.com/CenturyLinkLabs/dray) - An engine for managing the execution of container-based workflows.
⟡ ecFlow (https://github.com/ecmwf/ecflow) - Workflow manager.
⟡ eHive (https://github.com/Ensembl/ensembl-hive) - System for creating and running pipelines on a distributed compute resource.
@@ -81,8 +80,8 @@
⟡ PipEngine (https://github.com/fstrozzi/bioruby-pipengine) - Ruby based launcher for complex biological pipelines.
⟡ Pinball (https://github.com/pinterest/pinball) - Python based workflow engine by Pinterest.
⟡ Popper (https://github.com/systemslab/popper) - YAML based container-native workflow engine supporting Docker, Singularity, Vagrant VMs with Docker daemon in VM, and local host.
⟡ Porcupine (https://github.com/tweag/porcupine) - Haskell workflow tool to express and compose tasks (optionally cached) whose datasources and sinks are known ahead of time and rebindable, 
and which can expose arbitrary sets of parameters to the outside world.
⟡ Porcupine (https://github.com/tweag/porcupine) - Haskell workflow tool to express and compose tasks (optionally cached) whose datasources and sinks are known ahead of time and rebindable, and which can expose arbitrary sets of 
parameters to the outside world.
⟡ Prefect (https://docs.prefect.io/) - Python based workflow engine powering Prefect.
⟡ Pydra (https://github.com/nipype/pydra) - Lightweight, DAG-based Python dataflow engine for reproducible and scalable scientific pipelines.
⟡ PyFlow (https://github.com/Illumina/pyflow) - Lightweight parallel task engine.
@@ -131,15 +130,14 @@
⟡ ZenML (https://zenml.io) - Extensible open-source MLOps framework to create reproducible pipelines for data scientists.
Workflow platforms
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ ActivePapers (http://www.activepapers.org/) - Computational science made reproducible and publishable.
⟡ Active Workflow (https://github.com/automaticmode/active_workflow) - Polyglot workflows without leaving the comfort of your technology stack.
⟡ Anvio (https://anvio.org/) - A community and framework centered around metagenomics, designed to facilitate reproducible exploration and visualization of data.
⟡ Apache Iravata (https://airavata.apache.org/) - Framework for executing and managing computational workflows on distributed computing resources.
⟡ Arteria (https://arteria-project.github.io/) - Event-driven automation for sequencing centers. Initiates workflows based on events.
⟡ Arvados (http://arvados.org) - A container based workflow platform.
⟡ Biokepler - Bioinformatics Scientific Workflow for Distributed Analysis of Large-Scale Biological Data. (_inactive since 10/2019_ 
(https://web.archive.org/web/20190108162953/https://www.biokepler.org/))
⟡ Biokepler - Bioinformatics Scientific Workflow for Distributed Analysis of Large-Scale Biological Data. (_inactive since 10/2019_ (https://web.archive.org/web/20190108162953/https://www.biokepler.org/))
⟡ Butler (http://github.com/llevar/butler) - Framework for running scientific workflows on public and academic clouds.
⟡ Chipster (http://chipster.csc.fi) - Open source platform for data analysis.
⟡ Clubber (https://bitbucket.org/bromberglab/clubber) - Cluster Load Balancer for Bioinformatics e-Resources.
@@ -169,7 +167,7 @@
⟡ FlowHub (https://www.flowhub.com.cn) - FlowHub is a new workflow cloud platform. 
Workflow languages
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ Common Workflow Language (https://github.com/common-workflow-language/common-workflow-language)
⟡ Cloudgene Workflow Language (http://cloudgene.uibk.ac.at/developer-guide)
⟡ OpenMOLE DSL (http://www.openmole.org/current/Documentation_Language.html)
@@ -178,7 +176,7 @@
⟡ Pipelines (https://github.com/calebwin/pipelines)
Workflow standardization initiatives
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ Workflow 4 Ever Initiative (http://www.wf4ever-project.org)
⟡ Workflow 4 Ever workflow research object model (http://wf4ever.github.io/ro)
⟡ Workflow Patterns Initiative (http://www.workflowpatterns.com)
@@ -186,14 +184,14 @@
⟡ ResearchObject.org (http://www.researchobject.org)
ETL & Data orchestration 
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ DataLad (https://datalad.org) - git and git-annex based data version control system with lightweight provenance capture/re-execution support.
⟡ DVC (https://dvc.org) - Data version control system for ML project with lightweight pipeline support.
⟡ lakeFS (https://github.com/treeverse/lakeFS) - Repeatable, atomic and versioned data lake on top of object storage.
⟡ Nessie (https://github.com/projectnessie/nessie) - Provides Git-like capability & version control for Iceberg Tables, Delta Lake Tables & SQL Views.
Literate programming (aka interactive notebooks)
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ Beaker (http://beakernotebook.com/) Notebook-style development environment.
⟡ Binder (http://mybinder.org/) - Turn a GitHub repo into a collection of interactive notebooks powered by Jupyter and Kubernetes
⟡ IPython (https://ipython.org/) A rich architecture for interactive computing.
@@ -207,23 +205,22 @@
⟡ Zeppelin (https://zeppelin.apache.org/) - Web-based notebook that enables interactive data analytics.
Extract, transform, load (ETL)
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ Cadence (https://github.com/uber/cadence) Distributed, scalable, durable, and highly available orchestration engine developed by Uber.
⟡ Dataform (https://github.com/dataform-co/dataform) - Dataform is a framework for managing SQL based operations in your data warehouse.
⟡ Kiba ETL (http://www.kiba-etl.org) - A data processing & ETL framework for Ruby.
⟡ LinkedPipes ETL (https://etl.linkedpipes.com) - Linked Data publishing and consumption ETL tool.
⟡ Pentaho Kettle
 (https://community.hitachivantara.com/s/article/data-integration-kettle) - A plataform that delivers poweful ETL capabilities, using a groundbreaking, metadata-driven approach.
⟡ Pentaho Kettle (https://community.hitachivantara.com/s/article/data-integration-kettle) - A plataform that delivers poweful ETL capabilities, using a groundbreaking, metadata-driven approach.
⟡ Substation (https://github.com/brexhq/substation) - Substation is a cloud native data pipeline and transformation toolkit written in Go.
Continuous Delivery workflows
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ Argo (https://github.com/argoproj/argo) - Get stuff done with container-native workflows for Kubernetes.
⟡ CDS (https://github.com/ovh/cds) - A pipeline based Continuous Delivery Service written in Golang.
Build automation tools
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ Bazel (http://bazel.io/) - Build software just as engineers do at Google.
⟡ doit (https://github.com/pydoit/doit) - Highly generalized task-management and automation in Python.
⟡ Gradle (http://gradle.org/) - Unified cross platforms builds.
@@ -234,21 +231,20 @@
⟡ Shake (https://github.com/ndmitchell/shake) - Define robust build systems akin to GNU Make using Haskell.
Automated workflow composition
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ APE (https://github.com/sanctuuary/APE) - A tool for the automated exploration of possible computational workflows based on semantic annotations.
Other projects
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ HPC Grid Runner (http://hpcgridrunner.github.io/)
⟡ NiFi (https://nifi.apache.org) - Powerful and scalable directed graphs of data routing, transformation, and system mediation logic.
⟡ noWorkflow
 (https://github.com/gems-uff/noworkflow) - Supporting infrastructure to run scientific experiments without a scientific workflow management system, and still get things like provenance.
⟡ noWorkflow (https://github.com/gems-uff/noworkflow) - Supporting infrastructure to run scientific experiments without a scientific workflow management system, and still get things like provenance.
⟡ Reprozip (https://www.reprozip.org/) - Simplifies the process of creating reproducible experiments from command-line executions.
Related lists
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
⟡ Awesome streaming (https://github.com/manuzhang/awesome-streaming) - Curated list of awesome streaming frameworks, applications.
⟡ Awesome ETL (https://github.com/pawl/awesome-etl) - Curated list of notable ETL (extract, transform, load) frameworks, libraries and software.
⟡ Awesome workflow engines (https://github.com/meirwah/awesome-workflow-engines) - Curated list of awesome open source workflow engines.