Precision Medicine — iDiscover Data Platform

Business Value

Roll out a CRM platform specific to diagnostic labs in iConnect to:

• Enable field force teams to capture and create shared visibility of critical lab information, account manage, set objectives for each lab and associated HCP accounts across TAs

• Enable TA leaders and brand teams to understand current testing practice and uptake

Data Flow

  • Ingest objects from iConnect to iDiscover

  • Conduct data transformation in Redshift

Data Source (Salesforce) -> Data Ingestion (Data Lake - S3 Bucket) -> Data Transformation (Data Warehouse - Amazon Redshift) -> Data Consumption (Tableau)

Dag: SFDC -> S3

send_email_cluster_start >> emr_tasks[0] >> emr_tasks[1] >> emr_tasks[2] >> emr_tasks[3] >> emr_tasks[4] >> send_email_cluster_termination >> end

  • S3 Bucket
    • context: 配置环境变量
    • metadata: 配置字段表
    • metadata/delta_filter: 配置增量字段
    • status: 生成日志文件
    • source: 存储目标文件(csv)
    • archive: 存储历史文件
    • script: 部署代码
  • Secrets Manager
    • data source (SFDC) credentials
    • data target (s3) credentials
  • Managed Apache Airflow
    • Dags: job list
    • Admin/Variables: dna_env_variables
  • EMR
    • EMR on EC2/Clusters: 查看集群日志
  • CloudWatch
    • Logs group: 运行日志
  • Salesforce: iConnect DB
  • Postgre: job metadata
  • Bitbucket: 生成dags的python script
  • Jenkins: CICD

Amazon Managed Workflows for Apache Airflow (MWAA) 是一项适用于 Apache Airflow 的托管编排服务

EMR适合跨平台的操作,可以发挥他的集群优势和算力优势;warehouse 内部操作 RS -> RS 去EMR绕一圈性能和性价比都很低,S3 -> Redshift都属于aws范畴内

Dag: S3 -> Redshift

Dag: Redshift -> Redshift

  • stg -> itg
  • itg -> dm
  • dm -> dm

t1 >> end

  • S3 Bucket
    • metadata: 配置sql语句,按country_code delete目标表数据,并插入新数据(调用存储过程)
  • Redshift Procedure: LANGUAGE plpgsql

Control-M

Control-M是BMC Software提供的企业级集中作业调度管理解决方案

建立工作流:将需要执行的任务按照逻辑顺序组织成一个工作流。

定义任务:针对不同的任务,可以给出各自相应的调度规则并指定参数。

创建日历:可设置各种类型的调度日历,来约束任务的执行时间。

配置资源:可为任务分配特定的资源,如服务器、数据库等。

运行和监控:将定义好的工作流提交到Control-M服务器上,系统会按照设定好的规则进行执行,并且实时监控任务的执行情况和运行状态。

https://blog.csdn.net/2301_76522810/article/details/131143824

Article
Tagcloud
DVA Java Express Architecture Azure CI/CD database ML AWS ETL nest sql AntV Next Deep Learning Flutter TypeScript Angular DevTools Microsoft egg Tableau SAP Token Regexp Unit test Nginx nodeJS sails wechat Jmeter HTML2Canvas Swift Jenkins JS event GTM Algorithm Echarts React-Admin Rest React hook Flux Redux ES6 Route Component Ref AJAX Form JSX Virtual Dom Javascript CSS design pattern