Data Engineering

Data Engineering

by fusion core

Цели

  • ​надежность доставки данных
  • обеспечить базовое качество данных
  • единый источник истины
  • восстановление в случае ошибки в данных
  • улучшить опыт использования

Архитектура

Roadmap

Control

  • улучшение и привидение в порядок текущих инструментов (трансформация данных, доставка в хранилище)
  • развертывание окружения на новой инфраструктуре (Docker, K8s, GCP)
  • внедрение новых инструментов (оркестратор job, kafka коннекторы)
  • контроль надежности доставки
  • базовое качество данных (доставка "один раз")

Опыт использования

  • переход на BI инструменты (табло)
  • серверный jupyter и обвязки в нему
  • улучшения текущих отчетов
  • внедрение новых отчетов
  • отказ он хранения в Postgres (N2)
  • обучение и поддержка

Улучшение

  • пересмотр схем работы с ClickHouse (таблицы, модели данных и тд)
  • улучшения доставки (отказ от json, инструменты потоковой аналитики)
  • генерация документации для данных / упрощение поиска по данным (data discovery)

Спасибо