Prezenční Praha

Strojové učení nad velkými daty

Cílem tohoto kurzu je představit různé nástroje a koncepty ze strojového učení nad velkými daty.

Pumpedu
Poskytovatel kurzu
Středně pokročilý
Čeština
AI & Data Science
4 990 Kč
Pumpedu
Přejděte na web

Přehled kurzu

Úroveň
Středně pokročilý
Formát
Prezenční
Místo
Praha
Jazyk
Čeština
Cena
od 4 990 Kč

O kurzu

Po dokončení tohoto kurzu by měli účastníci být schopni říct jaký nástroj použít pro daný problém, zjistit jestli neexistuje jednodušší řešení a znát časté chyby a umět se jim vyhnout. Speciální pozornost věnujeme Sparku jakožto univerzálnímu nástroji, který lze použít jak pro zpracování velkých dat, tak pro ML nad velkými daty.

Požadavky

  • Základy práce v Pythonu a v nástroji Google Colab
  • Znalosti strojového učení na úrovni kurzu Úvod do strojového učení.

Osnova kurzu

1

Přehled konceptů a nástrojů ve zpracování velkých dat Od malých k velkým datům a odhad jejich hodnoty

  • Řádkové a sloupcové databáze
  • HDFS (Hadoop Distributed File System)
  • Formáty dat – Parquet, ORC, Avro
  • Komprese – gzip, snappy, zstd
  • SQL databáze – BigQuery, Redshift, Clickhouse, Snowflake, Vertica
  • MapReduce
  • Spark Computing Engine a RDDs (Resilient Distributed Datasets)
  • DataFrames
  • Spark ekosystém
  • Nejčastější chyby
  • Kde pustit Spark
  • Alternativy – Apache Beam (Dataflow), Dask, lambdas
  • Inkrementální učení
  • Dávkové učení pro neuronové sítě
  • Distribuované trénování
  • Federated learning
  • Alternativní strategie Náhodné vzorkování
  • Podmodely
  • Větší výpočetní kapacity
  • Scikit-learn a partial_fit
  • MLlib
  • Dask-ML

Kurzem tě provede

Mojmír Vinkler

Lektor Machine Learning College s.r.o

Důležité informace

Kód kurzu
KT21010290
Pumpedu
Kurz nabízí

Pumpedu

www.pumpedu.cz
Navštívit web