/
/
Data Science – o incursiune în lumea datelor
Educație
14.06.2023

Data Science – o incursiune în lumea datelor

O prezentare a contexului Data Science - roluri, algoritmi, instrumente, pipelines și procese, toate rezumate într-o imagine de ansamblu.

Distribuie pe Facebook
Trimite pe E-mail

O prezentare a contexului Data Science – roluri, algoritmi, instrumente, pipelines și procese, toate rezumate într-o imagine de ansamblu.

Ce este Data Science?

  • Data science nu este un domeniu propriu-zis, ci o unificare a statisticii, modelelor analitice și informaticii.
  • Un Data scientist înțelege datele pentru a oferi valoare adăugată pentru un anumit scenariu prestabilit.
  • Este obișnuit ca Data scientist-ii să lucreze îndeaproape cu oamenii de business. Rolul Data Scientist-ului este de a înțelege nevoia și de a o transpune într-o soluție de Data Science.
  • Data Science nu este un domeniu de programare obișnuit (de exemplu, Dezvoltarea unei aplicații mobile), ci mai degrabă se îndreaptă spre cercetare și dezvoltare sau încercări și erori.

Datele

  • Un data scientist se ocupă de obicei cu două categorii principale de date care sunt:
    • Structurate (de exemplu: tabele, jsons, csvs etc.) și
    • Nestructurate (text, imagini, videoclipuri etc.)
  • Înainte de a aplica orice algoritm, un lucru important de ținut cont reprezintă etichetarea datelor. Etichetarea se referă la atribuirea unei valori semantice unei date (de exemplu, o imagine a unei pisici, un text științific etc.)
  • Pentru majoritatea algoritmilor, datele trebuie să fie organizate pe scară largă în puncte de date cu o etichetă sau nu. Acestea trebuie să fie omogene în ceea ce privește faptul că au aceleași „caracteristici” pentru datele structurate sau sunt de un anumit tip pentru datele nestructurate (de exemplu, date tranzacționale pentru imagini structurate și numai imagini care nu sunt amestecate cu puncte de date text pentru nestructurate).

Algoritmii

  • Algoritmii pentru data science se împart în două categorii principale: învățare supravegheată și nesupravegheată. Învățarea supravegheată înseamnă încercarea de a „învăța” o anumită etichetă adnotată umană, iar învățarea nesupravegheată „învață” de asemenea, dar nu spre un „adevăr fundamental” dat, alias eticheta.
  • Pentru a simplifica excesiv, toți algoritmii reprezintă modele statistice avansate, numite „învățare automată”.
  • Ele se diversifică în continuare în regresie și clasificare pentru învățarea supravegheată și în gruparea / detecția anomaliilor pentru învățarea nesupravegheată.
  • Unii algoritmi notați sunt SVM/Decision Tree pentru învățarea automată „clasică”, precum și rețelele neuronale pentru învățare profundă nouă, care au o multitudine de variații fiind un domeniu propriu.

Procesele

  • Această secțiune se referă la metodele care sunt aplicate după stabilirea datelor pentru dezvoltarea unui model. Datele din viața reală sunt de obicei dezordonate și trebuie procesate în continuare pentru a fi utilizabile.
  • Astfel de procese constau în imputare – care se ocupă cu valorile lipsă, netezirea, care reprezintă de cele mai multe ori transformarea datelor atunci când sunt prea variate, curățarea care se ocupă cu modificarea diferitelor caracteristici (de exemplu, ștergerea coloanelor nesemnificative din datele tabelare, repararea literelor mari/mici în text, împărțirea unei coloane în două etc).
  • Un alt proces important este generarea de caracteristici (de exemplu, agregarea datelor, TFIDF, PCA, ONE-HOT-ENCODING etc).

Modelarea

  • Modelarea este activitatea de bază a data scientis-ului și a „produsului final”. Pentru a modela ceva, mai mulți algoritmi sunt rulați pe sistemul „probă” pentru „învățare”.
  • De obicei, acest lucru nu este simplu și sunt necesare mai multe iterații, precum și revenirea la pașii anteriori.
  • Pe scurt, un model este o „cutie neagră” care este capabilă să generalizeze un anumit subiect și să ofere un rezultat probabil și calitativ ridicat (de exemplu, ce imagini sunt probabil pisici, este un client care va scăpa de afacere, nu este această persoană ca celelalte etc).

Pipelines

  • În afară de diferitele procese care pot apărea cu anumite probleme specicie, procesul de data science are un șir de pipeline-uri care pot fi generalizate.
  • ETL înseamnă Extract, Transform, Load și este etapa de achiziție a datelor care reunește toate datele din eventuale surse multiple.
  • EDA înseamnă Exploratory Data Analysis și obține o introspecție vizuală în date (de exemplu, grafice, statistici, dependențe etc.).
  • DQ înseamnă calitatea datelor și scopul este de a remedia/elimina/evaluează calitatea datelor pe care le-a primit cercetătorul de date.
  • Servirea și implementarea sunt de obicei realizate de echipa MLOps, însă de cele mai multe ori în colaborare strânsă cu data scientist-ul.

Instrumente

  • În ceea ce privește instrumentele, există o mare piață open-source, însă totuși există unele tool-uri recomandate, care au cele mai mari comunități ce le susțin.
  • Baza Data Science este limbajul de programare Python.
  • Pentru algoritmi, există tensorflow pentru deep learning și sklearn pentru multe altele.
  • Pandas și SQL sunt obligatorii pentru ETL.
  • Plotly/Matplotlib sunt biblioteci grafice foarte interesant pentru EDA.
  • Spark/Hadoop/Kafka sunt soluții pentru gestionarea unor cantități mari de date și streaming, precum și ETL.
  • Airflow este cea mai bună soluție din clasă pentru orchestrarea/implementarea/servirea/automatizarea modelelor pregătite pentru producție.
Distribuie pe Facebook
Trimite pe E-mail

Mai multe articole

data strategy

Construirea unei Strategii de Date — Alinierea cu Obiectivele de Business

Aflați care sunt pașii practici pentru ca strategia dvs. de date nu este doar un plan, ci un catalizator pentru succesul în afaceri.

Afaceri
Cloud Data Management

Gestionarea Datelor în Cloud: Beneficii, Riscuri și Practici Recomandate

Acest articol explorează Gestionarea Datelor în Cloud, detaliind principalele beneficii, riscurile potențiale și practicile recomandate esențiale.

Afaceri
Data Integration

Unificarea Surselor de Date Diverse într-un Sistem Unitar

În peisajul complex de business, integrarea datelor este o necesitate strategică. Astăzi vă vom ghida prin procesul integrării datelor.

Educație
Metadata

Dezvăluind Puterea Metadatelor în Managementul Eficient al Datelor

În acest articol, vom analiza rolul crucial al metadatelor în managementul eficient al datelor, iluminând cum IDS Consulting vă poate ajuta organizația spre un viitor orientat către date.

Afaceri
ISO 27701 Security Techniques

Am obținut Certificarea ISO/IEC 27701 Tehnici de Securitate

Suntem mândrii să anunțăm obținerea certificării ISO/IEC 27701 Tehnici de Securitate, cea de-a patra certificare ISO din catalogul nostru.

Afaceri
google cloud partner no outline

Partenerii tăi Google Cloud!

Afaceri
Data Security and Privacy

Securitatea și Confidențialitatea Datelor: Cum să Protejăm Datele

Într-o perioadă în care datele susțin operațiunile unei afaceri, asigurarea unor măsuri solide de securitate și confidențialitate a datelor este esențială. În acest articol, vom analiza strategiile pe

Afaceri
Large Datasets Seturilor de date voluminoase

Managementul seturilor de date voluminoase

Acest articol explorează strategiile și cele mai bune practici pentru gestionarea eficientă a seturilor de date mari, în lumea managementului de date.

Afaceri
data quality

Importanța Calității Datelor și Cum să o Asigurăm

În acest articol, explorăm importanța calității datelor și oferim strategii practice pentru a o asigura în cadrul organizației voastre.

Educație
DevTalks Cluj Winner

Află cine a câștigat voucherul de 100€ de la DevTalks Cluj!

Vezi cine este câștigătorul voucherului 100E care a rezolvat testul nostru de matematică la DevTalks Cluj!

Afaceri
DevTalks Cluj

Ieși în evidență la DevTalks Cluj 2023!

Afaceri
QA analyst

Hai să ne cunoști echipa – fă cunoștință cu Ionel Ene, our QA Analyst

Afaceri
Laptop with data coming out

Managementul datelor – secretul reușitei în business

Educație

Guvernanța Datelor: Politici și Proceduri pentru Luarea Deciziilor și Gestionarea Datelor

În lumea de azi, bazată pe date, organizațiile trebuie să prioritizeze guvernanta eficientă a datelor pentru a asigura integritatea datelor, conformitatea și luarea de decizii fiabile.

Afaceri

IDS Consulting: Ne vedem la DevTalks 2023!

IDS Consulting este încântată să anunțe participarea noastră ca Data Management partners la DevTalks 2023, una dintre cele mai prestigioase conferințe de tehnologie din industrie.

Afaceri

Analiza în Business Intelligence

O selecție a celor mai bune tehnici de analiză pentru soluții de business intelligence, utile in maximizarea valoarii organizației voastre.

Educație

Data Science – o incursiune în lumea datelor

O prezentare a contexului Data Science - roluri, algoritmi, instrumente, pipelines și procese, toate rezumate într-o imagine de ansamblu.

Educație

Sursele și consumatorii unui sistem de BI

Aflați care pot fi surse și consumatori BI și care sunt principalele capabilități ale unei soluții de Data Warehouse pentru business-ul dumneavoastră.

Educație

Scrisoare de la echipa de Project Management

O dezbatere între Managerii de Proiect despre cele două metodologii, Waterfall și Agile - care este mai bună?

Educație

Provocările testării într-o lume în schimbare

Întrucât mediul de business se schimbă foarte rapid și e posibil să descoperim că ceea ce a fost crucial ieri ar putea să nu fie atât de important

Educație

Sistemul bancar românesc în noul trend al datelor

Sistemul bancar românesc a suferit o transformare digitală consistentă în ultimii ani, în special în urma crizei COVID-19 din 2020, ce a făcut băncile să se bazeze pe

Afaceri

Hai la DevCon 2022!

Anul acesta, ne puteți găsi la DevCon 2022, între 9 și 10 noiembrie 2022, la standul nostru virtual.

Afaceri

Afla care sunt planurile noastre pentru 2023

Fiecare sfarsit de an aduce rostul unei restrospective. Astfel, Gabriel Tataru, Managing Director al Integration Data Systems, ne-a ajutat sa ne potolim curiozitatea, povestindu-ne cum s-a incheiat anul

Afaceri

Cum să îți crești performanța și profitul: cum soluțiile de Data Warehousing ajută băncile în experiența clienților

În lumea actuală bazată pe date, băncile se confruntă cu o presiune din ce în ce mai mare de a oferi clienților servicii mai rapide, mai personalizate și

Afaceri

Maximizarea succesului în afaceri: Înțelegerea componentelor cheie ale Business Intelligence

Cum ajuta componentele Business Intelligence la luarea deciziilor informate și îmbunătățirea eficienței operaționale.

Afaceri

Atingerea excelenței, dovedită și prin certificarea ISO

Suntem certificați ISO! Numai ce am primit certificările în ISO 9001 (Managementul calității), ISO 27001 (Securitatea informațiilor) și ISO 20000-1 (Managementul serviciilor IT)!

Afaceri

Ascensiunea sistemelor interne de analiză open source

Domeniul analizei este în continuă schimbare, necesitând viteză în reacție și o gândire concentrată pe construirea de faze pilot, testare de noi funcții și analiza compatibilității cu infrastructura

Afaceri

Data Management

Testing and Quality Assurance

Business Processes Management

Cloud Engineering

Program and Project Management

IT Operations

Technologies and Tool Stack

Scan the code