/
/
Ascensiunea sistemelor interne de analiză open source
Afaceri
14.06.2023

Ascensiunea sistemelor interne de analiză open source

Domeniul analizei este în continuă schimbare, necesitând viteză în reacție și o gândire concentrată pe construirea de faze pilot, testare de noi funcții și analiza compatibilității cu infrastructura actuală.

Distribuie pe Facebook
Trimite pe E-mail

Context, Trenduri, Mișcări

Domeniul analizei este în continuă schimbare, necesitând viteză în reacție și o gândire concentrată pe construirea de faze pilot, testare de noi funcții și analiza compatibilității cu infrastructura actuală. Acest lucru se aplică pentru orice organizație care dorește un proces de luare a deciziilor bazat pe date. Mișcarea de cercetare și dezvoltare pe care tot mai multe organizații o implementează este de obicei predispusă la eșec din cauza lipsei de răbdare și a dorinței de a construi unități pregătite pentru producție într-un interval de timp strict. Este dorit de directori și îmbrățișat de dezvoltatori, deși pentru majoritatea rezultatelor lipsește aplicabilitatea în lumea reală sau pur și simplu nu îmbunătățesc/adaugă valoare proceselor sau produselor actuale. Deși acest lucru poate fi urmărit prin urmărirea procesului de luare a deciziilor, uneori acest lucru se întâmplă din cauza unui cumul de factori precum: incompatibilitatea infrastructurii, lipsa dezvoltărilor iterative, concentrarea asupra rezultatelor finale, lipsa testării în lumea reală și așa mai departe.

“La ce vei lucra peste 10 ani nu a fost încă inventat.”

Platformele mici își fac loc în managementul mainstream după adoptarea unui mod de lucru mai agil. Schimbarea are implicații diferite care depășesc infrastructura sau instrumentele utilizate – aceasta afectează în primul rând ciclurile de dezvoltare și testarea produselor. Infrastructurile de analiză mamut sunt lente, grele și necesită de obicei know-how suplimentar pentru a le opera și configura, ridicând astfel preocupări valabile pentru management în ceea ce privește profitabilitatea și adoptarea organizațională. Construirea, testarea și implementarea de noi produse de învățare automată nu ar trebui să fie văzută ca o piatră de hotar sau o mare realizare de către nivelul executiv, ci un nou instrument/bun pentru organizație pentru a realiza KPI-urile dorite. Această schimbare de mentalitate are multe punți de trecut pentru a fi implementată cu succes. Mai mare nu este neapărat mai bun în ceea ce privește testarea și dezvoltarea de noi produse de analytics, dar, de asemenea, recunoaștem faptul că o platformă prea mică poate avea un impact semnificativ asupra grupului de modele utilizate și, de obicei, vine cu o optimizare intensivă a memoriei.

Care este conceptul?

Instrumentele și soluțiile de bază pentru dezvoltatorii de analytics sunt de obicei cele Open Source – unele cu o adoptare copleșitoare de către comunitate (de exemplu, Jupyter Notebooks). Construirea și testarea soluțiilor de învățare automată nu necesită soluții grele, mai degrabă un IDE și un limbaj de programare care acceptă/a implementat unele biblioteci ML. Organizațiile care au investit recent într-o echipă de analiză au șanse mari să folosească aceleași soluții pe care le face un student pentru temele lui: IDE-uri simple, poate un depozit de modele (de obicei MLflow) – sau pur și simplu pickle (folosit pentru a serializa obiecte, de exemplu, salvarea modelelor în un fișier) și o conexiune la bază de date care, în unele cazuri, este reprezentată cu succes de un fișier CSV exportat.

De obicei, management-ul are o anumită reținere în actualizarea sau construirea unei infrastructuri de analiză fără rezultate prealabile, profituri sau poate informații valoroase furnizate. Ceea ce are sens din punctul nostru de vedere. Nu aveți nevoie de capabilități de ultimă generație pentru a prelua unele informații sau poate oferi o viziune diferită pentru afacere pentru a optimiza sau a crea noi procese. Considerăm că problema apare la scalarea soluțiilor deoarece există o diferență destul de mare între 1 model și 100 de modele dezvoltate. Desigur, probabil că o puteți face și manual, dar costurile sunt mari și resursele umane limitate, deoarece dezvoltatorii nu sunt pasionați de rulări manuale sau de gestionare a modelelor pe bază de fișiere.

De ce este nevoie?

Construirea unei infrastructuri de la zero nu ar trebui să fie o sarcină plictisitoare, mai ales având în vedere faptul că problema apare la integrarea cu sistemele existente. Cea mai bună infrastructură scalabilă la cerere, auto-ML, cu integrare de la zero la minimă, va fi mai mult o povară decât un avantaj. Indiferent de buget sau de capabilități, dacă trebuie să importați și să exportați manual un fișier CSV pentru a-l procesa și apoi încărcați rezultatele într-un Sharepoint, nu are rost să discutați despre scalabilitate sau impactul în lumea reală, în afară de unele cazuri de utilizare izolate.

O platformă de analiză internă ar trebui să se concentreze pe câteva aspecte standard și pe altele care diferă de la o organizație la alta. Aveți nevoie de un loc de dezvoltare, un depozit pentru codul dvs. și unul pentru dezvoltările dvs. ML, un orchestrator/planificator și un instrument pentru EDA (Exploratory Data Analysis). Toate combinate cu o integrare completă între platformă și sistemele de intrare/ieșire dorite. Din experiență, am recomanda backlogging pentru viitoare dezvoltări un modul explicativ pentru proiectele dvs. și un framework auto-ML, care poate fi integrat cu ușurință de către echipă prin pachete python (ex: pycaret). Având în vedere faptul că majoritatea soluțiilor (dacă nu toate) pot fi găsite ca și containere open source, există o flexibilitate extinsă pentru echipă de a construi și testa soluții potrivite pentru organizația lor sau chiar de a le personaliza cu plugin-uri/extensii interne.

S-ar putea argumenta că adoptarea sistemelor open source într-un mediu proprietar închis poate avea diverse consecințe, în special în ceea ce privește compatibilitatea și lipsa suportului terților, dar acest lucru este ușor de evitat deoarece platforma nu are nevoie de o integrare extinsă, mai degrabă decât de comunicare deschisă. De obicei, schimbul se va face prin intermediul API-urilor și nu va afecta în niciun fel modul în care se comportă sistemele la locul lor. Acesta este un atu puternic de avut. Un joc flexibil care poate îmbunătăți și produce informații valoroase pentru organizație într-un interval de timp destul de scurt.

Primii pași in tehnologia Open Source

Lumea tehnologiilor open source este vastă și poate fi copleșitoare atunci când navighezi fără îndrumare. Recomandăm să căutați cele mai utilizate soluții, cu o comunitate extinsă și actualizări recurente. De asemenea, răsfoirea prin proiectele de top ale comunității Apache poate dezvălui câteva instrumente interesante (vezi Superset, Airflow – ca o notă amuzantă, ambele provin de la Airbnb™, dar și de la aceeași persoană: Maxime Beauchemin). Indiferent de instrumentele și soluțiile pe care le alegeți pentru platforma dvs., rețineți că scopul este de a oferi informații noi și interesante pentru organizație și, de asemenea, noi capabilități și know-how pentru echipa, departamentul și afacerea dvs.

Un pas în viitor

Un citat care mi-a rămas încă de la universitate sună cam așa: „La ce vei lucra peste 10 ani nu a fost încă inventat”. Probabil că propoziția nu este 100% sigură, dar reflectă puternic industria Datelor pe care o trăim în prezent. Ecosistemul de management al datelor își va schimba încet, dar sigur aspectele organizaționale, absorbind diferite roluri specifice într-un rol general mult mai larg ca „persoană de date”. Analiștii tehnici, dezvoltatorii, inginerii de date și așa mai departe, toate aceste roluri care servesc acum un scop specific se vor transforma cel mai probabil într-unul generic. Data Science și Data Analytics vor fi considerate indispensabile ca SQL și Data Warehouses. Clustere, segmente, analize ad-hoc bazate pe date, prognoze, toate aceste metode vor deveni implicite, la fel cum interogarea bazei de date este astăzi. Ne vom uita în urmă și ne vom întreba de ce am lăsat de luat decizii strategice importante bazându-ne pe deciziile experților în afaceri și nu pe procese automate bazate pe date. Organizațiile vor trebui să fie rapide și să se adapteze la noul peisaj sau să sufere aceeași soartă pe care o au astăzi silozurile grele: adoptarea tehnologiilor deja învechite ca „de ultimă generație”, în principal Data Lake-uri greoaie și lente, cu tehnologia din 2012.

Distribuie pe Facebook
Trimite pe E-mail

Mai multe articole

data strategy

Construirea unei Strategii de Date — Alinierea cu Obiectivele de Business

Aflați care sunt pașii practici pentru ca strategia dvs. de date nu este doar un plan, ci un catalizator pentru succesul în afaceri.

Afaceri
Cloud Data Management

Gestionarea Datelor în Cloud: Beneficii, Riscuri și Practici Recomandate

Acest articol explorează Gestionarea Datelor în Cloud, detaliind principalele beneficii, riscurile potențiale și practicile recomandate esențiale.

Afaceri
Data Integration

Unificarea Surselor de Date Diverse într-un Sistem Unitar

În peisajul complex de business, integrarea datelor este o necesitate strategică. Astăzi vă vom ghida prin procesul integrării datelor.

Educație
Metadata

Dezvăluind Puterea Metadatelor în Managementul Eficient al Datelor

În acest articol, vom analiza rolul crucial al metadatelor în managementul eficient al datelor, iluminând cum IDS Consulting vă poate ajuta organizația spre un viitor orientat către

Afaceri
ISO 27701 Security Techniques

Am obținut Certificarea ISO/IEC 27701 Tehnici de Securitate

Suntem mândrii să anunțăm obținerea certificării ISO/IEC 27701 Tehnici de Securitate, cea de-a patra certificare ISO din catalogul nostru.

Afaceri
google cloud partner no outline

Partenerii tăi Google Cloud!

Afaceri
Data Security and Privacy

Securitatea și Confidențialitatea Datelor: Cum să Protejăm Datele

Într-o perioadă în care datele susțin operațiunile unei afaceri, asigurarea unor măsuri solide de securitate și confidențialitate a datelor este esențială. În acest articol, vom analiza strategiile pe

Afaceri
Large Datasets Seturilor de date voluminoase

Managementul seturilor de date voluminoase

Acest articol explorează strategiile și cele mai bune practici pentru gestionarea eficientă a seturilor de date mari, în lumea managementului de date.

Afaceri
data quality

Importanța Calității Datelor și Cum să o Asigurăm

În acest articol, explorăm importanța calității datelor și oferim strategii practice pentru a o asigura în cadrul organizației voastre.

Educație
DevTalks Cluj Winner

Află cine a câștigat voucherul de 100€ de la DevTalks Cluj!

Vezi cine este câștigătorul voucherului 100E care a rezolvat testul nostru de matematică la DevTalks Cluj!

Afaceri
DevTalks Cluj

Ieși în evidență la DevTalks Cluj 2023!

Afaceri
QA analyst

Hai să ne cunoști echipa – fă cunoștință cu Ionel Ene, our QA Analyst

Afaceri
Laptop with data coming out

Managementul datelor – secretul reușitei în business

Educație

Guvernanța Datelor: Politici și Proceduri pentru Luarea Deciziilor și Gestionarea Datelor

În lumea de azi, bazată pe date, organizațiile trebuie să prioritizeze guvernanta eficientă a datelor pentru a asigura integritatea datelor, conformitatea și luarea de decizii fiabile.

Afaceri

IDS Consulting: Ne vedem la DevTalks 2023!

IDS Consulting este încântată să anunțe participarea noastră ca Data Management partners la DevTalks 2023, una dintre cele mai prestigioase conferințe de tehnologie din industrie.

Afaceri

Analiza în Business Intelligence

O selecție a celor mai bune tehnici de analiză pentru soluții de business intelligence, utile in maximizarea valoarii organizației voastre.

Educație

Data Science – o incursiune în lumea datelor

O prezentare a contexului Data Science - roluri, algoritmi, instrumente, pipelines și procese, toate rezumate într-o imagine de ansamblu.

Educație

Sursele și consumatorii unui sistem de BI

Aflați care pot fi surse și consumatori BI și care sunt principalele capabilități ale unei soluții de Data Warehouse pentru business-ul dumneavoastră.

Educație

Scrisoare de la echipa de Project Management

O dezbatere între Managerii de Proiect despre cele două metodologii, Waterfall și Agile - care este mai bună?

Educație

Provocările testării într-o lume în schimbare

Întrucât mediul de business se schimbă foarte rapid și e posibil să descoperim că ceea ce a fost crucial ieri ar putea să nu fie atât de important

Educație

Sistemul bancar românesc în noul trend al datelor

Sistemul bancar românesc a suferit o transformare digitală consistentă în ultimii ani, în special în urma crizei COVID-19 din 2020, ce a făcut băncile să se bazeze pe telemunca angajaților

Afaceri

Hai la DevCon 2022!

Anul acesta, ne puteți găsi la DevCon 2022, între 9 și 10 noiembrie 2022, la standul nostru virtual.

Afaceri

Afla care sunt planurile noastre pentru 2023

Fiecare sfarsit de an aduce rostul unei restrospective. Astfel, Gabriel Tataru, Managing Director al Integration Data Systems, ne-a ajutat sa ne potolim curiozitatea, povestindu-ne cum s-a incheiat anul

Afaceri

Cum să îți crești performanța și profitul: cum soluțiile de Data Warehousing ajută băncile în experiența clienților

În lumea actuală bazată pe date, băncile se confruntă cu o presiune din ce în ce mai mare de a oferi clienților servicii mai rapide, mai personalizate și

Afaceri

Maximizarea succesului în afaceri: Înțelegerea componentelor cheie ale Business Intelligence

Cum ajuta componentele Business Intelligence la luarea deciziilor informate și îmbunătățirea eficienței operaționale.

Afaceri

Atingerea excelenței, dovedită și prin certificarea ISO

Suntem certificați ISO! Numai ce am primit certificările în ISO 9001 (Managementul calității), ISO 27001 (Securitatea informațiilor) și ISO 20000-1 (Managementul serviciilor IT)!

Afaceri

Ascensiunea sistemelor interne de analiză open source

Domeniul analizei este în continuă schimbare, necesitând viteză în reacție și o gândire concentrată pe construirea de faze pilot, testare de noi funcții și analiza compatibilității cu infrastructura

Afaceri

Data Management

Testing and Quality Assurance

Business Processes Management

Cloud Engineering

Program and Project Management

IT Operations

Technologies and Tool Stack

Scan the code