Context, Trenduri, Mișcări
Domeniul analizei este în continuă schimbare, necesitând viteză în reacție și o gândire concentrată pe construirea de faze pilot, testare de noi funcții și analiza compatibilității cu infrastructura actuală. Acest lucru se aplică pentru orice organizație care dorește un proces de luare a deciziilor bazat pe date. Mișcarea de cercetare și dezvoltare pe care tot mai multe organizații o implementează este de obicei predispusă la eșec din cauza lipsei de răbdare și a dorinței de a construi unități pregătite pentru producție într-un interval de timp strict. Este dorit de directori și îmbrățișat de dezvoltatori, deși pentru majoritatea rezultatelor lipsește aplicabilitatea în lumea reală sau pur și simplu nu îmbunătățesc/adaugă valoare proceselor sau produselor actuale. Deși acest lucru poate fi urmărit prin urmărirea procesului de luare a deciziilor, uneori acest lucru se întâmplă din cauza unui cumul de factori precum: incompatibilitatea infrastructurii, lipsa dezvoltărilor iterative, concentrarea asupra rezultatelor finale, lipsa testării în lumea reală și așa mai departe.
“La ce vei lucra peste 10 ani nu a fost încă inventat.”
Platformele mici își fac loc în managementul mainstream după adoptarea unui mod de lucru mai agil. Schimbarea are implicații diferite care depășesc infrastructura sau instrumentele utilizate – aceasta afectează în primul rând ciclurile de dezvoltare și testarea produselor. Infrastructurile de analiză mamut sunt lente, grele și necesită de obicei know-how suplimentar pentru a le opera și configura, ridicând astfel preocupări valabile pentru management în ceea ce privește profitabilitatea și adoptarea organizațională. Construirea, testarea și implementarea de noi produse de învățare automată nu ar trebui să fie văzută ca o piatră de hotar sau o mare realizare de către nivelul executiv, ci un nou instrument/bun pentru organizație pentru a realiza KPI-urile dorite. Această schimbare de mentalitate are multe punți de trecut pentru a fi implementată cu succes. Mai mare nu este neapărat mai bun în ceea ce privește testarea și dezvoltarea de noi produse de analytics, dar, de asemenea, recunoaștem faptul că o platformă prea mică poate avea un impact semnificativ asupra grupului de modele utilizate și, de obicei, vine cu o optimizare intensivă a memoriei.
Care este conceptul?
Instrumentele și soluțiile de bază pentru dezvoltatorii de analytics sunt de obicei cele Open Source – unele cu o adoptare copleșitoare de către comunitate (de exemplu, Jupyter Notebooks). Construirea și testarea soluțiilor de învățare automată nu necesită soluții grele, mai degrabă un IDE și un limbaj de programare care acceptă/a implementat unele biblioteci ML. Organizațiile care au investit recent într-o echipă de analiză au șanse mari să folosească aceleași soluții pe care le face un student pentru temele lui: IDE-uri simple, poate un depozit de modele (de obicei MLflow) – sau pur și simplu pickle (folosit pentru a serializa obiecte, de exemplu, salvarea modelelor în un fișier) și o conexiune la bază de date care, în unele cazuri, este reprezentată cu succes de un fișier CSV exportat.
De obicei, management-ul are o anumită reținere în actualizarea sau construirea unei infrastructuri de analiză fără rezultate prealabile, profituri sau poate informații valoroase furnizate. Ceea ce are sens din punctul nostru de vedere. Nu aveți nevoie de capabilități de ultimă generație pentru a prelua unele informații sau poate oferi o viziune diferită pentru afacere pentru a optimiza sau a crea noi procese. Considerăm că problema apare la scalarea soluțiilor deoarece există o diferență destul de mare între 1 model și 100 de modele dezvoltate. Desigur, probabil că o puteți face și manual, dar costurile sunt mari și resursele umane limitate, deoarece dezvoltatorii nu sunt pasionați de rulări manuale sau de gestionare a modelelor pe bază de fișiere.
De ce este nevoie?
Construirea unei infrastructuri de la zero nu ar trebui să fie o sarcină plictisitoare, mai ales având în vedere faptul că problema apare la integrarea cu sistemele existente. Cea mai bună infrastructură scalabilă la cerere, auto-ML, cu integrare de la zero la minimă, va fi mai mult o povară decât un avantaj. Indiferent de buget sau de capabilități, dacă trebuie să importați și să exportați manual un fișier CSV pentru a-l procesa și apoi încărcați rezultatele într-un Sharepoint, nu are rost să discutați despre scalabilitate sau impactul în lumea reală, în afară de unele cazuri de utilizare izolate.
O platformă de analiză internă ar trebui să se concentreze pe câteva aspecte standard și pe altele care diferă de la o organizație la alta. Aveți nevoie de un loc de dezvoltare, un depozit pentru codul dvs. și unul pentru dezvoltările dvs. ML, un orchestrator/planificator și un instrument pentru EDA (Exploratory Data Analysis). Toate combinate cu o integrare completă între platformă și sistemele de intrare/ieșire dorite. Din experiență, am recomanda backlogging pentru viitoare dezvoltări un modul explicativ pentru proiectele dvs. și un framework auto-ML, care poate fi integrat cu ușurință de către echipă prin pachete python (ex: pycaret). Având în vedere faptul că majoritatea soluțiilor (dacă nu toate) pot fi găsite ca și containere open source, există o flexibilitate extinsă pentru echipă de a construi și testa soluții potrivite pentru organizația lor sau chiar de a le personaliza cu plugin-uri/extensii interne.
S-ar putea argumenta că adoptarea sistemelor open source într-un mediu proprietar închis poate avea diverse consecințe, în special în ceea ce privește compatibilitatea și lipsa suportului terților, dar acest lucru este ușor de evitat deoarece platforma nu are nevoie de o integrare extinsă, mai degrabă decât de comunicare deschisă. De obicei, schimbul se va face prin intermediul API-urilor și nu va afecta în niciun fel modul în care se comportă sistemele la locul lor. Acesta este un atu puternic de avut. Un joc flexibil care poate îmbunătăți și produce informații valoroase pentru organizație într-un interval de timp destul de scurt.
Primii pași in tehnologia Open Source
Lumea tehnologiilor open source este vastă și poate fi copleșitoare atunci când navighezi fără îndrumare. Recomandăm să căutați cele mai utilizate soluții, cu o comunitate extinsă și actualizări recurente. De asemenea, răsfoirea prin proiectele de top ale comunității Apache poate dezvălui câteva instrumente interesante (vezi Superset, Airflow – ca o notă amuzantă, ambele provin de la Airbnb™, dar și de la aceeași persoană: Maxime Beauchemin). Indiferent de instrumentele și soluțiile pe care le alegeți pentru platforma dvs., rețineți că scopul este de a oferi informații noi și interesante pentru organizație și, de asemenea, noi capabilități și know-how pentru echipa, departamentul și afacerea dvs.
Un pas în viitor
Un citat care mi-a rămas încă de la universitate sună cam așa: „La ce vei lucra peste 10 ani nu a fost încă inventat”. Probabil că propoziția nu este 100% sigură, dar reflectă puternic industria Datelor pe care o trăim în prezent. Ecosistemul de management al datelor își va schimba încet, dar sigur aspectele organizaționale, absorbind diferite roluri specifice într-un rol general mult mai larg ca „persoană de date”. Analiștii tehnici, dezvoltatorii, inginerii de date și așa mai departe, toate aceste roluri care servesc acum un scop specific se vor transforma cel mai probabil într-unul generic. Data Science și Data Analytics vor fi considerate indispensabile ca SQL și Data Warehouses. Clustere, segmente, analize ad-hoc bazate pe date, prognoze, toate aceste metode vor deveni implicite, la fel cum interogarea bazei de date este astăzi. Ne vom uita în urmă și ne vom întreba de ce am lăsat de luat decizii strategice importante bazându-ne pe deciziile experților în afaceri și nu pe procese automate bazate pe date. Organizațiile vor trebui să fie rapide și să se adapteze la noul peisaj sau să sufere aceeași soartă pe care o au astăzi silozurile grele: adoptarea tehnologiilor deja învechite ca „de ultimă generație”, în principal Data Lake-uri greoaie și lente, cu tehnologia din 2012.