Prawdopodobnie, każdy zdaje sobie dziś sprawę z konieczności analizy posiadanych danych w swojej organizacji. Mało tego, współcześnie możemy pokusić się o analizę danych także spoza naszego ekosystemu – mogą to być dla przykładu ogólnodostępne bądź zakupione dane demograficzne, dane o naszej pozycji względem konkurencji, analiza treści z szeroko pojętych social mediów lub analiza różnorakich strumieni danych w czasie rzeczywistym (lub częściej – niemal rzeczywistym). Aktualnym pytaniem, wobec tego nie jest to brzmiące „czy musimy to robić?” ale „jak to zrobić efektywnie?”.
Od czasów, kiedy rozwiązania takiego typu były zarezerwowane tylko dla największych i zwykle bazowały na dedykowanej hurtowni danych, minęło sporo czasu. Dziś zaawansowane analizy mogą być realizowane na niezliczonej liczbie narzędzi różnej maści – od on-premises (we własnej serwerowni) do chmurowych, od open-source do tych w pełni komercyjnych. Wydawać by się mogło, że mając takie możliwości, organizacje zaczną na potęgę usprawniać wykorzystanie danych. Patrząc jednak globalnie, tak się nie stało, mimo, że zdecydowanie mamy liderów czerpiących niesamowite benefity z wdrożonych rozwiązań analitycznych to znaczna część przedsiębiorstw boryka się z dużymi trudnościami w tym obszarze.
Jakie problemy mają aktualne rozwiązania analityczne?
Poniżej skupię się na trzech wg. mnie najważniejszych problemach. Problemów jest oczywiście więcej, ale te poniższe potrafią “napsuć krwi” najmocniej:
Używanie wielu technologii w dużych rozwiązaniach ma uzasadniony sens wtedy, kiedy mamy specyficzne potrzeby lub zależy nam na konkretnych/unikalnych cechach danej technologii. Za tą swoistą wąską specjalizacją poszczególnych elementów rozwiązania kryje się jednak bardzo poważny problem administracyjny – im więcej technologii jest użytych, tym trudniej jest harmonizować działanie całego systemu. Potrzeba też coraz bardziej wyspecjalizowanej wiedzy, aby to zrobić dobrze (kilka filozofii działania + kilka języków programowania). Sprawia to ostatecznie, że do obsługi takiego rozwiązania potrzeba większej załogi, która musi opiekować się takim systemem. Dodatkowym problemem jest fakt, że tworzymy wyraźnie oddzielone obszary i nie możemy z łatwością przesuwać deweloperów na różne odcinki, gdyż na każdym z odcinków używamy innych technologii.
- Przetwarzanie danych w silosach
Jeśli pozostawimy taką możliwość, to każdy departament czy nawet zespół zacznie budować swoje rozwiązania najlepiej jak umie, ale w oderwaniu od holistycznego spojrzenia na prowadzony biznes. Nie chciałbym być tu źle zrozumiany – autentycznie podziwiam ludzi, którzy starają się rozwiązać organizacyjny problem z dostępem do raportów (czy nawet ich kompletnym brakiem) na własną rękę, tworząc, często z wielkim zaangażowaniem, rozwiązania na własne potrzeby. Po drodze jednak często następuje implementacja skomplikowanych warunki biznesowych specyficznych dla ich punktu widzenia. Patrząc zatem z poziomu całej organizacji, takie podejście bardzo szybko kończy się tym, że na jedno pytanie np. „Jaki mamy wynik sprzedaży?” uzyskujemy wiele różniących się od siebie odpowiedzi w zależności od tego, kogo pytamy – Marketing „wie swoje”, Sprzedaż widzi co innego, Logistyka też ma swoją wersję prawdy. Podejmowanie decyzji w takim otoczeniu jest bardzo utrudnione a uwspólnianie różnych wersji jest czasochłonne i rodzi konflikty.
- Nieśmiertelny Excel
To niesamowite jak wiele firm (łącznie z globalnymi korporacjami) swoje główne rozwiązania raportowe, w jakimś obszarze, opiera o poczciwego Excela. Dla jasności, sam uważam, że Excel potrafi idealnie rozszerzyć możliwości platformy raportowej np. w obszarze analizy Ad-Hoc, jednak opieranie się w 100% tylko na Excelu to proszenie się o kłopoty. Głównymi problemami takich rozwiązań są: tendencja do produkowania bardzo dużej liczby plików raportowych, do których po niedługim czasie nikt już nie zagląda, problemy z automatyczną aktualizacją danych – większość rozwiązań tego typu, na którymś etapie, trzeba niestety „popychać” ręcznie, co jest czasochłonne i niepotrzebnie angażuje ludzi oraz utrudnione współdzielenie plików z zachowaniem odpowiedniej warstwy bezpieczeństwa (np.: centrala widzi wszystko a regiony tylko „swoje” dane). Bardziej kompletną lista problemów, które są związane z takim podejściem, opisałem tu: Excel Hell.
Jest jednak nadzieja: problemy te, wręcz z definicji, znikają przy odpowiednim wdrożeniu platformy Business Intelligence.
Przy okazji, to samoistne wytworzenie się silosów o którym pisałem wcześniej, może pojawić się również dlatego, że w organizacji zostały źle wdrożone rozwiązania BI typu self-service – dobrym przykładem jest tu wdrożenie Power BI bez odpowiedniej ścieżki uwzględniania nowego narzędzia w ekosystemie firmy. Ogłoszone z pompą „przejście” na Power BI bez szkoleń, bez wizji i bez międzydziałowej współpracy najprawdopodobniej skończy się tym, że istniejące problemy zostaną wzniesione po prostu na bardziej „nowoczesny i modny” poziom bez specjalnej korzyści dla organizacji. Dla przykładu z ostatniej ewaluacji u Klienta – czy sytuację, w której w firmie istnieje ponad 30 000 (trzydzieści tysięcy!) opublikowanych raportów Power BI i pewnie drugie tyle nieopublikowanych, można uznać za pożądaną? Jak w takim gąszczu raportów odnaleźć ten właściwy i najbardziej aktualny?
Uproszczenie rozwiązania z jednoczesnym podniesieniem jego możliwości
Na szczęście dziś mamy do dyspozycji rozwiązania, które zostały od podstaw zaprojektowane tak, aby w obszarze analityki rozwiązać wszystkie wymienione wyżej problemy.
Jedną z takich technologii jest Snowflake. Cechy Snowflake opisałem już we wcześniejszym artykule, więc teraz chciałbym się skoncentrować na tym, jak wdrożenie Snowflake pozwala na uproszczenie architektury całego rozwiązania.
Umieszczenie Snowflake jako centralnego repozytorium danych znacznie upraszcza całe rozwiązanie – do usługi mogą trafiać dane z różnych źródeł, usługa od razu stanowi zarówno warstwę Data Lake i hurtowni danych (EDW – Enterprise Data Warehouse), a dzięki wysokiej wydajności i dynamicznemu skalowaniu możemy bez dodatkowej warstwy pośredniej (np. dedykowane usługi analityczne) serwować dane do narzędzi analitycznych. Już to co wymieniłem pozwala zrezygnować z dodatkowych usług klasycznie używanych w tego typu rozwiązaniach, a to jeszcze nie koniec – Snowflake może być w pełni obsługiwany z poziomu języka SQL, a to bardzo istotna i nie zawsze eksponowana pozytywna cecha. Język SQL jest szeroko znany i używany przez deweloperów, analityków, statystyków itp., a to pozwala bez strachu myśleć o skompletowaniu załogi inaczej niż w przypadku usług obsługiwanych przez specyficzne języki, które zna tylko garstka ludzi.
Bardzo istotne jest również spojrzenie w przyszłość – czy jeśli planujemy uruchomić Data Science, to Snowflake będzie dla mnie? Do niedawna odpowiedź nie była taka oczywista, jednak od momentu, w którym możliwe jest wykonywanie kodu Python bezpośrednio na Snowflake, uzyskujemy możliwości wydajnego przetwarzania danych ogromnych wolumenów danych (jak to zwykle ma miejsce w obszarze zaawansowanej analityki) bez konieczności „przeciągania” danych do kolejnych usług czy – w bardzo niestety popularnym ale nieprawidłowym podejściu – do swojej stacji roboczej. Ze Snowflake dane pozostają bezpieczne w obszarze naszej platformy, a wyniki eksperymentów uzyskujemy szybciej i w bardziej zorganizowany sposób.
Nie bez znaczenia jest również możliwość bezpiecznego udostępniania danych, dzięki któremu możemy dodatkowo uprościć etap wymiany danych z naszymi kooperantami. Jest to trend, który będzie się mocno rozwijał i ta swoista demokratyzacja dostępu do danych pozwoli na jeszcze lepsze analizy i pełniejsze zrozumienie procesów zachodzących nie tylko w naszej firmie ale i jej szeroko rozumianym otoczeniu.
Podsumowanie
Mógłbym pisać jeszcze dłuższą chwilę o tym, jak dużym zagrożeniem jest stosowanie „przekombinowanej architektury” – odejście pracownika, który znał unikalne aspekty techniczne wykorzystywanego rozwiązania, niepoprawna optymalizacja wyrafinowanej usługi, czy trudności w administracji i harmonizacji kilkunastu różnych i niekoniecznie dobrze ze sobą współpracujących elementów stają się klątwą takich rozwiązań. Oczywiście są „gracze”, którzy inwestując ogromne budżety są w stanie z takich architektur wyciskać maksimum korzyści, jednak patrząc realnie na sprawę, ryzyko, że przy takim podejściu nam się nie uda jest po prostu duże. Bez utrzymywania sporego i „redundantnego” zespołu nie możemy spać spokojnie.
W tym miejscu mam nadzieję, że wyraźnie już widać, jak dobór uniwersalnej a jednocześnie obdarzonej unikalnymi cechami technologii takiej jak Snowflake może wydatnie zwiększyć nasze możliwości i ogromnie poprawić nasze bezpieczeństwo w obszarze analityki. Finalnie, możemy też spodziewać się sporych oszczędności, jeśli tylko uczciwie policzymy czas i środki, które przeznaczaliśmy na utrzymanie i rozwój skomplikowanej architektury. Podejście “make it simple” jest zatem tym, które doradzam nawet największym Klientom, ponieważ nic tak nie cieszy Biznesu jak szybko materializujące się wyniki pracy i wysoka wydajność rozwiązania. Z drugiej strony nic tak nie “smuci” Biznesu jak przesuwanie terminu oddania jakiejś fazy tylko ze względu na techniczne problemy “bo jeszcze coś musimy dokonfigurować” albo “nasze komponenty rozwiązania jednak nie współpracują za sobą tak, jak tego oczekiwaliśmy” – zapewniam, że nikt (czy to deweloper czy Klient) nie chce być w takiej sytuacji. Zachęcam zatem jeszcze raz: “make it simple”!
Norbert Kulski – Transition Technologies MS