SQL za vizualizacijo podatkov: Kako pripraviti podatke za grafikone in grafe - KDnuggets

SQL za vizualizacijo podatkov: Kako pripraviti podatke za grafikone in grafe – KDnuggets

Izvorno vozlišče: 2366744

SQL za vizualizacijo podatkov: Kako pripraviti podatke za grafikone in grafe
 

Verjetno ste opazili, da ustvarjanje vizualno osupljivih grafikonov in grafov ni samo izbira pravih barv ali oblik. Prava čarovnija se zgodi v zakulisju, v podatkih, ki hranijo te vizualne elemente.

Toda kako pridobiti te podatke ravno prav? Zdaj je tukaj SQL – naš ključ do področja vizualizacije podatkov. SQL vam pomaga razrezati, razdeliti in pripraviti vaše podatke na način, da zasijejo v katerem koli vizualizacijskem orodju, ki ga uporabljate.

Torej, kaj vas čaka v tem branju? Začeli bomo s prikazom, kako lahko SQL uporabimo za pripravo podatkov za vizualizacijo podatkov. Nato vas bomo vodili skozi različne vrste vizualizacij in kako pripraviti podatke za vsako, nekatere od njih pa bodo imele končni izdelek. Vse to je namenjeno temu, da vam da ključe za ustvarjanje privlačnih vizualnih zgodb. Zato vzemite svojo kavo, ta bo dobra!

Preden se poglobimo v vrste vizualizacij, poglejmo, kako SQL pripravi podatke, ki jih boste vizualizirali. SQL je kot pisec scenarija za vaš vizualni »film«, ki natančno prilagaja zgodbo, ki jo želite povedati.

 

SQL za vizualizacijo podatkov: Kako pripraviti podatke za grafikone in grafe

filter

Klavzula WHERE filtrira neželene podatke. Če vas na primer za analizo zanimajo samo uporabniki, stari od 18 do 25 let, jih lahko filtrirate s SQL.

Predstavljajte si, da analizirate povratne informacije strank. Z uporabo SQL lahko filtrirate samo zapise, kjer je povratna ocena nižja od 3, pri čemer označite področja za izboljšave.

SELECT * FROM feedbacks WHERE rating 3;

Razvrščanje

Klavzula ORDER BY razporedi vaše podatke. Razvrščanje je lahko ključnega pomena za grafe časovnih vrst, kjer morajo biti podatki prikazani kronološko.

Pri izrisu črtnega grafa za mesečno prodajo izdelka lahko SQL razvrsti podatke po mesecih.

SELECT month, sales FROM products ORDER BY month;

pridruži se

Stavek JOIN združuje podatke iz dveh ali več tabel. To omogoča bogatejše nabore podatkov in s tem celovitejše vizualizacije.

Morda imate podatke o uporabnikih v eni tabeli in podatke o nakupih v drugi. SQL jih lahko združi, da prikaže skupno porabo na uporabnika.

SELECT users.id, SUM(purchases.amount) FROM users
JOIN purchases ON users.id = purchases.user_id
GROUP BY users.id;

skupina

Klavzula GROUP BY kategorizira podatke. Pogosto se uporablja z agregatnimi funkcijami, kot so COUNT(), SUM() in AVG(), za izvajanje izračunov za vsako skupino.

Če želite izvedeti povprečni čas, porabljen na različnih delih spletnega mesta, lahko SQL združi podatke po razdelkih in nato izračuna povprečje.

SELECT section, AVG(time_spent) FROM website_data
GROUP BY section;

Preden se potopite v različne vrste vizualnih pripomočkov, je pomembno razumeti, zakaj so bistveni. Vsak grafikon ali graf si predstavljajte kot drugačno »lečo« za ogled podatkov. Vrsta, ki jo izberete, vam lahko pomaga zajeti trende, prepoznati odstopanja ali celo povedati zgodbo.

Charts

V znanosti o podatkih se grafikoni uporabljajo v prvih korakih razumevanja nabora podatkov. Na primer, lahko uporabite histogram za razumevanje porazdelitve starosti uporabnikov v mobilni aplikaciji. Za risanje teh grafikonov se običajno uporabljajo orodja, kot sta Matplotlib ali Seaborn v Pythonu.

Zaženete lahko poizvedbe SQL, da dobite štetja, povprečja ali katero koli meritev, ki vas zanima, in te podatke neposredno vnesete v svoje orodje za grafikone, da ustvarite vizualizacije, kot so palični grafikoni, tortni grafikoni ali histogrami.

Naslednja poizvedba SQL nam pomaga združiti starost uporabnikov glede na mesto. Bistvenega pomena je za pripravo podatkov, da lahko vizualiziramo, kako se starost razlikuje od mesta do mesta.

# SQL code to find the average age of users in each city
SELECT city, AVG(age)
FROM users
GROUP BY city;

Uporabimo Matplotlib za ustvarjanje paličnega grafikona. Naslednji delček kode predvideva, da grouped_df vsebuje podatke o povprečni starosti iz zgornje poizvedbe SQL in ustvari palične grafikone, ki prikazujejo povprečno starost uporabnikov glede na mesto.

import matplotlib.pyplot as plt # Assuming grouped_df contains the average age data
plt.figure(figsize=(10, 6))
plt.bar(grouped_df['city'], grouped_df['age'], color='blue')
plt.xlabel('City')
plt.ylabel('Average Age')
plt.title('Average Age of Users by City')
plt.show()

Tukaj je stolpčni grafikon.

 

SQL za vizualizacijo podatkov: Kako pripraviti podatke za grafikone in grafe

grafi

Recimo, da spremljate hitrost spletnega mesta skozi čas. Linijski graf vam lahko prikaže trende, vrhove in padce v podatkih ter poudari, kdaj spletno mesto deluje najbolje in kdaj najslabše.

Orodja, kot sta Plotly ali Bokeh, vam lahko pomagajo ustvariti te bolj zapletene vizualizacije. Uporabili bi SQL za pripravo podatkov časovnih vrst, po možnosti za izvajanje poizvedb, ki izračunajo povprečni čas nalaganja na dan, preden bi jih poslali svojemu orodju za risanje grafov.

Naslednja poizvedba SQL izračuna povprečno hitrost spletnega mesta za vsak dan. Takšna poizvedba olajša izris črtnega grafa časovne vrste, ki prikazuje uspešnost skozi čas.

-- SQL code to find the daily average loading time
SELECT DATE(loading_time), AVG(speed)
FROM website_speed
GROUP BY DATE(loading_time);

Recimo, da izberemo Plotly, da ustvarimo črtni graf, ki bo prikazoval hitrost spletnega mesta skozi čas. SQL poizvedba nam je pripravila podatke časovne serije, ki prikazuje hitrost spletnega mesta skozi čas.

import plotly.express as px fig = px.line(time_series_df, x='loading_time', y='speed', title='Website Speed Over Time')
fig

Tukaj je črtni graf.

 

SQL za vizualizacijo podatkov: Kako pripraviti podatke za grafikone in grafe

Splošno

Nadzorne plošče so bistvenega pomena za projekte, ki zahtevajo spremljanje v realnem času. Predstavljajte si nadzorno ploščo, ki v realnem času spremlja meritve angažiranosti uporabnikov za spletno platformo.

Orodja, kot so PowerBI, Google Data Studio ali Tableau, lahko črpajo podatke iz baz podatkov SQL, da zapolnijo te nadzorne plošče. SQL lahko združi in posodobi vaše podatke, tako da imate vedno najnovejše vpoglede na nadzorni plošči.

-- SQL code to find the current number of active users and average session time
SELECT COUNT(DISTINCT user_id) as active_users, AVG(session_time)
FROM user_sessions
WHERE session_end IS NULL;

V PowerBI bi običajno uvozili svojo bazo podatkov SQL in zagnali podobne poizvedbe za ustvarjanje vizualnih elementov za nadzorno ploščo. Prednost uporabe orodja, kot je PowerBI, je možnost ustvarjanja nadzornih plošč v realnem času. Nastavite lahko več ploščic za prikaz povprečne starosti in drugih KPI-jev, ki se posodabljajo v realnem času.

Pri vizualizaciji podatkov ne gre le za lepe grafikone in grafe; gre za pripovedovanje prepričljive zgodbe s svojimi podatki. SQL igra ključno vlogo pri skriptiranju te zgodbe, saj vam pomaga pripraviti, filtrirati in organizirati podatke v zakulisju. Podobno kot zobniki v dobro naoljenem stroju, poizvedbe SQL služijo kot nevidna mehanika, zaradi katere so vaše vizualizacije ne samo možne, ampak tudi pronicljive.

Če ste lačni več praktičnih izkušenj, obiščite Platforma StrataScratch, ki ponuja ogromno virov, ki vam bodo pomagali rasti. Od vprašanja za intervju o znanosti o podatkih do praktičnih podatkovnih projektov je StrataScratch zasnovan tako, da izostri vaše spretnosti in vam pomaga najti sanjsko službo.
 
 

Nate Rosidi je podatkovni znanstvenik in v strategiji izdelkov. Je tudi izredni profesor, ki poučuje analitiko in je ustanovitelj StrataScratch, platforma, ki pomaga podatkovnim znanstvenikom pri pripravi na intervjuje z resničnimi vprašanji za intervjuje vrhunskih podjetij. Povežite se z njim Twitter: StrataScratch or LinkedIn.

Časovni žig:

Več od KDnuggets