By
Källa - https://www.wvgazettemail.com/
Beskrivning
Kmart är en ledande onlineåterförsäljare i USA och som en del av deras årliga försäljningsöversiktsmöte måste de besluta om sin försäljningsstrategi för år 2020 baserat på insikterna från försäljningsdata under 2019.
Data är relaterad till försäljning för varje månad av 2019 och uppgiften är att generera viktiga insikter som kommer att hjälpa säljteam av Kmart att ta några viktiga affärsbeslut för att finjustera sin försäljningsstrategi.
Dataförståelse
- Data tillhör Kmart - en ledande online-återförsäljare i USA.
- Tidsperiod – januari 2019 – december 2019
- Unik produkt — 19
- Totala beställningar — 178437
- Städer - 9
- KPI:er — total försäljning, totala sålda produkter
Källa — Efter författare
Affärsproblembeskrivningar
- Vilken var den bästa månaden för försäljning? Hur mycket tjänade man den månaden?
- Vilken stad hade flest försäljningar?
- Rekommendera den lämpligaste tiden att visa reklam för att maximera sannolikheten för att kunderna köper produkterna?
- Vilka produkter såldes mest? Varför tror du att den sålde mest?
Dataanalys med Python
- Laddade data för varje månad och gjorde dataram med pandor
- Sammanfogad datauppsättning för att skapa en datauppsättning för 2019 års försäljning.
- Behandling av nollvärden och skräpdata.
- Gjorde en filtrerad datauppsättning efter förbearbetning av data
- Analys och svar på affärsproblem. (visualiseringar med matplot och seaborn-bibliotek)
1. Importera bibliotek
import pandas as pd
2. Laddar Dataset och gör Dataframes
df1=pd.read_csv("Sales_January_2019.csv") df1["month"]="Jan" df2=pd.read_csv("Sales_February_2019.csv") df2["month"]="feb" df3=pd.read_csv("Sales_March_2019.csv") df3["month"]="mar" df4=pd.read_csv("Sales_April_2019.csv") df4["month"]="apr" df5=pd.read_csv("Sales_May_2019.csv") df5["month"]="may" df6=pd.read_csv("Sales_June_2019.csv") df6["month"]="june" df7=pd.read_csv("Sales_July_2019.csv") df7["month"]="july" df8=pd.read_csv("Sales_August_2019.csv") df8["month"]="aug" df9=pd.read_csv("Sales_September_2019.csv") df9["month"]="sep" df10=pd.read_csv("Sales_October_2019.csv") df10["month"]="oct" df11=pd.read_csv("Sales_November_2019.csv") df11["month"]="nov" df12=pd.read_csv("Sales_December_2019.csv") df12["month"]="dec"list=[df1,df2,df3,df4,df5,df6,df7,df8,df9,df10,df11,df12]
3. Formen på varje månads dataset
for i in list: print(i.shape)
Källa- Efter författare
4. Sammanfoga dataset
frame=pd.concat(list)
Källa- Efter författare
5. Kolumner i slutlig datauppsättning
frame.columns
Källa-Efter författare
6. Dataraminformation
frame.info()
Källa-Efter författare
7. Nullvärden i datamängden
frame.isnull().sum() # there are 545 null values in each column except month
Källa-Efter författare
(frame.isnull().sum().sum())/len(frame)*100 # we have 1.75 percent null values , so we can drop them
Källa-Efter författare
8. Släpp nollvärden
frame=frame.dropna() frame.isnull().sum()
Källa-Efter författare
9. Ta bort skräpdata
vi observerade att det finns 355 kolumner där värden i rader är desamma som rubriken. så gör en ny dataram där dessa värden kommer att exkluderas.
frame[frame['Quantity Ordered'] == "Quantity Ordered"]
df_filtered = frame[frame['Quantity Ordered'] != "Quantity Ordered"] df_filtered.head(15) df_filtered.shape
Källa-Efter författare
Lösningar på affärsproblem
F 1. Vilken var den bästa månaden för försäljning? Hur mycket tjänade man den månaden?
df_filtered["Quantity Ordered"]=df_filtered["Quantity Ordered"].astype("float") df_filtered["Price Each"]=df_filtered["Price Each"].astype("float")# Creating Sales Column By multiplying Quantity Ordered and Price of Each Productdf_filtered["sales"]=df_filtered["Quantity Ordered"]*df_filtered["Price Each"]
Källa-Efter författare
month=["dec","oct","apr","nov","may","mar","july","june","aug",'feb',"sep","jan"] df["month"]=monthfrom matplotlib import pyplot as plt a4_dims = (11.7, 8.27) fig, ax = pyplot.subplots(figsize=a4_dims) import seaborn as sns sns.barplot(x = "sales", y = "month", data = df) plt.title("Month wise Sale") plt.show()
Källa-Efter författare
Den bästa månaden för försäljning var DECEMBER.
Den totala försäljningen i december är $4619297.
F 2. Vilken stad hade flest försäljningar?
dftemp = df_filtered list_city = [] for i in dftemp['Purchase Address']: list_city.append(i.split(",")[1]) dftemp['City'] = list_city dftemp.head()
Källa-Efter författare
df_city=df_filtered.groupby(["City"])['sales'].sum().sort_values(ascending=False) df_city=df_city.to_frame() df_city
Källa-Efter författare
city=["San Francisco","Los Angeles","New York City","Boston","Atlanta","Dallas","Seattle","Portland","Austin"] df_city["city"]=cityfrom matplotlib import pyplot a4_dims = (11.7, 8.27) fig, ax = pyplot.subplots(figsize=a4_dims) sns.barplot(x = "sales", y = "city", data = df_city) plt.title("City wise Sales") plt.show()
Källa-Efter författare
San Francisco har den högsta försäljningen f runt $8262204.
F 3 Vilka produkter såldes mest?
print(df_filtered["Product"].unique()) print(df_filtered["Product"].nunique())
källa- Av författare
df_p=df_filtered.groupby(['Product'])['Quantity Ordered'].sum().sort_values(ascending=False).head() df_p=df_p.to_frame() df_p
Källa-Efter författare
product=["AAA Batteries (4-pack)","AA Batteries (4-pack)","USB-C Charging Cable","Lightning Charging Cable","Wired Headphones"] df_p["Product"]=productfrom matplotlib import pyplot a4_dims = (11.7, 8.27) fig, ax = pyplot.subplots(figsize=a4_dims) sns.barplot(x = "Quantity Ordered", y = "Product", data = df_p) plt.title("Prouct and Quantity Ordered") plt.show()
Källa-Efter författare
31017.0 kvantitet AAA-batterier (4-pack) säljs på ett år. Den säljs maximalt eftersom det är den billigaste produkten.
F 4 Rekommendera den lämpligaste tiden att visa reklam för att maximera sannolikheten för att kunderna köper produkterna?
dftime = df_filtered list_time = [] for i in dftime['Order Date']: list_time.append(i.split(" ")[1]) dftime['Time'] = list_time dftime.head()
Källa-Efter författare
df_t=df_filtered.groupby(['Time'])['sales'].sum().sort_values(ascending=False).head() df_t=df_t.to_frame() df_t
Källa-Efter författare
df_t.columns
Källa - Efter författare
Innan du går
Tack för att du läser! Om du vill komma i kontakt med mig, kontakta mig gärna på jsc1534@gmail.com eller min LinkedIn Profil. Du kan också hitta koden för den här artikeln och några riktigt användbara datavetenskapliga projekt på min GitHub konto.
Bio: Juhi Sharma (Medium, GitHub) har 2+ års arbetslivserfarenhet som analytiker med rollen som projektledning, affärsanalys och klienthantering. För närvarande arbetar Juhi som dataanalytiker för ett produktbolag. Juhi har praktisk erfarenhet av att analysera datamängder, skapa maskininlärning och modeller för djupinlärning. Juhi brinner för att lösa affärsproblem med datadrivna tillvägagångssätt.
Ursprungliga. Skickas om med tillstånd.
Relaterat:
Källa: https://www.kdnuggets.com/2021/04/e-commerce-data-analysis-sales-strategy-python.html
- Konto
- reklam
- analys
- analytiker
- runt
- Artikeln
- Atlanta
- austin
- batterier
- BÄST
- boston
- företag
- Uppköp
- laddning
- Stad
- koda
- Kolumn
- företag
- Skapa
- Kunder
- Dallas
- datum
- dataanalys
- datavetenskap
- djupt lärande
- Drop
- e-handel
- Fig.
- Figur
- Francisco
- Fri
- Arbetsmiljö
- hörlurar
- Hur ser din drömresa ut
- HTTPS
- importera
- insikter
- IT
- Juli
- Nyckel
- ledande
- inlärning
- Bibliotek
- blixtnedslag
- Lista
- Los Angeles
- maskininlärning
- Framställning
- ledning
- Medium
- New York
- new york city
- nätet
- online-återförsäljare
- beställa
- ordrar
- Portland
- pris
- Produkt
- Produkter
- projektet
- projektledning
- projekt
- inköp
- Python
- återförsäljare
- översyn
- Till Salu
- försäljning
- San
- San Francisco
- Vetenskap
- Seattle
- So
- säljs
- Strategi
- tid
- Rör
- us
- USB-C
- Arbete
- X
- år
- år