Panda AI kasutamine andmete analüüsimiseks – KDnuggets

Pandase AI kasutamine andmete analüüsimiseks – KDnuggets

Allikasõlm: 2547978

Kas tunnete Pythoni andmevälja? Kui jah, siis ma võin kihla vedada, et enamik teist kasutab Pandasid andmetega manipuleerimiseks.

Kui te ei tea Pandad on avatud lähtekoodiga Pythoni pakett, mis on spetsiaalselt välja töötatud andmete analüüsiks ja manipuleerimiseks. See on üks enimkasutatud pakette ja tavaliselt õpite seda Pythonis andmeteaduse teekonda alustades.

Niisiis, mis on Pandas AI? Arvan, et loed seda artiklit, sest tahad sellest teada.

Noh, nagu teate, oleme ajal, mil generatiivne AI on kõikjal. Kujutage ette, kas saate generatiivse AI abil oma andmeid analüüsida; asjad oleksid palju lihtsamad.

See on see, mida Pandas AI toob. Lihtsate viipade abil saame oma andmekogumit kiiresti analüüsida ja nendega manipuleerida, ilma andmeid kuhugi saatmata.

See artikkel uurib, kuidas Pandase AI-d andmeanalüüsi ülesannete jaoks kasutada. Artiklis õpime järgmist.

  • Panda AI seadistamine
  • Andmete uurimine Pandas AI-ga
  • Andmete visualiseerimine Pandas AI-ga
  • Pandas AI Täpsem kasutus

Kui olete valmis õppima, asuge sellesse!

Panda AI on Pythoni pakett, mis rakendab Panda API-sse suure keelemudeli (LLM) võime. Saame kasutada standardset Panda API-t koos generatiivse AI-täiendusega, mis muudab Pandad vestlustööriistaks.

Peamiselt tahame Panda AI-d kasutada paketi pakutava lihtsa protsessi tõttu. Pakett võib andmeid automaatselt analüüsida lihtsa viipa abil, ilma keerulist koodi nõudmata.

Piisab sissejuhatusest. Läheme käed külge.

Esiteks peame installima paketi enne midagi muud.

pip install pandasai

 

Järgmisena peame seadistama LLM-i, mida soovime Panda AI jaoks kasutada. Võimalusi on mitu, näiteks OpenAI GPT ja HuggingFace. Selle õpetuse jaoks kasutame siiski OpenAI GPT-d.

OpenAI mudeli seadistamine Pandas AI-sse on lihtne, kuid teil on vaja OpenAI API võtit. Kui teil seda pole, võite nende juurde minna veebisait

Kui kõik on valmis, seadistame Pandas AI LLM alloleva koodi abil.

from pandasai.llm import OpenAI

llm = OpenAI(api_token="Your OpenAI API Key")

 

Nüüd olete valmis Pandas AI-ga andmeanalüüsi tegema.

Andmete uurimine Pandas AI-ga

Alustame näidisandmestikuga ja proovime Pandas AI-ga andmete uurimist. Selles näites kasutaksin Titanicu andmeid Seaborni paketist.

import seaborn as sns
from pandasai import SmartDataframe

data = sns.load_dataset('titanic')
df = SmartDataframe(data, config = {'llm': llm})

 

Panda AI käivitamiseks peame need edastama Panda AI nutika andmeraami objektile. Pärast seda saame oma DataFrame'is vestlustoiminguid teha.

Proovime lihtsat küsimust.

response = df.chat("""Return the survived class in percentage""")

response

 

Ellujäänute osakaal on: 38.38%

Pandas AI võiks viipast välja pakkuda lahenduse ja vastata meie küsimustele. 

Saame esitada Panda AI küsimusi, mis annavad vastused DataFrame'i objektis. Näiteks on siin mitmeid viipasid andmete analüüsimiseks.

#Data Summary
summary = df.chat("""Can you get me the statistical summary of the dataset""")

#Class percentage
surv_pclass_perc = df.chat("""Return the survived in percentage breakdown by pclass""")

#Missing Data
missing_data_perc = df.chat("""Return the missing data percentage for the columns""")

#Outlier Data
outlier_fare_data = response = df.chat("""Please provide me the data rows that
contains outlier data based on fare column""")

 

Panda AI kasutamine andmete analüüsimiseks
Pilt autorilt
 

Ülaltoodud pildilt näete, et Panda AI suudab anda DataFrame'i objektiga teavet, isegi kui viip on üsna keeruline.

Panda AI ei saa aga hakkama liiga keeruka arvutusega, kuna paketid on piiratud LLM-iga, mille me SmartDataFrame'i objektile edastame. Tulevikus olen kindel, et Pandas AI saaks palju üksikasjalikuma analüüsiga hakkama, kuna LLM-i võimekus areneb.

Andmete visualiseerimine Pandas AI-ga

Panda AI on kasulik andmete uurimiseks ja suudab andmeid visualiseerida. Kuni viipa täpsustame, annab Pandas AI visualiseerimisväljundi.

Proovime lihtsat näidet.

response = df.chat('Please provide me the fare data distribution visualization')

response

 

Panda AI kasutamine andmete analüüsimiseks
Pilt autorilt
 

Ülaltoodud näites palume Panda AI-l visualiseerida veeru Hinna jaotust. Väljund on andmestiku tulpdiagrammi jaotus.

Nii nagu Data Exploration, saate teostada mis tahes andmete visualiseerimist. Kuid Panda AI ei saa endiselt hakkama keerukamate visualiseerimisprotsessidega.

Siin on mõned muud näited andmete visualiseerimisest Pandas AI-ga.

kde_plot = df.chat("""Please plot the kde distribution of age column and separate them with survived column""")

box_plot = df.chat("""Return me the box plot visualization of the age column separated by sex""")

heat_map = df.chat("""Give me heat map plot to visualize the numerical columns correlation""")

count_plot = df.chat("""Visualize the categorical column sex and survived""")

 

Panda AI kasutamine andmete analüüsimiseks
Pilt autorilt
 

Krunt näeb kena ja korralik välja. Vajadusel saate Panda AI-lt lisateavet küsida.

Panda AI täiustab kasutamist

Panda AI kogemuse parandamiseks saame kasutada mitmeid Panda AI sisseehitatud API-sid.

Vahemälu tühjendamine

Vaikimisi salvestatakse kõik Panda AI objekti viibad ja tulemused kohalikku kataloogi, et vähendada töötlemisaega ja lühendada aega, mida Panda AI vajab mudeli kutsumiseks. 

Kuid see vahemälu võib mõnikord muuta Panda AI tulemuse ebaoluliseks, kuna nad arvestavad varasema tulemusega. Seetõttu on hea tava vahemälu tühjendada. Saate need kustutada järgmise koodiga.

import pandasai as pai
pai.clear_cache()

 

Vahemälu saab ka alguses välja lülitada.

df = SmartDataframe(data, {"enable_cache": False})

 

Sel viisil ei salvestata algusest peale ühtegi viipa ega tulemust.

Kohandatud pea

Pandas AI-le on võimalik edastada näidispea DataFrame. See on kasulik, kui te ei soovi LLM-iga privaatseid andmeid jagada või soovite lihtsalt Panda AI-le eeskuju tuua.

Selleks saate kasutada järgmist koodi.

from pandasai import SmartDataframe
import pandas as pd

# head df
head_df = data.sample(5)

df = SmartDataframe(data, config={
    "custom_head": head_df,
    'llm': llm
})

Panda tehisintellekti oskused ja agendid

Pandas AI võimaldab kasutajatel edastada näidisfunktsiooni ja seda agendi otsusega täita. Näiteks ühendab allolev funktsioon kaks erinevat DataFrame'i ja me edastame Panda AI agendi jaoks näidisgraafiku funktsiooni.

import pandas as pd
from pandasai import Agent
from pandasai.skills import skill

employees_data = {
    "EmployeeID": [1, 2, 3, 4, 5],
    "Name": ["John", "Emma", "Liam", "Olivia", "William"],
    "Department": ["HR", "Sales", "IT", "Marketing", "Finance"],
}

salaries_data = {
    "EmployeeID": [1, 2, 3, 4, 5],
    "Salary": [5000, 6000, 4500, 7000, 5500],
}

employees_df = pd.DataFrame(employees_data)
salaries_df = pd.DataFrame(salaries_data)

# Function doc string to give more context to the model for use of this skill
@skill
def plot_salaries(names: list[str], salaries: list[int]):
    """
    Displays the bar chart  having name on x-axis and salaries on y-axis
    Args:
        names (list[str]): Employees' names
        salaries (list[int]): Salaries
    """
    # plot bars
    import matplotlib.pyplot as plt

    plt.bar(names, salaries)
    plt.xlabel("Employee Name")
    plt.ylabel("Salary")
    plt.title("Employee Salaries")
    plt.xticks(rotation=45)

    # Adding count above for each bar
    for i, salary in enumerate(salaries):
        plt.text(i, salary + 1000, str(salary), ha='center', va='bottom')
    plt.show()


agent = Agent([employees_df, salaries_df], config = {'llm': llm})
agent.add_skills(plot_salaries)

response = agent.chat("Plot the employee salaries against names")

 

Agent otsustab, kas nad peaksid kasutama funktsiooni, mille me Panda AI-le määrasime või mitte. 

Oskuse ja agendi kombineerimine annab teile DataFrame'i analüüsi jaoks paremini kontrollitava tulemuse.

Oleme õppinud, kui lihtne on kasutada Pandase AI-d meie andmeanalüüsi toimimiseks. Kasutades LLM-i jõudu, saame piirata andmeanalüüsi tööde kodeerimise osa ja keskenduda selle asemel kriitilistele töödele.

Sellest artiklist õppisime Panda AI seadistamist, Panda AI-ga andmete uurimist ja visualiseerimist ning kasutamist. Saate paketiga palju enamat teha, seega külastage neid dokumentatsioon edasi õppima.
 
 

Cornelius Yudha Wijaya on andmeteaduse juhi assistent ja andmete kirjutaja. Allianz Indonesias täiskohaga töötades armastab ta sotsiaalmeedia ja kirjutamismeedia kaudu Pythoni ja andmete näpunäiteid jagada. Cornelius kirjutab erinevatel tehisintellekti ja masinõppe teemadel.

Ajatempel:

Veel alates KDnuggets