Scrigroup - Documente si articole

Username / Parola inexistente      

Home Documente Upload Resurse Alte limbi doc  

CATEGORII DOCUMENTE




loading...



AccessAdobe photoshopAlgoritmiAutocadBaze de dateCC sharp
CalculatoareCorel drawDot netExcelFox proFrontpageHardware
HtmlInternetJavaLinuxMatlabMs dosPascal
PhpPower pointRetele calculatoareSqlTutorialsWebdesignWindows
WordXml


Data mining cu Weka – Preprocesarea Datelor

algoritmi

+ Font mai mare | - Font mai mic








DOCUMENTE SIMILARE

Trimite pe Messenger
Constructia si simularea executiei unui program (in limbaj de asamblare)
PROIECT ASDN - Dispozitiv de comanda pentru doua lifturi alaturate
ALGORITMUL SIMPLEX - Algoritmul simplex dual
Proiect ASDN - Algoritmul de minimizare Karnaugh
Algoritmi semnatura digitala
Tehnici de programare structurata: Recursivitatea, Backtracking
Tipuri de limbaje de programare
Arbori de decizie - Inteligenta artificiala
Data mining cu Weka – Preprocesarea Datelor
CIRCUITE LOGICE CMOS

Data mining cu Weka –
Preprocesarea Datelor

Cuprins

*      Necesitatea preprocesarii datelor




*      Etape in preprocesarea datelor

n      Colectarea datelor

n      Descrierea datelor

n      Verificarea calitatii datelor

n      Finalizarea etapei de preprocesare

Necesitatea preprocesarii datelor

*      Principalul criteriu pentru asigurarea calitatii rezultatelor unui proces de data mining este asigurarea calitatii datelor

*      Calitatea rezultatelor depinde de calitatea datelor introduse in prelucrare

*      Datele reale au o calitate scazuta

Exercitiu 1

*      Integrarea datelor din 2 surse diferite

n      Fisier excel: ex1_dateBanca.xls

n      Fisier text: ex1_datePers.txt

n      Integrati datele din cele doua fisiere intr-un singur fisier excel

n      Exportati fisierul sub forma csv trasformandu-l ulterior in “.arff”

n      Obs: se considera ca id-ul este unic pentru ambele fisiere

Criterii de selectie a datelor

*      Selectati din fisierul de date ex1_sel.txt datele care trebuiesc folosite pentru un proces de data mining care vrea sa realizeze

n      1. analiza si descrierea unor clienti care au carte de credit

n      2. analiza si descrierea unor clase de clienti receptivi la reclame

Criterii de selectie a datelor

*      Ce atribute aveti nevoie pentru a face urmatoarele proiecte de DM:

n      fidelitatea clientului: prezicerea momentului cand clientul va parasi compania optand in favoarea concurentei

n      detectarea fraudei: identificarea tranzactiilor cu o probabilitate mare de a fi frauduloase

n      marketing direct: identificarea prospectelor care trebuiesc incluse intr-o lista de expediere pentru a obtine o rata de raspunsuri pozitive cat mai ridicata

n      analiza pachetului de piata: necesitatea de a intelege ce produse sau servicii sunt de obicei achizitionate concomitent

Date inconsistente

*      Date inconsistente

n      Pot aparea in special in cazul in care datele au fost integrate din mai multe surse de date

n      Aceste inconsistente trebuiesc eliminate aproprii inceperii prelucrarii datelor

n      Neeliminarea lor duce la aparitia unor valori in plus, incorecte:

*      Exercitiu:

n      Depistati datele inconsistente din fisierul

*      ex2_ID.xls

*      Stabiliti modul de tratare a lor

Date lipsa

*      Inlocuirea datelor lipsa din fisierul ex3_DL.xls

n      Identificati valorile lipsa

n      Stabiliti modul de tratare a lor



n      Efectuati corecturile necesare trasformati fisierul in fisier .arff si deschideti-l cu Weka

n      Tratarea datelor lipsa:

*      Inlaturarea in intregime a unei inregistrari cu date lipsa

*      Inlaturarea in intregime a atributului (coloanei)

*      Pastrarea inregistrarii cu date lipsa

*      Completarea datelor lipsa

Date cu deviatie mare

*      Gasiti valori devinante in setul de date ex4_DA.xls

*      OBS: faceti distinctia intre date cu deviatie mare si date aberante

Descrierea datelor

*      Uitati-va peste fisierul obj2c.arff

n      Descrieti atributele:

*      RecReclame

*      CarteCredit

*      AchizSpec

*      NrProprietati

*      Locuinta

*      Concluzie: Etapa de descriere a datelor este esentiala pentru finalizarea unui proiect de DM: pe baza acestei descrieri se vor face interpretarile finale

Selectie de fisier reprezentativ

*      Faceti o selectie de 25 de linii din fisierul obj2c.arff

*      Determinati pentru atributele

n      Varsta

n      Venit

n      Stare civila

*      Urmatoarele marimi:

n      Media,

n      mediana,

n      maximul,

n      minimul

*      Incarcati in Weka fisierul obj2c.arff si comparati valorile calculate pentru selectia facuta cu cele oferite de Weka pentru intregul fisier.

n      Este selectia facuta de voi reprezentativa pentru intregul set de date?

Exercitiu

*      Cautati pe internet fisier “.arff”

n      Descrieti cimpurile prezente

n      Identificati cimpurile necesare intr-o prelucrare

Bibliografie

[1] Bounsaythip, C., si Runsala, R., E., - Overview of Data Minig of Customer Behavior Modeling, Research Report, VTT Information Technology, 2001.

[2] Kirkby, R., - WEKA Explorer User Guide, The University of Waikato, 2002.

[3] Witten, I., H., si Frank, E., - Data minig: Practical machine learning tools and techniques with Java implementations, Ed. Academic Press, New Zeeland, 1999.



loading...






Politica de confidentialitate

DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 1105
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2020 . All rights reserved

Distribuie URL

Adauga cod HTML in site