Scrigroup - Documente si articole

Username / Parola inexistente      

Home Documente Upload Resurse Alte limbi doc  

CATEGORII DOCUMENTE





AccessAdobe photoshopAlgoritmiAutocadBaze de dateCC sharp
CalculatoareCorel drawDot netExcelFox proFrontpageHardware
HtmlInternetJavaLinuxMatlabMs dosPascal
PhpPower pointRetele calculatoareSqlTutorialsWebdesignWindows
WordXml


Data mining cu Weka – Preprocesarea Datelor

algoritmi

+ Font mai mare | - Font mai mic







DOCUMENTE SIMILARE

Trimite pe Messenger
Constructia si simularea executiei unui program (in limbaj de asamblare)
PROIECT ASDN - Dispozitiv de comanda pentru doua lifturi alaturate
ALGORITMUL SIMPLEX - Algoritmul simplex dual
Proiect ASDN - Algoritmul de minimizare Karnaugh
Algoritmi semnatura digitala
Tehnici de programare structurata: Recursivitatea, Backtracking
Tipuri de limbaje de programare
Arbori de decizie - Inteligenta artificiala
Data mining cu Weka – Preprocesarea Datelor
CIRCUITE LOGICE CMOS

Data mining cu Weka –
Preprocesarea Datelor

Cuprins

*      Necesitatea preprocesarii datelor



*      Etape in preprocesarea datelor

n      Colectarea datelor

n      Descrierea datelor

n      Verificarea calitatii datelor

n      Finalizarea etapei de preprocesare

Necesitatea preprocesarii datelor

*      Principalul criteriu pentru asigurarea calitatii rezultatelor unui proces de data mining este asigurarea calitatii datelor

*      Calitatea rezultatelor depinde de calitatea datelor introduse in prelucrare

*      Datele reale au o calitate scazuta

Exercitiu 1

*      Integrarea datelor din 2 surse diferite

n      Fisier excel: ex1_dateBanca.xls

n      Fisier text: ex1_datePers.txt

n      Integrati datele din cele doua fisiere intr-un singur fisier excel

n      Exportati fisierul sub forma csv trasformandu-l ulterior in “.arff”

n      Obs: se considera ca id-ul este unic pentru ambele fisiere

Criterii de selectie a datelor

*      Selectati din fisierul de date ex1_sel.txt datele care trebuiesc folosite pentru un proces de data mining care vrea sa realizeze

n      1. analiza si descrierea unor clienti care au carte de credit

n      2. analiza si descrierea unor clase de clienti receptivi la reclame

Criterii de selectie a datelor

*      Ce atribute aveti nevoie pentru a face urmatoarele proiecte de DM:

n      fidelitatea clientului: prezicerea momentului cand clientul va parasi compania optand in favoarea concurentei

n      detectarea fraudei: identificarea tranzactiilor cu o probabilitate mare de a fi frauduloase

n      marketing direct: identificarea prospectelor care trebuiesc incluse intr-o lista de expediere pentru a obtine o rata de raspunsuri pozitive cat mai ridicata

n      analiza pachetului de piata: necesitatea de a intelege ce produse sau servicii sunt de obicei achizitionate concomitent

Date inconsistente

*      Date inconsistente

n      Pot aparea in special in cazul in care datele au fost integrate din mai multe surse de date

n      Aceste inconsistente trebuiesc eliminate aproprii inceperii prelucrarii datelor

n      Neeliminarea lor duce la aparitia unor valori in plus, incorecte:

*      Exercitiu:

n      Depistati datele inconsistente din fisierul

*      ex2_ID.xls

*      Stabiliti modul de tratare a lor

Date lipsa

*      Inlocuirea datelor lipsa din fisierul ex3_DL.xls

n      Identificati valorile lipsa

n      Stabiliti modul de tratare a lor




n      Efectuati corecturile necesare trasformati fisierul in fisier .arff si deschideti-l cu Weka

n      Tratarea datelor lipsa:

*      Inlaturarea in intregime a unei inregistrari cu date lipsa

*      Inlaturarea in intregime a atributului (coloanei)

*      Pastrarea inregistrarii cu date lipsa

*      Completarea datelor lipsa

Date cu deviatie mare

*      Gasiti valori devinante in setul de date ex4_DA.xls

*      OBS: faceti distinctia intre date cu deviatie mare si date aberante

Descrierea datelor

*      Uitati-va peste fisierul obj2c.arff

n      Descrieti atributele:

*      RecReclame

*      CarteCredit

*      AchizSpec

*      NrProprietati

*      Locuinta

*      Concluzie: Etapa de descriere a datelor este esentiala pentru finalizarea unui proiect de DM: pe baza acestei descrieri se vor face interpretarile finale

Selectie de fisier reprezentativ

*      Faceti o selectie de 25 de linii din fisierul obj2c.arff

*      Determinati pentru atributele

n      Varsta

n      Venit

n      Stare civila

*      Urmatoarele marimi:

n      Media,

n      mediana,

n      maximul,

n      minimul

*      Incarcati in Weka fisierul obj2c.arff si comparati valorile calculate pentru selectia facuta cu cele oferite de Weka pentru intregul fisier.

n      Este selectia facuta de voi reprezentativa pentru intregul set de date?

Exercitiu

*      Cautati pe internet fisier “.arff”

n      Descrieti cimpurile prezente

n      Identificati cimpurile necesare intr-o prelucrare

Bibliografie

[1] Bounsaythip, C., si Runsala, R., E., - Overview ofData Minig of Customer Behavior Modeling, Research Report, VTT Information Technology, 2001.

[2] Kirkby, R., - WEKA Explorer User Guide, The University of Waikato, 2002.

[3] Witten, I., H., si Frank, E., - Data minig: Practical machine learning tools and techniques with Java implementations, Ed. Academic Press, New Zeeland, 1999.








Politica de confidentialitate

DISTRIBUIE DOCUMENTUL

Comentarii


Vizualizari: 965
Importanta: rank

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Termeni si conditii de utilizare | Contact
© SCRIGROUP 2019 . All rights reserved

Distribuie URL

Adauga cod HTML in site