Data mining - przegląd metod

Jeśli w naukach ścisłych istnieje coś takiego jak "moda", to mamy modę na data mining. Pod tym określeniem (a także pod określeniami pokrewynymi: "zgłębianie danych", "uczenie maszynowe", "predictive analysis", "machine learning" i zapewne kilkoma innymi), kryją się metody analizy wielowymiarowych zbiorów danych. Zbiory takie zawierają najczęściej zmienne różnych typów: jakościowe, ilościowe, porządkowe, nominalne, dychotomiczne. Dlatego też spektrum zagadnień, funkcjonujących pod wspólną nazwą data mining, jest bardzo szerokie: od prognozowania wartości różnego typu cech i klasyfikacji obiektów do jednej (lub wielu) z grup, poprzez poszukiwanie optymalnej metody grupowania obserwacji w tzw. klastry, po zagadnienia redukcji wymiaru analizowanego zbioru danych (np. celem stworzenia dwuwymiarowej "mapy" obserwacji). Prezentowane szkolenie nie jest wyczerpującym omówieniem żadnego z tych zagadnień. Jest to przegląd podstawowych metod stosowanych do ich analizy. W praktyce, szczególnie w praktyce analiz dużych zbiorów danych (big data) stanowią one punkty wyjściowe lub elementy składowe ostatecznych, realnie działających i wdrażanych rozwiązań. Jest to więc szkolenie dla osób chcących poznać podstawowe narzędzia stosowane w data mining wraz z ich wadami i zaletami. Celem tego szkolenia jest zaznajomienie uczestników z podstawowym niezbędnikiem (angielskie toolbox być może lepiej tu pasuje) analizy wielowymiarowej.

Długość szkolenia

2 dni

Wymagania wstępne

Uczestnicy szkolenia powinni znać podstawowe terminy i zagadnienia statystyki, takie jak: średnia, odchylenie standardowe, mediana, rozkład normalny, korelacja, test statystyczny, p-value. Jeśli ich nie znają, mogą zacząć od szkolenia Podstawy statystyki i analizy danych.

Umiejętności nabywane przez uczestników

Uczestnik szkolenia nabędzie trzy podstawowe umiejętności:

  • umiejętność wyboru odpowiedniego, do problemu przed którym staje, narzędzia,
  • umiejętność wykonania obliczeń w programie R,
  • umiejętność wyciągania poprawnych wniosków z wyników obliczeń.

Program szkolenia
  1. Krótkie wprowadzenie do R
  2. Wpisywanie poleceń, zapisywanie analiz, przygotowywanie i odczyt plików z danymi.
  3. Metody redukcji wymiaru
  4. Wyobraźmy sobie, że mamy dane o samochodach, które zawierają bardzo dużą liczbę cech tych aut (np. cenę, spalanie, emisję szeregu związków chemicznych, kilkanaście wskaźników awaryjności itd.). Chcielibyśmy stworzyć dwuwymiarową „mapę”, na której zobaczylibyśmy, które auta są do siebie podobne, a które się różnią. Do tego (ale nie tylko do tego) służą właśnie metody redukcji wymiaru takie jak:
    • analiza składowych głównych (PCA, principal component analysis),
    • analiza czynnikowa (EFA, exploratory factor analysis).
  5. Analiza skupień (grupowanie, klastrowanie)
  6. Wyobraźmy sobie teraz, że mamy dane o produktach sklepu internetowego zajmującego się sprzedażą ubranek dziecięcych (np. cenę, kolor, dostępne rozmiary, producenta, miejsce na stronie, w którym są prezentowane, liczbę sprzedanych ubranek itd.). Chcielibyśmy nasze ubranka podzielić na grupy (tzw. klastry), tak aby dwa ubranka z jednego klastra były do siebie możliwie podobne, a dwa ubranka z rożnych klastrów możliwie bardzo się różniły. Posłużyć do tego mogą:
    • metoda K-średnich (K-means clustering),
    • grupowanie wokół centroidów (PAM, partitioning around medoids),
    • klastrowanie hierarchiczne (hierarchical clustering).
  7. Analiza dyskryminacyjna (klasyfikacja)
  8. Tym razem wyobraźmy sobie, że mamy dane o klientach sklepu internetowego (np. datę i godzinę logowania, typ urządzenia, z którego się logowali, adres strony, z której weszli do naszego sklepu itd.) oraz dysponujemy podziałem klientów na grupy (np. „nie kupił nic”, „kupił za mniej niż 100 zł”, „kupił za więcej niż 100 zł”) i chcielibyśmy przewidywać, do której grupy będzie należał nowy klient. Do tego służą metody analizy dyskryminacyjnej nazywanej też klasyfikacją:
    • metoda K-najbliższych sąsiadów (KNN, K-nearest neighbours),
    • liniowa analiza dyskryminacyjna (LDA, linear discriminant analysis),
    • kwadratowa analiza dyskryminacyjna (QDA, quadratric discriminant analysis),
    • drzewa klasyfikacyjne (classification trees),
    • las losowy (random forest),
    • drzewa wzmacniane (boosted trees).

Kontakt

Łukasz Deryło
Telefon: 665 254 036
E-mail: lukasz.derylo@gmail.com

Referencje

referencje analizy statystyczne

Opinie klientów i współpracowników o wykonanych przeze mnie analizach i przeprowadzonych szkoleniach.

Cennik szkoleń

szkolenia statystyka cennik

Szczegółowy cennik szkoleń.

Copyright © 2014 Łukasz Deryło - Green Age by Templates