Wykres porównania
Podstawa do porównania | Klasyfikacja | Regresja |
---|---|---|
Podstawowy | Odkrycie modelu lub funkcji, w których odwzorowywanie obiektów odbywa się w predefiniowanych klasach. | Opracowany model, w którym mapowanie obiektów odbywa się na wartości. |
Włącza przewidywanie | Wartości dyskretne | Wartości ciągłe |
Algorytmy | Drzewo decyzyjne, regresja logistyczna itp. | Drzewo regresji (losowy las), regresja liniowa itp. |
Charakter przewidywanych danych | Niezamówiony | Zamówione |
Metoda obliczania | Dokładność pomiaru | Pomiar błędu średniej kwadratowej |
Definicja klasyfikacji
Klasyfikacja to proces znajdowania lub odkrywania modelu (funkcji), który pomaga w rozdzielaniu danych na wiele klas jakościowych. W klasyfikacji identyfikowane jest członkostwo grupy w problemie, co oznacza, że dane są kategoryzowane pod różnymi etykietami według niektórych parametrów, a następnie etykiety są przewidywane dla danych.
Modele pochodne można wykazać w postaci reguł "IF-THEN", drzew decyzyjnych lub sieci neuronowych itp. Drzewo decyzyjne jest zasadniczo schematem, który przypomina strukturę drzewa, gdzie każdy węzeł wewnętrzny przedstawia test na atrybucie, a jego gałęzie pokazują wynik testu. Proces klasyfikacji dotyczy problemów, w których dane można podzielić na dwie lub więcej etykiet dyskretnych, innymi słowy, dwa lub więcej zbiorów rozłącznych.
Weźmy przykład, przypuśćmy, że chcemy przewidzieć możliwość wystąpienia opadów w niektórych regionach na podstawie pewnych parametrów. Wtedy będą dwie etykiety deszczu i bez deszczu, pod którymi można zaklasyfikować różne regiony.
Definicja regresji
Regresja jest procesem znajdowania modelu lub funkcji do rozróżniania danych w ciągłe rzeczywiste wartości zamiast używania klas. Matematycznie, z problemem regresji, próbuje się znaleźć aproksymację funkcji z minimalnym odchyleniem błędu. W regresji przewiduje się, że zależność numeryczna danych będzie ją rozróżniać.
Analiza regresji jest modelem statystycznym używanym do przewidywania danych numerycznych zamiast etykiet. Może również identyfikować ruch dystrybucji w zależności od dostępnych danych lub danych historycznych.
Weźmy również podobny przykład w regresji, gdzie za pomocą niektórych parametrów znajdujemy możliwość wystąpienia opadów w niektórych regionach. W tym przypadku istnieje prawdopodobieństwo związane z deszczem. Tutaj nie klasyfikujemy regionów w czasie deszczu i bez etykiet przeciwdeszczowych, a zamiast tego klasyfikujemy je z powiązanym prawdopodobieństwem.
Kluczowe różnice między klasyfikacją a regresją
- Proces klasyfikacji modeluje funkcję, za pośrednictwem której dane są przewidywane w dyskretnych etykietach klas. Z drugiej strony regresja jest procesem tworzenia modelu przewidującego ciągłą ilość.
- Algorytmy klasyfikacji obejmują drzewko decyzyjne, regresję logistyczną, itp. Dla kontrastu, drzewo regresji (np. Losowy las) i regresja liniowa są przykładami algorytmów regresji.
- Klasyfikacja przewiduje nieuporządkowane dane, a regresja przewiduje uporządkowane dane.
- Regresję można oszacować za pomocą błędu średniej kwadratowej. Wręcz przeciwnie, klasyfikacja jest oceniana na podstawie dokładności pomiaru.
Wniosek
Technika klasyfikacji dostarcza predykcyjnego modelu lub funkcji, która przewiduje nowe dane w dyskretnych kategoriach lub etykietach przy pomocy danych historycznych. I odwrotnie, metoda regresji modeluje ciągłe wartości, co oznacza, że przewiduje dane w ciągłych danych liczbowych.