Definiera den statistiska regressionsmodellen

GettyImages 965105952 772a2efd58a74ef4be664d39a59133cb

Regression är en data mining-teknik som används för att förutsäga ett antal numeriska värden (även kallat kontinuerliga värden), med tanke på en viss dataset. Till exempel kan regression användas för att förutsäga kostnaden för en produkt eller tjänst, med tanke på andra variabler. Regression används i flera branscher för affärs- och marknadsplanering, ekonomisk prognos, miljömodellering och analys av trender.

Regression kontra klassificering

Regression och klassificering är data miningstekniker som används för att lösa liknande problem, men de är ofta förvirrade. Båda används i prediktionsanalys, men regression används för att förutsäga ett numeriskt eller kontinuerligt värde medan klassificering tilldelar data i diskreta kategorier. Till exempel skulle regression användas för att förutsäga ett hems värde baserat på dess läge, kvadratfot, pris när det såldes senast, priset på liknande bostäder och andra faktorer. Klassificering skulle vara i ordning om du istället vill organisera hus i kategorier, som gångbarhet, partistorlek eller brottslighet.

Typer av regressionstekniker

Den enklaste och äldsta formen av regression är linjär regression som används för att uppskatta sambandet mellan två variabler. Denna teknik använder den matematiska formeln för en rak linje (y = mx + b). I enkla termer betyder detta helt enkelt att, med tanke på en graf med en Y och en X-axel, är förhållandet mellan X och Y en rak linje med få outliers. Vi kan till exempel anta att med tanke på en ökning av befolkningen skulle livsmedelsproduktionen öka i samma takt – detta kräver en stark, linjär relation mellan de två siffrorna. För att visualisera detta, överväga ett diagram där Y-axeln spårar befolkningsökningen och X-axeln spårar matproduktionen. När Y-värdet ökar skulle X-värdet öka i samma takt, vilket gör förhållandet mellan dem en rak linje. Avancerade tekniker, såsom multipel regression, förutsäger ett samband mellan flera variabler – finns det till exempel ett samband mellan inkomst, utbildning och var man väljer att bo? Tillägget av flera variabler ökar förutsägelsens komplexitet avsevärt. Det finns flera typer av multipla regressionstekniker inklusive standard, hierarkisk, sätvis och stegvis, var och en med sin egen applikation. Vid denna tidpunkt är det viktigt att förstå vad vi försöker förutsäga (beroende eller förutsagt variabel) och de data vi använder för att göra förutsägelsen (den oberoende eller prediktor variabler). I vårt exempel vill vi förutsäga platsen man väljer att bo ( förutsagt variabel) given inkomst och utbildning (båda prediktor variabler).

Standard multipel regression beaktar alla prediktorvariabler samtidigt. Till exempel 1) vad är förhållandet mellan inkomst och utbildning (prediktorer) och val av grannskap (förutsagt); och 2) i vilken grad bidrar var och en av de enskilda prediktorerna till det förhållandet?

Stegvis multipel regression svarar på en helt annan fråga. En stegvis regressionsalgoritm kommer att analysera vilka prediktorer som bäst används för att förutsäga valet av grannskap – vilket innebär att den stegvisa modellen utvärderar ordningens betydelse för prediktorvariablerna och sedan väljer en relevant delmängd. Denna typ av regressionsproblem använder «steg» för att utveckla regressionsekvationen. Med tanke på denna typ av regression kanske alla prediktorer inte ens visas i den slutliga regressionsekvationen.
Hierarkisk regression, som stegvis, är en sekventiell process, men prediktorvariablerna matas in i modellen i en förutbestämd ordning definierad i förväg, dvs. algoritmen innehåller inte en inbyggd uppsättning ekvationer för att bestämma ordningen i vilken prediktorer. Detta används oftast när individen som skapar regressionsekvationen har expertkunskaper inom området.
Siktvis regression liknar också stegvis men analyserar uppsättningar av variabler snarare än enskilda variabler.