Mitä korrelaatioklusterointi on?

Korrelaatioklusterointi suoritetaan tietokannoissa ja muissa suurissa tietolähteissä samanlaisten tietojoukkojen ryhmittelemiseksi, mutta samalla varoitetaan käyttäjää erilaisista tietojoukoista. Tämä voidaan tehdä täydellisesti joissakin kaavioissa, kun taas toiset kokevat virheitä, koska samankaltaisten ja erilaisten tietojen erottaminen on vaikeaa. Jälkimmäisen tapauksessa korrelaatioklusterointi auttaa vähentämään virheitä automaattisesti. Tätä käytetään usein tiedon louhintaan tai vaikeiden tietojen etsimiseen. Erilaiset tiedot poistetaan yleensä tai sijoitetaan erilliseen klusteriin.

Kun käytetään korrelaatioklusterointitoimintoa, se etsii tietoja käyttäjän ohjeiden perusteella. Käyttäjä kertoo ohjelmalle, mitä etsiä, ja kun se löydetään, mihin tiedot sijoitetaan. Tätä sovelletaan yleensä erittäin suuriin tietolähteisiin, kun tietojen manuaalinen etsiminen olisi mahdotonta – tai kestää liian monta tuntia. Voi olla joko täydellinen klusterointi tai epätäydellinen klusterointi.

Täydellinen ryhmittely on ihanteellinen skenaario. Tämä tarkoittaa, että tietoja on vain kahta tyyppiä, ja toinen on mitä käyttäjä etsii, kun taas toinen on tarpeeton. Kaikki positiiviset tai tarvittavat tiedot sijoitetaan yhteen klusteriin, kun taas muut tiedot poistetaan tai siirretään. Tässä skenaariossa ei ole hämmennystä ja kaikki toimii täydellisesti.

Useimmat monimutkaiset kaaviot eivät salli täydellistä ryhmittelyä ja ovat sen sijaan epätäydellisiä. Esimerkiksi kaaviossa on kolme muuttujaa: X, Y ja Z. X, Y on samanlainen, X, Z on samanlainen, mutta Y, Z on erilainen. Kolme muuttuvaa klusteria ovat kuitenkin niin samankaltaisia, että on mahdotonta saada täydellistä korrelaatioklusteria. Ohjelma pyrkii maksimoimaan positiivisten korrelaatioiden määrän, mutta tämä edellyttää silti käyttäjän manuaalista hakua.

Tiedonlouhinnassa, erityisesti kun käsitellään suuria tietojoukkoja, korrelaatioklusterointia käytetään samanlaisten tietojen ryhmittämiseen samankaltaisten tietojen kanssa. Jos yritys esimerkiksi louhii tietoja suurelle verkkosivustolle tai tietokantaan ja haluaa tietää vain tietystä näkökulmasta, kaikkien näkökohtien tietojen etsiminen kestää ikuisuuden. Käyttämällä klusterointikaavaa data siirretään sivuun asianmukaista analysointia varten.

Erilaisia ​​tietoja käsitellään yksinomaan käyttäjän ohjeiden perusteella. Käyttäjä voi halutessaan lähettää erilaisia ​​tietoja eri klustereille, koska tiedot voivat olla hyödyllisiä muille projekteille. Jos tiedot ovat tarpeettomia ja tuhlaavat vain muistia, erilaiset tiedot heitetään pois. Epätäydellisessä ryhmittelyssä on mahdollista, että jotakin erilaista tietoa ei heitetä ulos, koska se on niin samanlainen kuin tiedot, joita käyttäjä etsii.