Data-ontginning is Konsep, algoritme-analise, doel en toepassing

INHOUDSOPGAWE:

Data-ontginning is Konsep, algoritme-analise, doel en toepassing
Data-ontginning is Konsep, algoritme-analise, doel en toepassing
Anonim

Die ontwikkeling van inligtingstegnologie bring praktiese resultate. Maar take soos die vind, ontleed en gebruik van inligting het nog nie 'n doeltreffende hulpmiddel van hoë geh alte ontvang nie. Daar is analitiese en kwantitatiewe instrumente, dit werk regtig. Maar 'n kwalitatiewe rewolusie in die gebruik van inligting het nog nie plaasgevind nie.

Lank voor die koms van rekenaartegnologie moes 'n persoon groot hoeveelhede inligting verwerk en het dit na die beste van sy ervaring en beskikbare tegniese vermoëns hanteer.

Die ontwikkeling van kennis en vaardighede het nog altyd aan werklike behoeftes voldoen en met huidige take ooreengestem. Data-ontginning is 'n versamelnaam wat gebruik word om te verwys na 'n stel metodes vir die ontdekking van voorheen onbekende, nie-triviale, prakties bruikbare en toeganklike kennis in data, wat nodig is vir die neem van besluite in verskeie areas van menslike aktiwiteit.

Mens, intelligensie, programmering

'n Persoon weet altyd hoe om in enige situasie op te tree. Onkunde of 'n onbekende situasie verhoed hom nie om 'n besluit te neem nie. Die objektiwiteit en redelikheid van enige menslike besluit kan bevraagteken word, maar dit sal aanvaar word.

Intelligensie is gebaseer op: oorerflike "meganisme", verworwe, aktiewe kennis. Kennis word aangewend om probleme op te los wat voor 'n persoon opduik.

  1. Intelligensie is 'n unieke stel kennis en vaardighede: geleenthede en grondslag vir menslike lewe en werk.
  2. Intelligensie ontwikkel voortdurend, en menslike optrede het 'n impak op ander mense.

Programmering is die eerste poging om die voorstelling van data en die proses van skep van algoritmes te formaliseer.

Man, intelligensie, programmering
Man, intelligensie, programmering

Kunsmatige intelligensie (KI) is 'n mors van tyd en hulpbronne, maar die resultate van onsuksesvolle pogings van die vorige eeu op die gebied van KI het in die geheue gebly, is in verskeie deskundige (intelligente) stelsels gebruik en is getransformeer, in die besonder, in algoritmes (reëls) en wiskundige (logiese) data-analise en data-ontginning.

Inligting en die gewone soeke na 'n oplossing

'n Gewone biblioteek is 'n bewaarplek van kennis, en die gedrukte woord en grafika het nog nie die palm van rekenaartegnologie opgelewer nie. Boeke oor fisika, chemie, teoretiese meganika, ontwerp, natuurgeskiedenis, filosofie, natuurwetenskap, plantkunde, handboeke, monografieë, werke van wetenskaplikes, konferensiemateriaal, verslae oor ontwikkelingswerk, ens. is altyd relevant en betroubaar.

Biblioteek is baie verskillende bronne wat verskilvorm van aanbieding van materiaal, oorsprong, struktuur, inhoud, aanbiedingstyl, ens.

Biblioteek: boeke, tydskrifte en ander drukwerk
Biblioteek: boeke, tydskrifte en ander drukwerk

Uiteerlik is alles sigbaar (leesbaar, toeganklik) vir verstaan en gebruik. Jy kan enige probleem oplos, die taak korrek opstel, die oplossing regverdig, 'n opstel of kwartaalvraestel skryf, materiaal vir 'n diploma kies, bronne oor die onderwerp van 'n proefskrif of 'n wetenskaplike en analitiese verslag ontleed.

Enige inligtingsprobleem kan opgelos word. Met die nodige deursettingsvermoë en vaardigheid sal 'n akkurate en betroubare resultaat verkry word. In hierdie konteks is Data Mining 'n heeltemal ander benadering.

Benewens die resultaat, ontvang 'n persoon "aktiewe skakels" na alles wat bekyk is in die proses om die doelwit te bereik. Daar kan verwys word na die bronne wat hy gebruik het om die probleem op te los en niemand sal die feit van die bestaan van die bron betwis nie. Dit is nie 'n waarborg van egtheid nie, maar dit is 'n seker getuienis aan wie die verantwoordelikheid vir egtheid "uitgeteken" is. Vanuit hierdie oogpunt beteken Data Mining groot twyfel oor die betroubaarheid en geen "aktiewe" skakels nie.

Deur verskeie probleme op te los, kry 'n persoon resultate en brei sy intellektuele potensiaal uit na baie "aktiewe skakels". As 'n nuwe taak 'n reeds bestaande skakel "aktiveer", sal die persoon weet hoe om dit op te los: dit is nie nodig om weer na enigiets te soek nie.

"Aktiewe skakel" is 'n vaste assosiasie: hoe en wat om te doen in 'n spesifieke geval. Die menslike brein onthou outomaties alles wat vir hom potensieel interessant, nuttig lyk.of sal waarskynlik in die toekoms nodig wees. In baie opsigte gebeur dit op 'n onderbewuste vlak, maar sodra 'n taak opduik wat met 'n "aktiewe skakel" geassosieer kan word, duik dit dadelik in die gedagte op en 'n oplossing sal verkry word sonder bykomende soektog na inligting. Data-ontginning is altyd 'n herhaling van die soekalgoritme en hierdie algoritme verander nie.

Gereelde soektog: "artistieke" probleme

Wiskunde-biblioteek en om inligting daarin te soek, is 'n relatief swak taak. Om een of ander manier te vind om 'n integraal op te los, 'n matriks te bou of die operasie uit te voer om twee denkbeeldige getalle op te tel, is moeisaam, maar eenvoudig. Jy moet deur 'n aantal boeke sorteer, waarvan baie in 'n spesifieke taal geskryf is, die regte teks vind, dit bestudeer en die vereiste oplossing kry.

Met verloop van tyd sal opsomming bekend word, en die opgehoopte ervaring sal jou toelaat om deur die biblioteekinligting en ander wiskundige probleme te navigeer. Dit is 'n beperkte inligtingspasie van vrae en antwoorde. 'n Kenmerkende kenmerk: so 'n soektog na inligting versamel kennis om soortgelyke probleme op te los. 'n Persoon se soeke na inligting laat spore ("aktiewe skakels") in sy geheue oor moontlike oplossings vir ander probleme.

In fiksie, vind die antwoord op die vraag: "Hoe het mense in Januarie 1248 geleef?" baie hard. Dit is selfs moeiliker om die vraag te beantwoord wat op winkelrakke was en hoe die voedselhandel georganiseer is. Selfs al het een of ander skrywer duidelik en direk hieroor in sy roman geskryf, as die naam van hierdie skrywer gevind kon word, dan twyfel oordie betroubaarheid van die ontvangde data sal bly. Betroubaarheid is 'n kritieke kenmerk van enige hoeveelheid inligting. Die bron, die skrywer en bewyse wat die valsheid van die resultaat uitsluit, is belangrik.

Objektiewe omstandighede van 'n spesifieke situasie

Die mens sien, hoor, voel. Sommige spesialiste is vlot in 'n unieke gevoel - intuïsie. Die stelling van die probleem vereis inligting, die proses om die probleem op te los gaan meestal gepaard met 'n verfyning van die stelling van die probleem. Dit is die mindere moeilikheid wat kom met die verskuiwing van inligting in die ingewande van 'n rekenaarstelsel.

Inligting in die virtuele ruimte
Inligting in die virtuele ruimte

Die biblioteek en werkskollegas is indirekte deelnemers aan die besluitproses. Die ontwerp van die boek (bron), die grafika in die teks, die kenmerke om inligting in opskrifte te verdeel, voetnote volgens frases, die onderwerpindeks, die lys van primêre bronne - alles roep assosiasies by 'n persoon op wat die proses van oplossing indirek beïnvloed die probleem.

Die tyd en plek om die probleem op te los is noodsaaklik. 'n Persoon is so gerangskik dat hy onwillekeurig aandag gee aan alles wat hom omring in die proses om 'n probleem op te los. Dit kan steurend wees, of dit kan stimulerend wees. Data-ontginning sal nooit "verstaan" nie.

Inligting in virtuele ruimte

'n Persoon was nog altyd net geïnteresseerd in betroubare inligting oor 'n gebeurtenis, verskynsel, voorwerp, algoritme om 'n probleem op te los. Die mens het hom nog altyd voorgestel presies hoe hy die gewenste doelwit kan bereik.

Die voorkoms van rekenaars en inligtingstelsels moes die lewe vir 'n mens makliker gemaak het, maar alles het net meer ingewikkeld geword. Inligting het na die ingewande van rekenaarstelsels gemigreer en uit sig verdwyn. Om die nodige data te kies, moet jy 'n korrekte algoritme skep of 'n navraag na die databasis formuleer.

Data binne die inligtingstelsel
Data binne die inligtingstelsel

Die vraag moet korrek wees. Eers dan kan jy 'n antwoord kry. Maar daar bly twyfel oor die egtheid. In hierdie sin is Data Mining regtig "opgrawings", dit is "inligting onttrekking". Dit is hoe dit modieus is om hierdie frase te vertaal. Die Russiese weergawe is data-ontginning of data-ontginning-tegnologie.

In die werke van gesaghebbende spesialiste word die take van Data Mining soos volg aangedui:

  • klassifikasie;
  • groepering;
  • vereniging;
  • reeks;
  • vooruitskatting.

Vanuit die oogpunt van die praktyk wat 'n persoon lei in die handmatige verwerking van inligting, is al hierdie posisies debatteerbaar. 'n Persoon verwerk in elk geval inligting outomaties en dink nie daaraan om data te klassifiseer, tematiese groepe voorwerpe saam te stel (groepering), soek na tydelike patrone (volgorde) of om die resultaat te voorspel nie.

Al hierdie posisies in die menslike verstand word verteenwoordig deur aktiewe kennis, wat meer posisies dek en dinamies die logika van die verwerking van die aanvanklike data gebruik. 'n Persoon se onderbewussyn speel 'n belangrike rol, veral wanneer hy 'n spesialis in 'n bepaalde kennisveld is.

Voorbeeld: Groothandel van rekenaartoerusting

Die taak is eenvoudig. Daar is verskeiedosyne verskaffers van rekenaartoerusting en randapparatuur. Elkeen het 'n pryslys in xls-formaat (Excel-lêer), wat van die amptelike webwerf van die verskaffer afgelaai kan word. Dit word vereis om 'n webhulpbron te skep wat Excel-lêers lees, dit in databasistabelle omskakel en kliënte toelaat om die verlangde produkte teen die laagste pryse te kies.

Probleme ontstaan onmiddellik. Elke verskaffer bied sy eie weergawe van die struktuur en inhoud van die xls-lêer. Jy kan die lêer kry deur dit van die verskaffer se webwerf af te laai, dit per e-pos te bestel, of 'n aflaaiskakel deur jou persoonlike rekening te kry, dit wil sê deur amptelik by die verskaffer te registreer.

Virtuele rekenaarwinkel
Virtuele rekenaarwinkel

Die oplossing van die probleem (aan die begin) is tegnologies eenvoudig. Laai lêers (aanvanklike data), 'n lêerherkenningsalgoritme word vir elke verskaffer geskryf en die data word in een groot tabel van aanvanklike data geplaas. Nadat al die data ontvang is, nadat die meganisme van deurlopende omruil (daagliks, weekliks of by verandering) van vars data vasgestel is:

  • verander assortiment;
  • prysveranderings;
  • verduideliking van die hoeveelheid in voorraad;
  • aanpassing van waarborgbepalings, spesifikasies, ens.

Dit is waar die werklike probleme begin. Die ding is dat die verskaffer kan skryf:

  • notaboek Acer;
  • notaboek Asus;
  • Dell-skootrekenaar.

Ons praat van dieselfde produk, maar van verskillende vervaardigers. Hoe om 'n notaboek=skootrekenaar te pas of hoe om Acer, Asus en Dell van 'n produkreeks te verwyder?

Virmens is nie 'n probleem nie, maar hoe sal die algoritme "verstaan" dat Acer, Asus, Dell, Samsung, LG, HP, Sony handelsmerke of verskaffers is? Hoe om "drukker" en drukker, "skandeerder" en "MFP", "kopieerder" en "MFP", "oorfone" met "koptelefoon", "bykomstighede" met "bykomstighede" te pas?

Die bou van 'n kategorieboom gebaseer op brondata (bronlêers) is reeds 'n probleem wanneer jy alles op outomaties moet stel.

Datamonsterneming: opgrawings van die "vars gegote"

Die taak om 'n databasis van rekenaartoerustingverskaffers te skep, is opgelos. 'n Boom van kategorieë is gebou, 'n gemeenskaplike tabel met aanbiedinge van alle verskaffers funksioneer.

Tipiese data-ontginningstake in die konteks van hierdie voorbeeld:

  • kry 'n produk teen die laagste prys;
  • kies die item met die laagste versendingskoste en prys;
  • produkontleding: eienskappe en pryse volgens kriteria.

In die werklike werk van 'n bestuurder wat data van etlike dosyn verskaffers gebruik, sal daar baie variasies van hierdie take wees, en selfs meer werklike situasies.

Daar is byvoorbeeld 'n verskaffer "A" wat ASUS VivoBook S15 verkoop: vooruitbetaling, aflewering 5 dae na die werklike ontvangs van geld. Daar is 'n verskaffer "B" van dieselfde produk van dieselfde model: betaling by ontvangs, aflewering na kontraksluiting binne 'n dag, die prys is een en 'n half keer hoër.

Data-ontginning begin - "opgrawings". Figuurlike uitdrukkings: "opgrawings" of "data-ontginning" is sinonieme. Dit gaan oor hoe om 'n rede te kry om 'n besluit te neem.

Verskaffers "A" en "B" het 'n geskiedenis van aflewerings. Graadvooruitbetaling in die eerste geval teen betaling by ontvangs in die tweede geval, met inagneming dat die afleweringsmislukking in die tweede geval 65% hoër is. Die risiko van boetes van die kliënt is hoër/laer. Hoe en wat om te bepaal en watter besluit om te neem?

Aan die ander kant: die databasis is geskep deur 'n programmeerder en 'n bestuurder. As die programmeerder en bestuurder verander het, hoe om die huidige toestand van die databasis te bepaal en te leer hoe om dit korrek te gebruik? Jy sal ook data-ontginning moet doen. Data Mining bied 'n verskeidenheid wiskundige en logiese metodes wat nie omgee watter soort data nagevors word nie. Dit gee in sommige gevalle die korrekte oplossing, maar nie in almal nie.

Beweeg na virtualiteit en vind betekenis

Data-ontginningsmetodes word betekenisvol sodra die inligting in die databasis geskryf word en uit die "gesigveld" verdwyn. Handel in rekenaartoerusting is 'n interessante taak, maar dit is net 'n besigheid. Hoe goed hy in die maatskappy georganiseer is, hang af van die sukses daarvan.

Klimaatveranderinge op die planeet en die weer in 'n spesifieke stad is van belang vir almal, nie net professionele klimaatkundiges nie. Duisende sensors neem lesings van wind, humiditeit, druk, data van kunsmatige Aarde satelliete en daar is 'n geskiedenis van data vir jare en eeue.

Weerdata gaan nie net daaroor om te besluit of 'n sambreel werk toe moet bring of nie. Data-ontginningtegnologieë is die veilige vlug van 'n vliegtuig, die stabiele werking van 'n snelweg en die betroubare voorsiening van petroleumprodukte per see.

"Raw" data word na die inligting gestuurstelsel. Die take van Data Mining is om dit in 'n gesistematiseerde stelsel van tabelle te omskep, skakels te vestig, groepe homogene data uit te lig en patrone op te spoor.

Klimaat, weer en rou data
Klimaat, weer en rou data

Wiskundige en logiese metodes sedert die dae van kwantitatiewe analise OLAP (On-line Analytical Processing) het hul prakties getoon. Hier laat tegnologie jou toe om betekenis te vind, en nie te verloor nie, soos in die voorbeeld van die verkoop van rekenaartoerusting.

Boonop, in globale take:

  • transnasionale besigheid;
  • lugvervoerbestuur;
  • studie van die ingewande van die aarde of sosiale probleme (op staatsvlak);
  • studie van die effek van dwelms op 'n lewende organisme;
  • voorspel die gevolge van die bou van 'n industriële onderneming, ens.

Datamyntegnologieë en die omskakeling van "betekenislose" data in werklike data wat jou toelaat om objektiewe besluite te neem, is die enigste opsie.

Menslike moontlikhede eindig waar daar 'n groot hoeveelheid rou inligting is. Data-ontginningstelsels verloor hul bruikbaarheid waar dit vereis word om inligting te sien, te verstaan en te voel.

Redelike verspreiding van funksies en objektiwiteit

Man en rekenaar moet mekaar aanvul – dit is 'n aksioma. Die skryf van 'n proefskrif is 'n prioriteit vir 'n persoon, en 'n inligtingstelsel is 'n hulp. Hier is die data wat Data Mining-tegnologie het, heuristieke, reëls, algoritmes.

Die voorbereiding van 'n weeklikse weervoorspelling is die prioriteit van die inligtingstelsel. Die mens bestuur die data, maar baseer sy besluite op die resultate van die stelsel se berekeninge. Dit kombineer data-ontginningsmetodes, spesialisdataklassifikasie, handbeheer van die toepassing van algoritmes, outomatiese vergelyking van vorige data, wiskundige vooruitskatting en baie kennis en vaardighede van regte mense wat betrokke is by die toepassing van die inligtingstelsel.

Man en rekenaar
Man en rekenaar

Waarskynlikheidsteorie en wiskundige statistieke is nie die mees "gunsteling" en verstaanbare kennisareas nie. Baie spesialiste is baie ver van hulle af, maar die metodes wat in hierdie gebiede ontwikkel is, gee byna 100% korrekte resultate. Deur stelsels toe te pas wat gebaseer is op die idees, metodes en algoritmes van Data Mining, kan oplossings objektief en betroubaar verkry word. Andersins is dit eenvoudig onmoontlik om 'n oplossing te kry.

Farao's en geheimenisse van vorige eeue

Geskiedenis is van tyd tot tyd herskryf:

  • state - ter wille van hul strategiese belange;
  • gesaghebbende wetenskaplikes - ter wille van hul subjektiewe oortuigings.

Dit is moeilik om te sê wat waar en wat vals is. Die gebruik van Data Mining stel ons in staat om hierdie probleem op te los. Byvoorbeeld, die tegnologie van die bou van piramides is beskryf deur kronici en bestudeer deur wetenskaplikes in verskillende eeue. Nie alle materiaal het op die internet gekom nie, nie alles is hier uniek nie, en baie data het dalk nie:

  • beskryf tydstip;
  • tyd van die skryf van die beskrywing;
  • datums waarop die beskrywing gebaseer is;
  • outeur(s), menings (skakels) in ag geneem;
  • bevestiging van objektiwiteit.

Bbiblioteke, tempels en "onverwagte plekke" kan jy manuskripte uit verskillende eeue en materiële bewyse van die verlede vind.

Interessante doelwit: om alles bymekaar te sit en die "waarheid" op te grawe. Kenmerk van die probleem: inligting kan verkry word vanaf die eerste beskrywing deur 'n kroniekskrywer, gedurende die leeftyd van die farao's, tot die huidige eeu, waarin hierdie probleem deur moderne metodes deur baie wetenskaplikes opgelos word.

Rasionaal vir die gebruik van Data Mining: handearbeid is nie moontlik nie. Te veel hoeveelhede:

  • bronne van inligting;
  • voorstellingstale;
  • navorsers wat dieselfde ding op verskillende maniere beskryf;
  • datums, geleenthede en bepalings;
  • termkorrelasieprobleme;
  • analise van statistiek deur datagroepe oor tyd kan verskil, ens.

Aan die einde van die vorige eeu, toe nog 'n fiasko van die idee van kunsmatige intelligensie duidelik geword het, nie net vir die leek nie, maar ook vir 'n gesofistikeerde spesialis, het die idee verskyn: "om die persoonlikheid te herskep."

Byvoorbeeld, volgens die werke van Pushkin, Gogol, Chekhov, word 'n sekere stelsel van reëls, logika van gedrag gevorm en 'n inligtingstelsel word geskep wat sekere vrae kan beantwoord soos 'n persoon sou: Pushkin, Gogol of Tsjechof. Teoreties is so 'n taak interessant, maar in die praktyk is dit uiters moeilik om te implementeer.

Die idee van so 'n taak dui egter op 'n baie praktiese idee: "hoe om 'n intelligente inligtingsoektog te skep." Die internet is baie ontwikkelende hulpbronne, 'n groot databasis en dit is 'n wonderlike geleentheid om Data Mining in kombinasie met menslikelogika in die formaat van gesamentlike ontwikkeling.

Masjien en mens saam
Masjien en mens saam

'n Masjien en 'n man gepaard is 'n uitstekende taak en 'n ongetwyfelde sukses op die gebied van "inligting-argeologie", hoëgeh alte-opgrawings in data en resultate wat iets in twyfel sal stel, maar jou sonder twyfel sal toelaat om nuwe kennis op te doen en sal in aanvraag in die samelewing wees.

Aanbeveel: