Frekwensie-teksanalise: kenmerke en voorbeelde

INHOUDSOPGAWE:

Frekwensie-teksanalise: kenmerke en voorbeelde
Frekwensie-teksanalise: kenmerke en voorbeelde
Anonim

Jy het hierdie konsep meer as een keer in jou lewe ontmoet as jy met tekste moes werk. U kan veral na aanlyn sakrekenaars wend wat presies die frekwensie-analise van die teks uitvoer. Hierdie handige hulpmiddels wys hoeveel keer 'n spesifieke karakter of letter in enige teksgedeelte voorkom. Dikwels word 'n persentasie ook gewys. Hoekom is dit nodig? Hoe dra frekwensie-analise van teks by tot die "kraak" van eenvoudige syfers? Wat is die kern daarvan, wie het dit uitgevind? Ons sal hierdie en ander belangrike vrae oor die onderwerp in die loop van die artikel beantwoord.

Definisie

Frekwensie-analise is een van die variëteite van kriptanalise. Dit is gebaseer op die aanname van wetenskaplikes oor die bestaan van 'n statistiese nie-triviale verspreiding van individuele karakters en hul gereelde rye in beide gewone en gesyferde teks.

Daar word geglo dat so 'n verspreiding, tot en met die vervanging van individuele karakters, ook in die enkripsie/dekripsieprosesse bewaar sal word.

frekwensie-analise van stelsels
frekwensie-analise van stelsels

Proseskenmerk

Kom ons kyk nou na frekwensie-analise in eenvoudige terme. Dit impliseer dat die aantal gevalle van dieselfde alfabetiese karakter in tekste van voldoende lengte dieselfde is in verskillende tekste wat in dieselfde taal geskryf is.

En nou wat van monoalfabetiese enkripsie? Daar word aanvaar dat as daar 'n karakter met so 'n soortgelyke waarskynlikheid van voorkoms in die gedeelte met syferteks is, dit realisties is om aan te neem dat dit daardie gesyferde letter is.

Volgers van frekwensie-teksanalise pas dieselfde redenasie toe op digramme (reekse van twee letters). Trigramme - dit is vir die geval van reeds poli-alfabetiese syfers.

Geskiedenis van die metode

Frekwensie-analise van woorde is nie 'n vonds van moderniteit nie. Dit is sedert die 9de eeu aan die wetenskaplike wêreld bekend. Die skepping daarvan word geassosieer met die naam Al-Kindi.

Maar die bekende gevalle van toepassing van die metode van frekwensie-analise behoort tot 'n baie later tydperk. Die treffendste voorbeeld hier is die ontsyfering van Egiptiese hiërogliewe, wat in 1822 deur J.-F. Champollion.

As ons na fiksie gaan, kan ons baie interessante verwysings na hierdie dekripsiemetode vind:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Children of Captain Grant".
  • Edgar Poe - "Gold Bug".

Sedert die middel van die vorige eeu is die meeste van die algoritmes wat in enkripsie gebruik word egter ontwikkel met inagneming van hul weerstand teen sulke frekwensie-kriptanalise. Daarom ditvandag word hulle meestal net vir die opleiding van toekomstige kriptograwe gebruik.

teksfrekwensie-analise
teksfrekwensie-analise

Basiese metode

Kom ons bied nou die frekwensie-respons-analise in detail aan. Hierdie soort analise is direk gebaseer op die feit dat die toets uit woorde bestaan, en dié op hul beurt uit letters. Die aantal letters wat die nasionale alfabet vul, is beperk. Briewe kan eenvoudig hier gelys word.

Die belangrikste kenmerke van so 'n teks sal beide die herhaling van letters, verskeie bigramme, trigramme en n-gramme wees, asook die versoenbaarheid van verskeie letters met mekaar, die afwisseling van konsonante / vokale en ander variëteite van hierdie simbole.

Die hoofgedagte van die metodes is om die voorkoms van moontlike n-gram (aangedui deur nm) in gewone tekste lank genoeg te tel vir analise (aangedui deur T=t1t2…tl) wat saamgestel is uit letters van die nasionale alfabet (aangedui deur {a1, a2, …, an}). Al die bogenoemde veroorsaak 'n paar opeenvolgende m-gramme van die teks:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

As dit die aantal voorkoms van die m-gram ai1ai2…doel in 'n sekere teks T is, en L die totale aantal m-gram is wat deur die navorser ontleed is, dan is dit moontlik om empiries vas te stel dat vir voldoende groot L sal die frekwensies vir so 'n m-gram min van mekaar verskil.

frekwensie analise
frekwensie analise

Dikwels voorkomende letters van die Russiese alfabet

Maar tyd-frekwensie-analise, ten spyte van die soortgelyke naam, het niks te doen met die onderwerp van ons gesprek nie. Hierdie soort analise word uitgevoer virseine van lae-waarneembare radarstasies wat 'n spesiale golftransformasie gebruik.

Kom ons gaan nou terug na die hoofonderwerp. Wanneer u 'n frekwensie-analise uitvoer, kan u uitvind watter letters van die Russiese alfabet die meeste in redelik lywige tekste voorkom (persentasie van 0,062 tot 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Selfs 'n spesiale mnemoniese reël is ingestel, wat help om die mees algemene letters van die Russiese alfabet aan te leer. Om dit te doen, is dit genoeg om net een woord te onthou - "hooihok".

In algemene gevalle word die frekwensie van gebruik van letters in persentasie terme eenvoudig gestel: die spesialis tel hoeveel keer die letter in die teks voorkom, en deel dan die gevolglike waarde deur die totale aantal karakters in die teks. En om hierdie waarde as 'n persentasie uit te druk, is dit genoeg om dit met 100 te vermenigvuldig.

Dit is belangrik om in ag te neem dat die frekwensie nie net van die volume van die teks sal afhang nie, maar ook van die aard daarvan. Byvoorbeeld, in tegniese bronne verskyn die letter "F" baie meer dikwels as in fiksie. Daarom, vir objektiewe resultate, moet 'n spesialis tekste van verskillende aard en styl vir navorsing tik.

teksfrekwensie analise programme
teksfrekwensie analise programme

Bi-, drie-, viergram

In betekenisvolle tekste kan jy ook die mees algemene (onderskeidelik die meeste) vindherhaal) kombinasies van twee of meer letters. Spesialiste het ook verskeie tabelle saamgestel wat die frekwensies van soortgelyke digramme van verskeie alfabette aandui.

Wat Russies betref, het die frekwensie-analise van stelsels van lywige betekenisvolle tekste dit moontlik gemaak om die mees algemene bigramme en trigramme vas te stel:

  • EN.
  • ST.
  • MAAR.
  • NOT.
  • AAN.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NUUT
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Voorkeurverhoudings van briewe aan mekaar

En dit is nie al die moontlikhede wat frekwensie-analise aan teksnavorsers kan bied nie. Deur inligting uit soortgelyke tabelle van bigramme en trigramme te sistematiseer, is dit moontlik om data oor die mees algemene kombinasies van letters te onttrek. Of, met ander woorde, hul voorkeurverhoudings met mekaar.

So 'n uitgebreide studie is reeds deur kundiges uitgevoer. Die resultaat daarvan was 'n tabel waar, saam met elke letter van die alfabet, sy bure aangedui is. Verder, daardie karakters wat dikwels direk voor dit en daarna gevind word. Die letters in die tabel word nie toevallig uitgespel nie. Nader aan die simbool word die mees gereelde bure aangedui, verder - meer skaars.

Oorweeg voorbeelde:

  • Letter "A". Die volgende voorkeurverbindings word hier onderskei: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Van hier af sien ons dat daar meestal voor "A" in die tekste "H" ("NA") is. En na "A" die meeste in tekste in Russies kan ons "L" ontmoet("AL").
  • Letter "M". Kenners het sulke voorkeurverbindings geïdentifiseer: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Letter "b". Voorkeurverbindings is soos volg: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Letter "Sh". Voorkeurverbindings: "e-b-a-i-u-Sch-e-i-a".
  • Letter "P". Voorkeurverbindings met hierdie simbool van die Russiese alfabet: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
tyd-frekwensie analise
tyd-frekwensie analise

Wat definieer analise?

Moderne frekwensie-teksontledingsprogramme help om groot volumes van 'n wye verskeidenheid artikels, opstelle, gedeeltes, ensovoorts te bestudeer. Die volgende inligting word as standaard aan die navorser verskaf:

  • Totale aantal karakters in die teks.
  • Aantal spasies wat deur die skrywer gebruik is.
  • Aantal syfers.
  • Inligting oor gebruikte leestekens - punte, kommas, ens.
  • Die aantal letters in elk van die beskikbare alfabette - Cyrillies, Latyns, ens.
  • Inligting oor die gebruiksfrekwensie van elke letter en simbool in die teks - die aantal meldings en persentasie in vergelyking met die hele teks.

Stryd teen ooroptimalisering en oorversadiging

Waarom word teksfrekwensie-analise uitgevoer? Is dit net vir die doel van nuuskierigheid - om vas te stel watter karakters in die geskrewe teks blyk te wees gereeld teëgekom? Nee, die hooftoepassing van analise is prakties, en dit lê elders.

N-gramme sluit nie net stabiele bigramme en trigramme in nie. Aan dieselfdekategorieë sluit sleutelwoorde (etikette), kollokasies in. Dit wil sê, stabiele kombinasies wat uit twee of meer woorde bestaan. Hulle word onderskei deur die feit dat sulke samestellings saam in die teks voorkom en terselfdertyd 'n sekere semantiese las dra.

Dit speel in die hande van gewetenlose SEO-spesialiste. In hul werk misbruik hulle soms die herhaling van etikette en sleutelwoorde in die teks om die relevansie van 'n bepaalde webblad kunsmatig te verhoog. Hulle probeer die stelsel met so 'n "truuk" bedrieg: om 'n natuurlike kombinasie met die gewone kombinasie van woorde, tradisioneel vir die Russiese taal ("koop 'n nertsjas") in 'n inkonsekwente een te verander. Dit wil sê, verkry deur woorde in so 'n natuurlike N-gram te herrangskik ("koop 'n nertsjas")

Maar vandag het soekalgoritmes geleer om ooroptimalisering net so effektief soos oorspam op te spoor – oorversadiging van teks met sleutelwoorde, etikette wat die rangorde van resultate op die soekbladsy beïnvloed. Oor-geoptimaliseerde bladsye word nou, inteendeel, laer gerangskik volgens die gebruiker se navraag. En mense self is nie geneig om betekenisloos, oorversadig met etiketteks te lees nie, en verkies bruikbare inligting op 'n ander hulpbron.

frekwensie-analise metode
frekwensie-analise metode

Help private ontleding vir SEO-spesialiste

Moderne soekenjin-teksfilters gee vandag voorkeur aan daardie internetbladsye, waarvan die inligting nie net maklik is om te lees nie, maar ook nuttig is vir besoekers. Om hul werk te optimaliseer vir nuwe standaarde, SEO spesialisteen blaai na die frekwensie-analise van die teks. Baie gewilde dienste verskaf dit vandag.

Frekwensie-analise help om die teks wat voorberei word vir publikasie te hersien vir inligting. Elimineer onnodige oortolligheid van etikette en sleutelfrases. Dit laat jou ook toe om die skrywer se aandag te vestig op onnatuurlike kombinasies van woorde wat agterdog in die teksfilters van soekenjins wek.

frekwensierespons analise
frekwensierespons analise

Frekwensie-analise van die teks help dus om die frekwensie van vermelding van 'n bepaalde karakter in die bron te bepaal. Die metode word vandag gebruik om teksoorlading met etikette, onnatuurlike permutasies van woorde te assesseer.

Aanbeveel: