Wat is korpuslinguistiek?

INHOUDSOPGAWE:

Wat is korpuslinguistiek?
Wat is korpuslinguistiek?
Anonim

Verskeie dekades gelede kon wetenskaplikes net daarvan droom om linguistiese navorsing te outomatiseer. Die werk is met die hand gedoen, 'n groot aantal studente was daarby betrokke, daar was 'n aansienlike waarskynlikheid van 'n "onoplettendheid"-fout, en die belangrikste, dit het alles baie, baie tyd geneem.

Met die ontwikkeling van rekenaartegnologie het dit moontlik geword om navorsing baie vinniger te doen, en vandag is een van die belowende areas in die studie van taal korpuslinguistiek. Die hoofkenmerk daarvan is die gebruik van groot hoeveelhede tekstuele inligting, gekonsolideer in 'n enkele databasis, op 'n spesiale manier gemerk en 'n korpus genoem.

Vandag is daar baie korpusse wat vir verskillende doeleindes geskep is, gebaseer op verskillende taalmateriaal, wat van miljoene tot tienmiljarde leksikale eenhede dek. Hierdie rigting word as belowend erken en toon aansienlike vordering in die bereiking van toegepaste en navorsingsdoelwitte. Professionele, een of ander manier om te gaan metnatuurlike taal, word dit aanbeveel dat jy jouself ten minste op 'n basiese vlak met tekskorpusse vergewis.

Geskiedenis van korpuslinguistiek

Die vorming van hierdie rigting hou verband met die skepping van die Brown Corps in die VSA in die vroeë 60's van die vorige eeu. Die versameling tekste het slegs uit 1 miljoen woordvorme bestaan, en vandag sou 'n korpus van so 'n bundel heeltemal onmededingend wees. Dit is grootliks te danke aan die tempo van ontwikkeling van rekenaartegnologie, sowel as die groeiende vraag na nuwe navorsingshulpbronne.

In die 90's is korpuslinguistiek gevorm tot 'n volwaardige en onafhanklike dissipline, versamelings van tekste is saamgestel en gemerk vir 'n paar dosyn tale. Gedurende hierdie tydperk is die British National Corpus byvoorbeeld geskep vir 100 miljoen woordgebruike.

korpuslinguistiek
korpuslinguistiek

Namate hierdie rigting van linguistiek ontwikkel, word die volume tekste groter (en bereik miljarde woordeskateenhede), en die opmaak word meer en meer divers. Vandag, in die internetruimte, kan jy korpusse van geskrewe en mondelinge toespraak vind, veeltalig en opvoedkundig, gefokus op fiksie of akademiese literatuur, sowel as baie ander variëteite.

Watter gevalle is daar

Korpustipes in korpuslinguistiek kan op verskeie maniere voorgestel word. Dit is intuïtief duidelik dat die basis vir klassifikasie die taal van die tekste (Russies, Duits), toegangsmodus (oopbron, geslote bron, kommersiële), genre van die bronmateriaal (fiksie) kan weesliteratuur, dokumentêr, akademies, joernalistiek).

metodes van korpuslinguistiek
metodes van korpuslinguistiek

Op 'n interessante manier word die generering van materiaal wat mondelinge spraak verteenwoordig, uitgevoer. Aangesien die doelbewuste opname van sulke toespraak kunsmatige toestande vir die respondente sou skep, en die resulterende materiaal nie "spontaan" genoem kon word nie, het die moderne korpuslinguistiek andersom gegaan. Die vrywilliger is toegerus met 'n mikrofoon, en deur die dag word alle gesprekke waaraan hy deelneem opgeneem. Die omliggende mense kan natuurlik nie weet dat hulle in die loop van 'n alledaagse gesprek bydra tot die ontwikkeling van die wetenskap nie.

Later word die ontvangde oudio-opnames in die databank gestoor en word vergesel van gedrukte teks soos 'n transkripsie. Op hierdie manier word die opmaak wat nodig is om 'n korpus van gesproke alledaagse spraak te skep, moontlik.

Aansoek

Waar dit moontlik is om taal te gebruik, is dit ook moontlik om tekskorpusse te gebruik. Die doel van die gebruik van korpusmetodes in linguistiek kan wees:

  • Skep sentimentprogramme wat wyd in die politiek en besigheid gebruik word om positiewe en negatiewe terugvoer van onderskeidelik kiesers en kliënte na te spoor.
  • Koppel die inligtingstelsel aan woordeboeke en vertalers om hul werkverrigting te verbeter.
  • Verskeie navorsingstake wat bydra tot die begrip van die struktuur van die taal, die geskiedenis van sy ontwikkeling en voorspellings van sy verandering in die nabye toekoms.
  • Ontwikkeling van inligting-onttrekkingstelsels gebaseer op morfologiese,sintaktiese, semantiese en ander kenmerke.
  • Optimering van die werk van verskeie linguistiese stelsels, ens.

Gebruik van skulpe

Die hulpbronkoppelvlak is soortgelyk aan 'n tipiese soekenjin en vra die gebruiker om 'n woord of kombinasie van woorde in te voer om die inligtingsbasis te soek. Benewens die presiese versoekvorm, kan jy die uitgebreide weergawe gebruik, wat jou toelaat om tekstuele inligting volgens byna enige taalkundige kriteria te vind.

rekenaar- en korpuslinguistiek
rekenaar- en korpuslinguistiek

Die basis vir die soektog kan wees:

  • behoort tot 'n sekere groep spraakdele;
  • grammatiese kenmerke;
  • semantiek;
  • stilistiese en emosionele kleur.

Jy kan ook soekkriteria vir 'n reeks woorde kombineer: vind byvoorbeeld alle voorkoms van 'n werkwoord in die teenwoordige tyd, eerste persoon, enkelvoud gevolg deur die voorsetsel "in" en 'n selfstandige naamwoord in die akkusatief. Die oplossing van so 'n eenvoudige taak neem die gebruiker 'n paar sekondes en vereis slegs 'n paar muisklikke in die gegewe velde.

Skeppingsproses

Die soektog self kan beide in alle subkorpus uitgevoer word, en in een, spesifiek gekies, afhangende van die behoeftes wanneer 'n spesifieke doelwit bereik word:

  1. Eerstens word bepaal watter tekste die basis van die korpus sal vorm. Vir praktiese doeleindes word joernalistieke, koerantmateriaal, internetkommentaar dikwels gebruik. In navorsingsprojekte, die meesteverskillende tipes korpusse, maar die tekste moet op een of ander algemene basis gekies word.
  2. Die resulterende stel tekste is vooraf verwerk, foute word reggestel, indien enige, 'n bibliografiese en buitetalige beskrywing van die teks word voorberei.
  3. Alle nie-tekstuele inligting word uitgefiltreer: grafika, prente, tabelle word uitgevee.
  4. Tokens, gewoonlik woorde, word vir verdere verwerking toegeken.
  5. Laastens word morfologiese, sintaktiese en ander opmaak van die resulterende stel elemente uitgevoer.

Die resultaat van alle uitgevoer bewerkings is 'n sintaktiese struktuur met 'n stel elemente daaroor versprei, vir elkeen waarvan 'n woordsoort, grammatikale en, in sommige gevalle, semantiese kenmerke gedefinieer word.

Problee met die skep van sake

Dit is belangrik om te verstaan dat om 'n korpus te kry, dit nie genoeg is om baie woorde of sinne saam te stel nie. Aan die een kant moet 'n versameling tekste gebalanseerd wees, dit wil sê verskillende tipes tekste in sekere verhoudings aanbied. Aan die ander kant moet die inhoud van die saak op 'n spesiale manier gemerk word.

Zakharov-korpus-linguistiek
Zakharov-korpus-linguistiek

Die eerste kwessie word deur ooreenkoms opgelos: die versameling sluit byvoorbeeld 60% van fiksietekste, 20% van dokumentêre films in, 'n sekere verhouding word gegee aan die skriftelike aanbieding van mondelinge toespraak, wetgewende handelinge, wetenskaplike referate, ens. Die ideale resep vir 'n gebalanseerde korpus vandag bestaan nie.

Die tweede vraag oor inhoudopmaak is moeiliker om op te los. Daar is spesiale programme en algoritmes wat gebruik word vir outomatiese opmaak van tekste, maar dit gee nie 'n 100% resultaat nie, kan mislukkings veroorsaak en vereis handmatige verfyning. Geleenthede en probleme om hierdie probleem op te los word breedvoerig beskryf in die werk van V. P. Zakharov oor korpuslinguistiek.

Teksopmaak word op verskeie vlakke uitgevoer, wat ons hieronder sal lys.

Morfologiese opmaak

Van die skoolbank af onthou ons dat daar in die Russiese taal verskillende dele van spraak is, en elkeen van hulle het sy eie kenmerke. Byvoorbeeld, 'n werkwoord het kategorieë van bui en tyd wat 'n selfstandige naamwoord nie het nie. 'n Moedertaalspreker weier selfstandige naamwoorde en vervoeg werkwoorde sonder om te skroom, maar handearbeid is nie geskik om 'n korpus van 100 miljoen woordgebruike te merk nie. Al die nodige bewerkings kan deur 'n rekenaar uitgevoer word, maar hiervoor moet dit geleer word.

Morfologiese opmaak is nodig vir die rekenaar om elke woord te "verstaan" as 'n deel van spraak wat sekere grammatikale kenmerke het. Aangesien 'n aantal gereelde reëls in Russies (soos in enige ander) taal funksioneer, is dit moontlik om 'n outomatiese prosedure vir morfologiese analise te bou deur 'n aantal algoritmes in die masjien te plaas. Daar is egter uitsonderings op die reël, sowel as verskeie kompliserende faktore. Gevolglik is suiwer rekenaarontleding vandag ver van ideaal, en selfs 4% foute gee 'n waarde van 4 miljoen woorde in 'n korpus van 100 miljoen eenhede, wat handmatige verfyning vereis.

Hierdie probleem word in detail beskryf deur V. P. Zakharov se boek "Corpus Linguistics".

Sintaktiese opmaak

Sintaktiese analise of ontleding is 'n prosedure wat die verwantskap van woorde in 'n sin bepaal. Met behulp van 'n stel algoritmes word dit moontlik om die onderwerp, predikaat, byvoegings en verskeie spraakwendings in die teks te bepaal. Deur uit te vind watter woorde in die volgorde hoof is en watter afhanklik is, kan ons inligting doeltreffend uit die teks onttrek en die masjien oplei om slegs die inligting waarin ons belangstel terug te gee in reaksie op 'n soekversoek.

laboratoriums van korpuslinguistiek in Russiese universiteite
laboratoriums van korpuslinguistiek in Russiese universiteite

Terloops, moderne soekenjins gebruik dit om spesifieke getalle in plaas van lang tekste te gee in reaksie op relevante navrae soos: "hoeveel kalorieë is in 'n appel" of "afstand van Moskou na St. Petersburg". Om egter selfs die basiese beginsels van die beskryfde proses te verstaan, sal jy jouself moet vergewis van die "Inleiding tot Corpus Linguistics" of 'n ander basiese handboek.

Semantiese opmaak

Die semantiek van 'n woord is, in eenvoudige terme, die betekenis daarvan. 'n Wyd toepaslike benadering in semantiese analise is die toekenning van etikette aan 'n woord, wat die behoort aan 'n stel semantiese kategorieë en subkategorieë weerspieël. Sulke inligting is waardevol vir die optimalisering van tekssentimentanalise-algoritmes, outomatiese verwysing en die uitvoering van ander take met behulp van korpuslinguistieke metodes.

Daar is 'n aantal "wortels" van die boom, wat abstrakte woorde is wat hetbaie breë semantiek. Soos hierdie boom vertak, word nodusse gevorm wat meer en meer spesifieke leksikale elemente bevat. Die woord "skepsel" kan byvoorbeeld geassosieer word met konsepte soos "mens" en "dier". Die eerste woord sal voortgaan om te vertak in verskeie beroepe, terme van verwantskap, nasionaliteit, en die tweede - in klasse en soorte diere.

Gebruik van inligtingherwinningstelsels

Gebruiksfere van korpuslinguistiek dek 'n wye verskeidenheid aktiwiteitsareas. Korpora word gebruik vir die samestelling en regstelling van woordeboeke, die skep van outomatiese vertaalstelsels, opsomming, onttrekking van feite, bepaling van sentiment en ander teksverwerking.

korpus linguistiek korpustipes
korpus linguistiek korpustipes

Boonop word sulke hulpbronne aktief gebruik in die studie van die tale van die wêreld en die meganismes van die funksionering van die taal as geheel. Toegang tot groot volumes vooraf voorbereide inligting dra by tot die vinnige en omvattende studie van tendense in die ontwikkeling van tale, die vorming van neologismes en stabiele spraakbeurte, veranderinge in die betekenisse van leksikale eenhede, ens.

Omdat werk met sulke groot volumes data outomatisering vereis, is daar vandag 'n noue interaksie tussen rekenaar- en korpuslinguistiek.

Nasionale Korpus van die Russiese Taal

Hierdie korpus (afgekort as NKRC) sluit 'n aantal subkorpus in wat die gebruik van die hulpbron toelaat om 'n wye verskeidenheid take op te los.

Materiale in die NCRA-databasis word verdeel in:

  • oor publikasies in die media van die 90's en 2000'sjaar, beide binnelands en buitelandse;
  • opnames van mondelinge toespraak;
  • aksentologies gemerkte tekste (d.w.s. met aksenttekens);
  • dialektoespraak;
  • poëtiese werke;
  • materiaal met sintaktiese opmaak, ens.

Die inligtingstelsel sluit ook subkorpus in met parallelle vertalings van werke uit Russies in Engels, Duits, Frans en baie ander tale (en omgekeerd).

Die databasis het ook 'n gedeelte van historiese tekste wat geskrewe spraak in Russies in verskeie tydperke van sy ontwikkeling verteenwoordig. Daar is ook 'n opleidingskorpus wat nuttig kan wees vir buitelandse burgers om die Russiese taal te bemeester.

Die nasionale korpus van die Russiese taal sluit 400 miljoen leksikale eenhede in en is in baie opsigte voor 'n beduidende deel van die korpus van Europese tale.

Vooruitsigte

'n Feit ten gunste daarvan om hierdie gebied as belowend te erken, is die teenwoordigheid van korpuslinguistieke laboratoriums in Russiese universiteite, sowel as in buitelandse. Met die gebruik en navorsing binne die raamwerk van die oorwoë inligtingherwinningsbronne, word die ontwikkeling van sommige gebiede op die gebied van hoë tegnologieë, vraag-antwoordstelsels geassosieer, maar dit is hierbo bespreek.

geskiedenis van korpuslinguistiek
geskiedenis van korpuslinguistiek

Verdere ontwikkeling van korpuslinguistiek word op alle vlakke voorspel, van tegnies, in terme van die bekendstelling van nuwe algoritmes wat die prosesse van soek en verwerking van inligting optimaliseer, die vermoëns van rekenaars uitbrei, die operasionelegeheue, en eindig met huishoudelikes, aangesien gebruikers meer en meer maniere vind om hierdie soort hulpbron in die alledaagse lewe en by die werk te gebruik.

Ten slot

In die middel van die vorige eeu het 2017 soos 'n verre toekoms gelyk, waarin ruimtetuie deur die uitgestrekte van die heelal rondsnuffel en robotte al die werk vir mense doen. In werklikheid is die wetenskap egter propvol "leë kolle" en wend hulle desperate pogings aan om vrae te beantwoord wat die mensdom al eeue lank kwel. Vrae oor die funksionering van die taal neem hier 'n groot plek in, en korpus- en rekenaarlinguistiek kan ons help om dit te beantwoord.

Deur groot hoeveelhede data te verwerk, kan jy patrone opspoor wat voorheen ontoeganklik was, die ontwikkeling van sekere taalkenmerke te voorspel, die vorming van woorde byna intyds na te spoor.

Op 'n praktiese globale vlak kan korpusse byvoorbeeld beskou word as 'n potensiële instrument om publieke sentiment te evalueer - die internet is 'n voortdurend bygewerkte databasis van verskeie tekste wat deur werklike gebruikers geskep word: dit is opmerkings, resensies, artikels, en baie ander vorme van spraak.

Daarbenewens dra die werk met korpusse by tot die ontwikkeling van dieselfde tegniese middele wat betrokke is by inligtingherwinning, bekend aan ons van Google of Yandex-dienste, masjienvertaling, elektroniese woordeboeke.

Dit is veilig om te sê dat korpuslinguistiek net sy eerste treë maak en vinnig sal ontwikkel in die nabye toekoms.

Aanbeveel: