Käytä Korppia Pythonin kautta

Jos olet tehnyt mitään kieliteknologista työtä pohjoismaisille kielille viimeaikoina, olet varmaan kuullut Korpista. Korpin käyttöliittymä on ihan kiva lelu, mutta siitä ei juurikaan ole hyötyä, jos aineistoihin ei pääse rajapinnan yli koodista käsiksi. 🤷🏼‍♂️ Se, että API-kuvaus on jokseenkin piilossa netin syövereissä ja etteivät kaikki Korp-palvelut kerro API:nsa osoitetta, on omiaan vaivuttamaan epätoivoon. 😩

Onneksi, taas kerran allekirjoittanut on nakutellut koodia. 🤓 Ja tuloksena on ikioma python-kirjastoni Korpille. 😊

Asenna Korp-kirjasto Pythonille

Asentaminen ei voisi olla helpompaa, sillä kirjastoni on saatavilla PyPi:n kautta.

Sinun ei tarvitse tehdä muuta kuin ajaa: sudo pip install korp

Esimerkki käytöstä

Seuraavassa esimerkissä käytetään CSC:n Kielipankin Korppia asettamalla service_name-muuttujan arvoksi "kielipankki". Muut mahdolliset arvot ovat "GT", joka viittaa Giellateknoon, ja "språkbanken", joka viittaa Ruotsin Språkbankeniin.

Aluksi listataan kaikki Kielpankin korpukset ja valitaan niistä käyttöön ne, jotka alkavat FTB2-tekstillä. Tämä rajoittaa kyselyn suomen puupankin 2. versioon. Kyselyyn (query) määritämme, että haluamme tulokset koira-lemmalle. Tulokseksi saamme osumien kokonaismäärän sekä kaikki konkordanssit.

from korp.korp import Korp

korppi = Korp(service_name="kielipankki")
corpora = korppi.list_corpora(limit_by_prefix="FTB2")

query = '[lemma="koira"]'

total_number, concordances = korppi.all_concordances(query, corpora)

 

Lisätietoja

Minun Korp-kirjastolla voi tehdä muutakin kuin vain hakea konkordansseja. Wiki-sivuilta löytyy tarkemmat ohjeet siitä, mitä kaikkea kirjastolla voi tehdä. 😁 Jos sinulla on kysyttävää tai kommentoitavaa, voit aina ottaa yhteyttä minuun. ☺️

Lisätietoja Korpin API-rajapinnasta löytyy Kielipankin sivuilta. Sitä kannattaa tutkailla, mikäli kirjastolla haluaa tehdä monimutkaisempia kyselyitä.