kielitiede

Näin käytät Omorfia suomen morfologiaan

Omorfi on aivan mahtava työkalu suomen kielen morfologian prosessointiin ja generointiin tietokoneella. Sen käyttäminen ei ole kuitenkaan ihan yksinkertaista (H)FST:itä tuntemattomille ihmisille. 😅FST-mallien käytön yksinkertaistaminen on yksi tärkeimmistä syistä sille, että aloin kehittää omaa UralicNLP-kirjastoani Pythonille. Sen tarkoituksena on yksinkertaistaa luonnollisen kielen käsittelyä Uralilaisten kielten kohdalla

(lisää…)
Käytä Korppia Pythonin kautta

Jos olet tehnyt mitään kieliteknologista työtä pohjoismaisille kielille viimeaikoina, olet varmaan kuullut Korpista. Korpin käyttöliittymä on ihan kiva lelu, mutta siitä ei juurikaan ole hyötyä, jos aineistoihin ei pääse rajapinnan yli koodista käsiksi. 🤷🏼‍♂️ Se, että API-kuvaus on jokseenkin piilossa netin syövereissä ja etteivät kaikki Korp-palvelut kerro API:nsa osoitetta, on omiaan vaivuttamaan epätoivoon. 😩

Onneksi, taas kerran allekirjoittanut on nakutellut koodia. 🤓 Ja tuloksena on ikioma python-kirjastoni Korpille. 😊 (lisää…)

a drawn lost cat sign

Ah, sarkasmi, tuo epäsuoran ilmaisun muoto, joka askarruttaa meitä kaikkia. Tuntemattomasta ihmisestä on vaikeampaa ottaa selvää, onko hän sarkastinen, kuin tutusta. Riippumatta siitä, kuinka sarkastisia itse olisimme. Mutta mitä tiede mahtaa sanoa sarkasmista? Saavuit oikeaan paikkaan, sillä mä kirjoitin mun gradun aiheesta espanjaksi. Jos sulla ei oo aikaa lukea sitä, voit lukea tämän postauksen sen sijaan. 😅 (lisää…)

a pen and a syntactic tree

Suomi on suhteellisen hankala kieli tuottaa automaattisesti tietokoneella (NLG). Siinnä missä enkun kohdalla sanoja voi vain mäiskiä peräkanaa lauseeseen perusmuodossa, suomi vaatii taivuttelua. Tietokoneen on hallittava kongruenssi- ja rektiosäännöt, mikä on jokseenkin haastavaa. 🤷🏼‍♂️

Onneksi sinun ei tarvitse moisella päätäsi vaivata! Olen tehnyt suomen tuottamista varten python-kirjaston, syntax makerin. Sitä saa käyttää aivan vapaasti. Oletko valmis vapauttamaan syntax maker -pedon? 😊😊 (lisää…)

A green python ready to use HFST :-D

HFST (Helsinki Finite-State Transducer Technology) on loistava työkalu kielen morfologian mallintamiseen. Ongelmana on kuitenkin se, että sen Python-rajapinnan dokumentaatiossa on toivomisen varaa. Mutta älä vaivu epätoivoon! Tämä postaus opastaa, miten HFST-tiedostoja ladataan pythonin kautta, ja miten niillä voidaan analysoida ja tuottaa kielen morfologiaa. 😃
(lisää…)