¿Cómo usar HFST con Python?

HFST (Helsinki Finite-State Transducer Technology) es una herramienta genial para crear un modelo computacional de la morfología de una lengua. El problema es que la documentación de HFST no explica en detalle cómo usarlo con Python. Por eso, trabajando en el mismo pasillo que sus autores, yo decidí de escribir este tutorial que te explica cómo cargar modelos HFST en Python y usarlos para generar y analizar palabras. 😃

Instalar HFST

Para instalar HFST, lo único que tienes que hacer es ejecutar sudo pip install hfst en el terminal. Para macOS y Windows, hay versiones precompiladas que pip instala automáticamente. Si usas Linux, puede que tengas que instalar estas dependencias: sudo apt-get install build-essential libreadline6-dev python-dev .

Usar transductores

Utiliza el siguiente código para usar un transductor HFST.

import hfst

filename = "/path/to/your_lookup.hfstol"
input_stream = hfst.HfstInputStream(filename)
analyser = input_stream.read()
print analyser.lookup("word_you_want_to_lookup")

 

Lo genial es que puedes usar el mismo código tanto para generar como analizar palabras. Lo único que tienes que hacer es cambiar el archivo HFST en uso. 🙂

Si necesitas un transductor listo para probar el código, puedes, por ejemplo, descargar Omorfi para procesar el finlandés. Los archivos que te recomiendo probar son omorfi-omor.analyse.hfst y omorfi-omor.generate.hfst guardados en /usr/local/share/hfst/fi/ o bien C:\omorfi\hfst\fi dependiendo de tu sistema operativo.

Conclusión

No es demasiado difícil usar HFST hoy día, ya que por fin se puede instalar desde el repositorio pip, y es compatible con Python 2 y Python 3. Para más información, consulta  el GitHub del proyecto. Muchas gracias por leer mi blog. 😊