Low-resource-Armenian-NLP

levongevorgian/Low-resource-Armenian-NLP

Stars: 0 Forks: 1 ML/AI

armenian-nlp tokenization low-resource-language language-model-adaptation sentencepiece parameter-efficient-finetuning vocabulary-grafting

Summary

A research project investigating and improving tokenization efficiency for the low-resource Armenian language. It involves analyzing existing tokenizer performance on Armenian, training Armenian-specific tokenizers, grafting new vocabulary into a Qwen2.5-0.5B model, and evaluating recovery via LoRA fine-tuning. The work is structured as a multi-goal research study with code, notebooks, and a final report.

View on GitHub

Similar Projects

Armenian-participle-phrase-punctuation

AlbertHakobyan070/Armenian-participle-phrase-punctuation

This repository contains the complete code, data pipelines, and trained models for a bachelor thesis project on Armen...

Jupyter Notebook Stars: 1

Exploring-the-Linguistic-Efficiency-of-Large-Language-Models-in-Armenian-Discourse

Anahit-N/Exploring-the-Linguistic-Efficiency-of-Large-Language-Models-in-Armenian-Discourse

A capstone project evaluating GPT-3.5-Turbo's performance on Armenian language tasks, including extractive QA, multip...

Jupyter Notebook Stars: 0

loanword-detection-in-armenian

saro2808/loanword-detection-in-armenian

A research project exploring machine learning approaches for detecting loanwords in Armenian and predicting their lan...

Jupyter Notebook Stars: 0

Armenian-tokenizer

nairabarseghyan/Armenian-tokenizer

A student project implementing multiple tokenization methods (BPE, WordPiece, SentencePiece, tiktoken) for Armenian l...

Jupyter Notebook Stars: 0

xcl_nlp

caval-project/xcl_nlp

This repository contains NLP parsing models (likely dependency parsers and/or part-of-speech taggers) specifically tr...

Stars: 2

armenian_datasets

ArmVectores/armenian_datasets

A curated list of Armenian language datasets, corpora, models, and digital resources for NLP and computational lingui...

Stars: 2