loanword-detection-in-armenian

saro2808/loanword-detection-in-armenian

Loanword detection in Armenian

Jupyter Notebook Stars: 0 Forks: 0 License: MIT Language/NLP

armenian-nlp loanword-detection multilabel-classification linguistic-analysis low-resource-language machine-learning language-identification

Summary

A research project exploring machine learning approaches for detecting loanwords in Armenian and predicting their language of origin. The repository contains Jupyter notebooks implementing feature extraction (syllables, n-grams, BPE) and classification models (Logistic Regression, Random Forest, CatBoost) on a manually curated dataset of 862 loanwords from 36 languages and 865 native Armenian words.

View on GitHub

More in: Armenian NLP Research Tools →

Similar Projects

Armenian-Dialect-Detector

takavor/Armenian-Dialect-Detector

A small NLP project that trains classifiers to distinguish between Eastern and Western Armenian dialects using Wikipe...

Jupyter Notebook Stars: 1

armenian_datasets

ArmVectores/armenian_datasets

A curated list of Armenian language datasets, corpora, models, and digital resources for NLP and computational lingui...

Armenian-Words-Lexicon-and-OCR-Dataset

AtecAi/Armenian-Words-Lexicon-and-OCR-Dataset

A project for creating Armenian OCR datasets by scraping Armenian Wiktionary, processing words into lowercase/upperca...

Python Stars: 0

ArmenianLanguegeAutocomplete

madanela/ArmenianLanguegeAutocomplete

A project exploring Armenian language autocomplete using multiple NLP approaches including Word2Vec, LSTM, BERT trans...

Jupyter Notebook Stars: 2

uniparser-grammar-eastern-armenian

timarkh/uniparser-grammar-eastern-armenian

A rule-based morphological analyzer for Modern Eastern Armenian built with uniparser-morph. It performs lemmatization...

Python Stars: 5

QnarikP/word2vec_arm

A complete pipeline for training Word2Vec embeddings on Armenian text, including data preprocessing, model training w...

Jupyter Notebook Stars: 0