N-gram

Et n-gram er en undersekvens av n elementer i en gitt sekvens. I følge søknaden kan de aktuelle elementene være fonemer , stavelser , bokstaver , ord osv. Et n-gram med lengde 1 kalles et "unigram", av lengde 2 " digram ", av lengde 3 " trigram " og, fra lengde 4 og utover, "n-gram". Noen språkmodeller konstruert fra n-gram er Markov-kjeder av orden n-1.

Eksempler

Her er noen eksempler på ordtrigrammer og relaterte tellinger hentet fra Google n-gram-korpus.

Bibliografi

Relaterte elementer