N-gram
Et n-gram er en undersekvens av n elementer i en gitt sekvens. I følge søknaden kan de aktuelle elementene være fonemer , stavelser , bokstaver , ord osv. Et n-gram med lengde 1 kalles et "unigram", av lengde 2 " digram ", av lengde 3 " trigram " og, fra lengde 4 og utover, "n-gram". Noen språkmodeller konstruert fra n-gram er Markov-kjeder av orden n-1.
Eksempler
Her er noen eksempler på ordtrigrammer og relaterte tellinger hentet fra Google n-gram-korpus.
- keramikk samleobjekter samleobjekter (55)
- fine keramiske samleobjekter (130)
- keramikk samlet inn av (52)
- keramikk samleobjekt keramikk (50)
- keramikk samleobjekter matlaging (45)
Bibliografi
- Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing , MIT Press: 1999. ISBN 0-262-13360-1 .
- Ted Dunning, statistisk identifikasjon av språk . Computing Research Laboratory Memorandum (1994) MCCS-94-273.
- Owen White, Ted Dunning, Granger Sutton, Mark Adams, J.Craig Venter og Chris Fields. En kvalitetskontrollalgoritme for dna-sekvenseringsprosjekter. Nucleic Acids Research, 21 (16): 3829--3838, 1993.
- Frederick J. Damerau, Markov-modeller og lingvistisk teori . Mouton. Haag, 1971.
Relaterte elementer