pycrypt.scorers package¶

Submodules¶

Czech frequencies, extract from http://ufal.mff.cuni.cz/~hajic/courses/npfl067/stats/czech.html data from 564532247 characters, kept only most relevant for speed

class pycrypt.scorers.czechscorer.CzechScorer[source]¶

Czech scorer, credits for frequencies go to MFF

class pycrypt.scorers.englishscorer.EnglishScorer[source]¶

English scorer, frequencies got from interwebz

class pycrypt.scorers.languagescorer.LanguageScorer[source]¶

Scorer for languages based on N-grams and words

loadWordList(path, minwordlen=3, maxwordlen=10)[source]¶: Load words from file, 1 word per line

setWeights(ngram_weights, word_weight=0)[source]¶: Score multipliers, ngram_weights is list corresponding to ideal frequencies when something is 0, it’s ignored when scoring

getNgramFrequencies(text, length)[source]¶: Get dictionary of frequencies of N-grams (of given length)

class pycrypt.scorers.scorer.Scorer[source]¶

Abstract class for scoring strings (i.e. language resemblance)