|
|
@ -110,8 +110,7 @@ for i in all_wall:
|
|
|
|
stopwords = nltk.corpus.stopwords.words('russian')
|
|
|
|
stopwords = nltk.corpus.stopwords.words('russian')
|
|
|
|
|
|
|
|
|
|
|
|
#можно расширить список стоп-слов
|
|
|
|
#можно расширить список стоп-слов
|
|
|
|
stopwords.extend(['что', 'это', 'так', 'вот',
|
|
|
|
stopwords.extend(['что', 'это', 'так', 'вот', 'быть', 'как', 'в', 'к', 'на'])
|
|
|
|
'быть', 'как', 'в', 'к', 'на'])
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
|
|
|
|
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
|
|
|
|
|
|
|
|
|
|
|
|