История изменений

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем вставки кода, убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова (кроме числительных).

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Перед новым годом экспериментировал с разными имбеддингами.

Тогда же сделал «мешок слов»->tfidf->svd(100 компонент)->manifold, на графиках почти ничего интересного не увидел, не видно там сходу отдельных куч данных.

Вчера сделал так: «препроцессинг без лемматизации»-> Laser->manifold, данные оказались ещё более скученными (одна куча + несколько оторвавшихся точек), метки распределены равномерно по всей куче…

Сомневаюсь, что кластеризация поможет…

Собственно, Laser заинтересовал тем, что извлекает семантику независимо от языка, соответственно, можно попробовать обогатить датасет за счет размеченных toxic comments на любых языках, которые смогу найти.

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем вставки кода, убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова (кроме числительных).

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Перед новым годом экспериментировал с разными имбеддингами.

Тогда же сделал «мешок слов»->tfidf->svd(100 компонент)->manifold, на графиках почти ничего интересного не увидел, не видно там сходу отдельных куч данных.

Вчера сделал так: «препроцессинг без лемматизации»-> Laser->manifold, данные оказались ещё более скученными (одна куча + несколько оторвавшихся точек), метки распределены равномерно по всей куче…

Сомневаюсь, что кластеризация поможет…

Собственно, Laser заинтересовал тем, что дает извлекает семантику независимо от языка, соответственно, можно попробовать обогатить датасет за счет размеченных toxic comments на любых языках, которые смогу найти.

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем вставки кода, убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова (кроме числительных).

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Перед новым годом экспериментировал с разными имбеддингами.

Тогда же сделал «мешок слов»->tfidf->svd(100 компонент)->manifold, на графиках почти ничего интересного не увидел, не видно там сходу отдельных куч данных.

Вчера сделал так: «препроцессинг без лемматизации»-> Laser->manifold, данные оказались ещё более скученными (одна куча + несколько оторвавшихся точек), метки распределены равномерно по всей куче…

Сомневаюсь, что кластеризация поможет…

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем вставки кода, убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова (кроме числительных).

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Перед новым годом экспериментировал с разными имбеддингами.

Тогда же сделал «мешок слов»->tfidf->svd(100 компонент)->manifold, на графиках почти ничего интересного не увидел, не видно там сходу отдельных куч данных.

Вчера сделал так: «препроцессинг без лемматизации»-> Laser->manifold, данный оказались ещё более скученными (одна куча + несколько оторвавшихся точек), метки распределены равномерно по всей куче…

Сомневаюсь, что кластеризация поможет…

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем вставки кода, убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова (кроме числительных).

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Перед новым годом экспериментировал с разными имбеддингами.

Тогда же сделал «мешок слов»->tfidf->svd(100 компонент)->manofold, на графиках почти ничего интересного не увидел, не видно там сходу отдельных куч данных.

Вчера сделал так: «препроцессинг без лемматизации»-> Laser->manifold, данный оказались ещё более скученными (одна куча + несколько оторвавшихся точек), метки распределены равномерно по всей куче…

Сомневаюсь, что кластеризация поможет…

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем вставки кода, убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова (кроме числительных).

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Перед новым годом экспериментировал с разными имбеддингами.

Тогда же сделал «мешок слов»->tfidf->svd(100 компонент)->manofold, на графиках почти ничего интересного не увидел, не видно там сходу отдельных куч данных.

Вчера сделал так: «препроцессинг без лемматизации»-> Laser->manifold, данный оказались ещё более скученными (одна куча + несколько оторвавшихся точек), метки распределены равномерно по всей куче…

Сомневаюсь, что кластеризация поможет…

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем вставки кода, убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова (кроме числительных).

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Перед новым годом экспериментировал с разными имбеддингами.

Так же сделал «мешок слов»->tfidf->svd(100 компонент)->manofold, на графиках почти ничего интересного не увидел, не видно там сходу отдельных куч данных.

Вчера сделал так: «препроцессинг без лемматизации»-> Laser->manifold, данный оказались ещё более скученными (одна куча + несколько оторвавшихся точек), метки распределены равномерно по всей куче…

Сомневаюсь, что кластеризация поможет…

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем вставки кода, убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова (кроме числительных).

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова (кроме числительных).

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова, кроме числительных.

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова, кроме числительных.

Дальше - токенизатор (20к самы частых слов) и паддинг и нейронка.

То, что работало в роботе, сделано по гугловскому хендбуку по классификации текстов.

Препроцессинг: убираем знаки препинания (вопросы и восклицание заменяются на «вопрос» «восклицание»), автозамена юникодовых emoji (смайлики, предметы, флаги) и смайликов на их текстовые описания, автозамена цифр на числительные, приводим к нижнему регистру, лемматизируем, убираем стоп-слова, кроме числительных.

Дальше - токенизатор и паддинг и нейронка.