Как классифицировать url? что такое функции URLs? Как выбрать и извлечь функции из URL
Я только начал работать над проблемой классификации. Его проблема двух классов, моя обученная модель (машинное обучение) должна будет решить/предсказать либо разрешить URL-адрес, либо заблокировать его.
мой вопрос очень конкретный.
- как классифицировать URL-адреса? Следует ли использовать обычные методы анализа текста?
- каковы функции URLs?
- Как выбрать и извлечь функции из URL?
1 ответов
Я предполагаю, что у вас нет доступа к содержимому URL-адреса, поэтому вы можете извлекать только функции из самой строки url. В противном случае имеет смысл использовать содержимое URL-адреса.
вот некоторые функции, которые я попробую. См.этой бумага для Больше идей:
-
все компоненты url. Например, эта страница имеет следующий url:
http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features
все токены, которые встречаются в разных частях URL-адреса должны иметь переменное значение для классификации. В этом случае последняя часть после токенизации вносит большие возможности для этой страницы. (например, классификация, URL-адреса, выбор, извлечение, функции)
* stackoverflow
* com
* questions
* 26456904
* how to classify urls what are urls features how to select and extract features
- длина url-адреса;
- n-граммы (2-граммы как примеры ниже)
- stackoverflow-com
- com-вопросы
- вопросы-26456904
- 26456904-как
- how-to
- ....