Как классифицировать url? что такое функции URLs? Как выбрать и извлечь функции из URL

Я только начал работать над проблемой классификации. Его проблема двух классов, моя обученная модель (машинное обучение) должна будет решить/предсказать либо разрешить URL-адрес, либо заблокировать его.

мой вопрос очень конкретный.

  1. как классифицировать URL-адреса? Следует ли использовать обычные методы анализа текста?
  2. каковы функции URLs?
  3. Как выбрать и извлечь функции из URL?

1 ответов


Я предполагаю, что у вас нет доступа к содержимому URL-адреса, поэтому вы можете извлекать только функции из самой строки url. В противном случае имеет смысл использовать содержимое URL-адреса.

вот некоторые функции, которые я попробую. См.этой бумага для Больше идей:

  1. все компоненты url. Например, эта страница имеет следующий url:

    http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features

все токены, которые встречаются в разных частях URL-адреса должны иметь переменное значение для классификации. В этом случае последняя часть после токенизации вносит большие возможности для этой страницы. (например, классификация, URL-адреса, выбор, извлечение, функции)

 * stackoverflow
 * com
 * questions
 * 26456904
 * how to classify urls what are urls features how to select and extract features
  1. длина url-адреса;
  2. n-граммы (2-граммы как примеры ниже)
    • stackoverflow-com
    • com-вопросы
    • вопросы-26456904
    • 26456904-как
    • how-to
    • ....