[import re] Доменное имя

0

0

Нужно из ссылки вычленить доменное имя второго уровня. Например, из http://dynamo.kiev.champion.com/index.html надо взять только champion.com. Мои шаловливые ручонки написали следующее:

http://[A-Za-z-_\.]+\.([A-Za-z-_]+\.[A-Za-z]+)/.*

Я в регулярках ноль, может надо как-то не так?

Ссылка

← [жж][вещества] энергетики

[YouTube] Любителям Металлики →

Тире заэкранируй бэкслэшем

r_asian ★☆☆
(18.04.09 20:23:11 MSK)

Ссылка

И прямые слэши тоже.

r_asian ★☆☆
(18.04.09 20:23:57 MSK)

Ответ на: комментарий от r_asian 18.04.09 20:23:57 MSK

А так нормально?

~~mamay_cozak~~
(18.04.09 20:26:39 MSK) автор топика

Ссылка

А ещё ты забыл циферьки 0-9

r_asian ★☆☆
(18.04.09 20:29:09 MSK)

Ответ на: комментарий от r_asian 18.04.09 20:29:09 MSK

точно, спасибо

~~mamay_cozak~~
(18.04.09 20:29:31 MSK) автор топика

Ссылка

И вообще: ТОЛСТО. Шахтер - наше всё.

r_asian ★☆☆
(18.04.09 20:29:59 MSK)

Ссылка

что-то типа такого получилось

http:\/\/[A-Za-z0-9\-_\.]+\.([A-Za-z0-9\-_]+\.[A-Za-z]+)\/.*

~~mamay_cozak~~
(18.04.09 20:32:35 MSK) автор топика

Ответ на: комментарий от mamay_cozak 18.04.09 20:32:35 MSK

Ещё хозяйке на заметку:

\w эквивалент A-Za-z\-_
\d эквивалент 0-9

r_asian ★☆☆
(18.04.09 20:37:03 MSK)

Ответ на: комментарий от r_asian 18.04.09 20:37:03 MSK

s/A-Za-z\-_/A-Za-z_/

r_asian ★☆☆
(18.04.09 20:38:42 MSK)

Ссылка

Ответ на: комментарий от r_asian 18.04.09 20:37:03 MSK

В итоге

http:\/\/([\w\d\.]+\.|\b)([\w\d]+\.[A-Za-z]+)\/.*

~~mamay_cozak~~
(18.04.09 20:41:50 MSK) автор топика

Ответ на: комментарий от mamay_cozak 18.04.09 20:41:50 MSK

Окончательный вариант

http:\/\/([\w\d\-\.]+\.|\b)([\w\d\-]+\.[A-Za-z]+)\/.*

~~mamay_cozak~~
(18.04.09 20:43:16 MSK) автор топика

Ссылка

Ответ на: комментарий от mamay_cozak 18.04.09 20:41:50 MSK

Жуть какая.

1) Зачем 1-е круглые скобки? 2) Зачем \b? 3) Куда тире в 1-х скобках подевал?

И это ... может всё же в девелопмент?

r_asian ★☆☆
(18.04.09 20:46:39 MSK)

Ответ на: комментарий от r_asian 18.04.09 20:46:39 MSK

1) а какие надо? с круглыми работает
2) это когда нету домена третьего уровня, хотя и так работает гм

~~mamay_cozak~~
(18.04.09 20:50:49 MSK) автор топика

да, в девелопмент. мы сюда отдыхать от таких веществ приходим.

MoRoZ
(18.04.09 20:55:01 MSK)

Ссылка

Ответ на: комментарий от mamay_cozak 18.04.09 20:50:49 MSK

Ну работает, так работает. Чтобы заронить зерно сомнения, задам свой любимый вопрос:

Будет ли данный регексп матчить строку "зяhttp://kiev.dinamo.champions.com/зя"?

И эта ... мы про футбол флеймить уже будем или где?

r_asian ★☆☆
(18.04.09 21:19:09 MSK)

s = 'http://dynamo.kiev.champion.com/index.html' print s.split('/')[2].split('.')[-2:]

mnt
(18.04.09 21:25:49 MSK)

доменные имена могут содержать символы национальных алфавитов

cobold ★★★★★
(18.04.09 21:33:11 MSK)

Ответ на: комментарий от r_asian 18.04.09 21:19:09 MSK

Это уже детали. А про футбол зачем флеймить? Скоро и так все увидят, что Шахтер сосет.

~~mamay_cozak~~
(18.04.09 21:39:34 MSK) автор топика

Ссылка

Ответ на: комментарий от cobold 18.04.09 21:33:11 MSK

Не в моей реальности. Такие имена идут лесом.

~~mamay_cozak~~
(18.04.09 21:40:02 MSK) автор топика

Ссылка

Ответ на: комментарий от mnt 18.04.09 21:25:49 MSK

>s = 'http://dynamo.kiev.champion.com/index.html' print s.split('/')[2].split('.')[-2:]

вот оно, нормальное решение )

stave ★★★★★
(18.04.09 21:47:45 MSK)

Ссылка

Зачем люди пихают регулярные выражения везде где только можно?

Deleted
(18.04.09 22:54:18 MSK)

Ответ на: комментарий от Deleted 18.04.09 22:54:18 MSK

у тебя есть какие-то возражения?

~~mamay_cozak~~
(18.04.09 23:32:17 MSK) автор топика

Ссылка

import urlparse
a = urlparse.urlparse ('http://dynamo.kiev.champion.com/index.html')
b = a.hostname.split('.')
d2l = hostname if len(b) == 1 else '.'.join(a[-2:])

Joe_Bishop ★
(19.04.09 00:06:09 MSK)

Ответ на: комментарий от Joe_Bishop 19.04.09 00:06:09 MSK

И да, парсить url-ы регулярками - глупая затея. регексп получается длинной несколько килобайт.

Joe_Bishop ★
(19.04.09 00:07:03 MSK)

Ссылка

Ответ на: комментарий от Joe_Bishop 19.04.09 00:06:09 MSK

Хех, поцаны сказали что такое проканает:

import urlparse
a = urlparse.urlparse ('http://dynamo.kiev.champion.com/index.html')
d2l = '.'.join(a.hostname.split('.')[-2:])

Joe_Bishop ★
(19.04.09 00:13:11 MSK)