регулярка (нет в ссылке) (python)

0

1

никогда не понимал, не понимаю и не пойму регулярок. :(

нужно, если ссылка (всегда вида a href="...") не содержит «/» в этом ..., заменить на #.

import re

text=re.sub('<a href="((?!/).*?)">(.*?)</a>', '<a href="#\\1">\\2</a><!--end-->\n',
"""
<a href="http://he/iii">iii</a> <a href="hello">hello</a> <a href="http://hello/oi">oi</a> <a href="hello2">hello2</a>
"""
)

print text

выводит

<a href="#http://he/iii">iii</a><!--end-->
 <a href="#hello">hello</a><!--end-->
 <a href="#http://hello/oi">oi</a><!--end-->
 <a href="#hello2">hello2</a><!--end-->

import re

text=re.sub('<a href="((?!/)*?)">(.*?)</a>', '<a href="#\\1">\\2</a><!--end-->\n',
"""
<a href="http://he/iii">iii</a> <a href="hello">hello</a> <a href="http://hello/oi">oi</a> <a href="hello2">hello2</a>
"""
)

print text

выводит

<a href="http://he/iii">iii</a> <a href="hello">hello</a> <a href="http://hello/oi">oi</a> <a href="hello2">hello2</a>

я уже что только не подсовывал, правда, не понимая, что именно - ничего не подходит :(

Ссылка

←	Построить график в терминале на си

Yi очередная попытка использования

→

In [7]: print re.sub('<a href="([^/]*?)">(.*?)</a>', '<a href="#\\1">\\2</a><!--end-->\n',
"""
<a href="http://he/iii">iii</a> <a href="hello">hello</a> <a href="http://hello/oi">oi</a> <a href="hello2">hello2</a> 
"""
)

<a href="http://he/iii">iii</a> <a href="#hello">hello</a><!--end-->
 <a href="http://hello/oi">oi</a> <a href="#hello2">hello2</a><!--end-->

Читай книжку Mastering Regular Expressions и пользуйся тулзами для отладки регекспов.

provaton ★★★★★
(15.06.13 13:15:25 MSK)
Последнее исправление: provaton 15.06.13 13:20:55 MSK (всего исправлений: 1)

Ответ на: комментарий от provaton 15.06.13 13:15:25 MSK

спасибо

книжки подобные уже больше 10 лет читаю, я их просто понимать не умею.

~~feofil~~
(15.06.13 13:25:08 MSK) автор топика

Ссылка

Я ННП, что тебе нужно, ТС.

Так что ли?

vadim@aquila:~$ irb
irb(main):001:0> t = '<a href="http://he/iii">iii</a> <a href="hello">hello</a> <a href="http://hello/oi">oi</a> <a href="hello2">hello2</a>'
=> "<a href=\"http://he/iii\">iii</a> <a href=\"hello\">hello</a> <a href=\"http://hello/oi\">oi</a> <a href=\"hello2\">hello2</a>"
irb(main):002:0> def f(x) ; x.gsub(/(<a\s+href\s*=\s*\")([^\/]+)(\"\s*>)/, '\1#\3') ; end
=> nil
irb(main):003:0> puts f(t)
<a href="http://he/iii">iii</a> <a href="#">hello</a> <a href="http://hello/oi">oi</a> <a href="#">hello2</a>
=> nil
irb(main):004:0>

~~geekless~~ ★★
(15.06.13 13:40:18 MSK)

Ссылка

Ответ на: комментарий от provaton 15.06.13 13:15:25 MSK

Может лучше доку по lxml и пользоватся тулзами для URL (urllib.parse -> проверка по fragment)?

anonymous
(15.06.13 14:20:15 MSK)

Ответ на: комментарий от anonymous 15.06.13 14:20:15 MSK

Если хтмл достаточно валиден, то лучше именно так.

provaton ★★★★★
(15.06.13 14:28:35 MSK)

Ссылка

Ответ на: комментарий от provaton 15.06.13 13:15:25 MSK

пользуйся тулзами для отладки регекспов

Какую посоветуешь? Пробовал VisualREGEXP — показалась невменяемой. И регекспы там, если правильно помню, не питоньи.

varchar ★
(17.06.13 01:16:35 MSK)

Ответ на: комментарий от varchar 17.06.13 01:16:35 MSK

Да, важно чтоб синтаксис был такой, как тебе надо, так как нюансы порой сильно отличаются в разных реализациях. Для питоньих регекспов я юзаю kodos, правда он аж на QT3 и слабо вписывается в современные десктопные окружения. Еще есть вот такая штука, победнее, но зато устанавливать ничего не надо.

provaton ★★★★★
(17.06.13 10:08:56 MSK)