Не работает поиск по тексту в BeautifulSoup

parsing, pycharm, python, парсинг веб-страниц, я познаю мир

0

1

Всем привет!

Мне нужно спарсить один сайт, пытаюсь для этого применить библиотеку BeautifulSoup4 на python.

Более-менее с ней понятно, но не могу заставить работать поиск по тексту супа, т.е. запуск функций find или find_all(text='искомый_текст').

Вот пример моего кода - например, нужно на странице nic.ru найти все элементы, в которых содержится слово «сервер», и вывести их на консоль

import requests
from bs4 import BeautifulSoup

def get_content():
    url = 'https://www.nic.ru'

    header = {
        "accept": "application/json, text/plain, */*",
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
    }
    resp = requests.get(url, headers=header)
    if resp.status_code == 200:
            page = BeautifulSoup(resp.text, 'lxml')
 
            pattern = 'сервер'
            elements1 = page.find_all(text=pattern)
            print(elements1)

Данный код на выходе печатает пустое множество [ ], хотя на этой странице слово «сервер» встречается несколько раз.

Как это победить?

Ссылка

←	Конструктор копирования

Сколько зарабатывает Pascal программист?

→

find_all ищет точное совпадение. Скорее всего, на странице текст окружен пробельными символами. Надо искать регекспами, например, игнорирующими whitespace.

~~emorozov~~ ☆
(12.12.22 17:00:24 MSK)

Ответ на: комментарий от emorozov 12.12.22 17:00:24 MSK

Мне нужно, он нашёл на странице все элементы, в которых упоминается «сервер».

Например, анализ исследуемой страницы(https://www.nic.ru/) должен мне выдать следующие элементы: [Хостинг и серверы] [Виртуальный сервер VDS/VPS] [Гибридные серверы] [Мощность физического сервера в сочетании с гибкостью управления VDS] [Аренда сервера] [Физический сервер в дата-центре…]

У них могут быть разные теги и классы.

Если find и find_all не ищет по подстроке текста элемента на странице, то как лучше искать?

Garik368
(12.12.22 17:12:32 MSK) автор топика
Последнее исправление: Garik368 12.12.22 17:13:48 MSK (всего исправлений: 3)

Ответ на: комментарий от Garik368 12.12.22 17:12:32 MSK

find_all(text=re.compile('сервер', re.I)) - как-то так, полагаю. Давно не использовал BS, пишу по памяти.

~~emorozov~~ ☆
(12.12.22 17:14:27 MSK)

Ответ на: комментарий от emorozov 12.12.22 17:14:27 MSK

Да, так работает) Спасибо!

Garik368
(12.12.22 17:32:14 MSK) автор топика

Ссылка

Ответ на: комментарий от emorozov 12.12.22 17:14:27 MSK

ещё есть один вопрос, связанный с этим скриптом - основное время работы занимает не сам парсинг, а долгое выполнение функции requests.get(url, headers=header) - порядка 1,4 секунды. Когда надо обработать несколько тысяч страниц, эти секунды выливаются в десятки минут…

С чем это может быть связано? С сервером, на котором находится сайт, или что-то в моём оборудовании или коде?

Garik368
(12.12.22 18:30:29 MSK) автор топика
Последнее исправление: Garik368 12.12.22 18:57:49 MSK (всего исправлений: 1)

Ответ на: комментарий от Garik368 12.12.22 18:30:29 MSK

Сложно сказать. Всё вместе, скорее всего.

Последовательно скачивать и парсить страницы по одной - не будет быстро. Надо использовать потоки или asyncio.

~~emorozov~~ ☆
(12.12.22 20:53:40 MSK)

Ответ на: комментарий от emorozov 12.12.22 20:53:40 MSK

Потоки - это что имеется ввиду?

Garik368
(13.12.22 18:55:57 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Конструктор копирования

Development

Сколько зарабатывает Pascal программист?

→

Похожие темы