Чем заменить медленный PHP

0

3

Есть скрипт, очень простой. Входные данные - два словаря (просто два файла, где по слову на каждой строке). Несколько текстов - это просто строка.

Нужно регулярным выражением найти в тексте все слова из словаря и вернуть в виде массива все, что удалось найти.

Проблема - сделал словарь размером 400Мб и тут даже текст в одно слово - это очень и очень долго.

На чем переписать под Debian? Думал про bash, но вспомнил про python - и понял, что не знаю что выбрать. Учитывая bash я не знаю, а python немного знаю, а нужно максимум скорости.... но получу ли я ее на bash? Есть мечты отделать парой строк через exec...

Ссылка

← Ковариантность и динамическая типизация

нужна помощь в идентификации кода →

← 1 2 3 →

python тут вряд ли поможет. Регэкспы сами по себе медленные. Думаю что проблема в твоем коде,

~~Jopich1~~ ☆
(30.09.17 00:00:07 MSK)

Ruby

~~Deathstalker~~ ★★★★★
(30.09.17 00:01:01 MSK)

Ответ на: комментарий от Deathstalker 30.09.17 00:01:01 MSK

как в лужу пукнул

~~Jopich1~~ ☆
(30.09.17 00:01:58 MSK)

Ссылка

Ответ на: комментарий от Jopich1 30.09.17 00:00:07 MSK

Кстати я не понял ты слова в тексте ищешь без учета морфологии ? Если так то зачем тебе regexp если это быстрее делается через substring ( или что там в php ) ?

~~Jopich1~~ ☆
(30.09.17 00:03:39 MSK)

Ссылка

Ответ на: комментарий от Jopich1 30.09.17 00:00:07 MSK

Нечем заменить, иначе нормально не найти

postscreen
(30.09.17 00:04:11 MSK) автор топика

Учитывая bash я не знаю

А что там знать, man grep.

devl547 ★★★★★
(30.09.17 00:04:37 MSK)

Ответ на: комментарий от postscreen 30.09.17 00:04:11 MSK

покажи кусок кода

~~Jopich1~~ ☆
(30.09.17 00:04:58 MSK)

Ответ на: комментарий от Jopich1 30.09.17 00:04:58 MSK

while (($buffer = fgets($handle, 64000)) !== false) { preg_match_all('/[^а-я]'.trim($buffer).'[^а-я]/iSu', $text, $result); if( count($result[0]) != 0 and !in_array(trim($buffer), $isst_words) ){ $isst_words[] = trim($buffer); }

}

postscreen
(30.09.17 00:07:13 MSK) автор топика

Ответ на: комментарий от devl547 30.09.17 00:04:37 MSK

Это в цикле через exec но через grep? Памяти, кстати мало...

postscreen
(30.09.17 00:11:01 MSK) автор топика

ну замени быстрым PHP, раз уж такой привередливый

anonymous
(30.09.17 00:11:42 MSK)

Bash+AWK+sed?

~~Andrey2001~~
(30.09.17 00:13:46 MSK)

Ссылка

Т.е. он каждое слово соотведствующее регулярке из текста ищет в словаре?

Словарь отсортирован? Тут для доступа к словарю нужно что-то похожее на индексы у БД. Чтобы не было нужды перебирать весь словарь.

Deleted
(30.09.17 00:17:51 MSK)

Ответ на: комментарий от postscreen 30.09.17 00:11:01 MSK

Зачем в цикле-то?

devl547 ★★★★★
(30.09.17 00:28:41 MSK)

Ответ на: комментарий от devl547 30.09.17 00:28:41 MSK

Словарь то большой, как его еще туда поместить?

postscreen
(30.09.17 00:32:57 MSK) автор топика

Ссылка

Ответ на: комментарий от Deleted 30.09.17 00:17:51 MSK

Отсортирован, но не особо помогает...

postscreen
(30.09.17 00:36:24 MSK) автор топика

Ответ на: комментарий от postscreen 30.09.17 00:36:24 MSK

Значит я бы сделал так, чтобы словарь не всегда читался с начала.

Deleted
(30.09.17 00:39:36 MSK)

Ссылка

Ответ на: комментарий от postscreen 30.09.17 00:36:24 MSK

Нужно регулярным выражением найти в тексте все слова из словаря и вернуть в виде массива все, что удалось найти.

что-то я не понял - тебе чего нужно найти сколько раз в тексте встречается слово из словаря ?

Ну разбей исходный текст по словам ( по пробелам ) и ищи совпадения без реэкспом по прямому совпадению ...

~~Jopich1~~ ☆
(30.09.17 00:39:45 MSK)

Ссылка

Ответ на: комментарий от anonymous 30.09.17 00:11:42 MSK

Как выглядит быстрый php в этом случае? Отказаться от чтения файлов? От чего? Вроде как-то можно в grep все сразу...

postscreen
(30.09.17 00:40:22 MSK) автор топика

Ответ на: комментарий от postscreen 30.09.17 00:40:22 MSK

засунь файлы со словарями в память в хэш. По нему и сравнивай

~~Jopich1~~ ☆
(30.09.17 00:41:17 MSK)

Ссылка

но вспомнил про python - и понял, что

что получится еще медленнее

Ford_Focus ★★★★★
(30.09.17 00:47:01 MSK)

Ответ на: комментарий от postscreen 30.09.17 00:07:13 MSK

этот кусок вполне переписываем на баш, только вместо 64000 байтов будет строго 1 строка

но если тебе скучно, можешь взять golang||java||C#, читать файл построчно и асинхронно запускать поиск по регулярке, как только строка считалась

если тебе скучно и есть алкоголь||вещества, можешь взять rust||c++

Ford_Focus ★★★★★
(30.09.17 00:54:58 MSK)

Ссылка

Ответ на: комментарий от postscreen 30.09.17 00:40:22 MSK

быстрый php выглядит как смена алгоритма с «50 миллионов раз регэкспами колбасим текст любой длины» на что-то более разумное.

а скорее всего - в разумной постановке задачи

anonymous
(30.09.17 00:55:45 MSK)

Ссылка

нужно максимум скорости.... но получу ли я ее на bash?

Скорость самых быстрых морских черепах на суше.

Из этих двоих бери змеюку не задумываясь

annulen ★★★★★
(30.09.17 00:57:28 MSK)

Ответ на: комментарий от annulen 30.09.17 00:57:28 MSK

мы как-то лулзов ради сравнивали в подобной задаче ruby 1.9.3 против баша. баш отрывался от руби просто в десятки раз на почти 2 гиговом файле :)

не стоит обижать малышей они взрослых (С) позвать могут :)

Ford_Focus ★★★★★
(30.09.17 01:01:21 MSK)
Последнее исправление: Ford_Focus 30.09.17 01:04:31 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от postscreen 30.09.17 00:07:13 MSK

это не говоря уже о милых мелочах вроде поиска всех вхождений через preg_match_all а потом проверке что там есть хотя бы одно вхождение в count($result[0])

или проверке в цикле 50 миллионов раз !in_array(trim($buffer), $isst_words. пэхапэшники те еще говноеды, но надо же хоть немного понимать, почему это плохо.

в общем, проблема не в медленном пэхапэ, и не в том, что ты не знаешь питон. проблема в том, что ты вообще не одупляешь, что ты делаешь. тут не инструмент надо менять

anonymous
(30.09.17 01:07:21 MSK)

Ссылка

Ответ на: комментарий от postscreen 30.09.17 00:07:13 MSK

срань господня, я только посмотрел на регэкс. что, по-твоему, он должен искать?

anonymous
(30.09.17 01:22:17 MSK)

Ссылка

На чем переписать под Debian? Думал про bash

https://www.youtube.com/watch?v=uB4zwhvaKLE

Siado ★★★★★
(30.09.17 01:26:36 MSK)

Ссылка

Ответ на: комментарий от Ford_Focus 30.09.17 00:47:01 MSK

что получится еще медленнее

Проиграл. Python был всегда быстрее php. А уж работа с текстом и подавно.

th3m3 ★★★★★
(30.09.17 01:31:46 MSK)

Попробуй Rust.

th3m3 ★★★★★
(30.09.17 01:33:46 MSK)

Ссылка

а нужно максимум скорости.... но получу ли я ее на bash?

Господь с вами. Язык коммандной оболочки и скорость — это на разных полюсах.

Возьмите хотя бы АВК, что ли. А если задача совсем примитивная, то может и grep’а хватить.

Zmicier ★★★★★
(30.09.17 01:34:56 MSK)
Последнее исправление: Zmicier 30.09.17 01:36:13 MSK (всего исправлений: 1)

В php есть pcre jit https://stackoverflow.com/questions/34849485/regex-not-working-for-long-patte...

Оно может немного ускорить

А так, проще написать на с++ или freepascal

Ну или переделать алгоритм обработки, там наверняка есть варианты

ism ★★★
(30.09.17 01:35:47 MSK)

Ответ на: комментарий от devl547 30.09.17 00:04:37 MSK

Учитывая bash я не знаю
А что там знать, man grep.

Ну, например, знать, что в Баше нет grep’а.

Zmicier ★★★★★
(30.09.17 01:37:34 MSK)

Ответ на: комментарий от Zmicier 30.09.17 01:34:56 MSK

awk тоже не шибко быстр, за исключением mawk

annulen ★★★★★
(30.09.17 01:38:50 MSK)

Ссылка

Ответ на: комментарий от ism 30.09.17 01:35:47 MSK

на плюсах, да. чувак, да этот парень лоботомию пережил как минимум трижды, ты прикинь, что он напишет на плюсах, если на пехапе он пишет вот такое

while (($buffer = fgets($handle, 64000)) !== false) { 
	preg_match_all('/[^а-я]'.trim($buffer).'[^а-я]/iSu', $text, $result); 
	if( count($result[0]) != 0 and !in_array(trim($buffer), $isst_words) ){ 
		$isst_words[] = trim($buffer); 
	}
}

anonymous
(30.09.17 01:39:42 MSK)

Ссылка

Ответ на: комментарий от th3m3 30.09.17 01:31:46 MSK

https://benchmarksgame.alioth.debian.org/u64q/php.html

Ford_Focus ★★★★★
(30.09.17 01:48:25 MSK)

Ссылка

Ответ на: комментарий от th3m3 30.09.17 01:31:46 MSK

мы банально можем взять одну задачу, написать на py3 и php7 и выполнить на своих машинах/серверах. почему бы и нет?

Ford_Focus ★★★★★
(30.09.17 01:52:53 MSK)

Ссылка

Нужно регулярным выражением

вот просто нет. Потому, что пони.

1) читаем словарь в память, кладем в хэшмап/ассоциативный массив, хз как оно в похапе называется, обзываем dict

2) читаем текст, разбиваем его на массив строк чем-нито типа split, обзываем input_words

3) заводим хэшмап найденных в тексте слов, обзываем found_words

4) проходим по массиву input_words, каждое слово проверяем на:

4.1) нахождение в found_words, если есть - пропускаем

4.2) нахождение в dict, если есть - добавляем в found_words

5) ключи found_words - искомое «все, что удалось найти»

arkhnchul ★★★
(30.09.17 04:16:40 MSK)
Последнее исправление: arkhnchul 30.09.17 04:17:43 MSK (всего исправлений: 2)

Ссылка

Можно взять, например, freebasic и сделать посимвольную обработку, анализируя на месте, и делая всё в один проход.

~~buratino~~ ★★★★★
(30.09.17 05:10:53 MSK)

Ссылка

Ну ты молодец вместо пхп выбирать из ещё более тормозных и неудобных язычков.

Deleted
(30.09.17 06:04:03 MSK)

Ссылка

Такой «метод решения» на любом языке будет тормозить, на каком ни пиши. Тут надо менять сам подход к задаче

~~dave~~ ★★★★★
(30.09.17 07:46:36 MSK)

Ссылка

Чем заменить медленный PHP
Думал про bash, но вспомнил про python - и понял, что не знаю что выбрать. Учитывая bash я не знаю, а python немного знаю, а нужно максимум скорости

python заметно медленнее, чем PHP, bash — НАМНОГО медленнее :)

Смотреть нужно в сторону Java/Golang/Rust.

Я сам в подобной истории, когда производительности PHP не хватает, стал Go использовать. Брат жив.

~~KRoN73~~ ★★★★★
(30.09.17 07:53:24 MSK)

Ответ на: комментарий от annulen 30.09.17 00:57:28 MSK

Скорость самых быстрых морских черепах на суше.

https://i.pinimg.com/originals/a5/bf/c0/a5bfc04153c29f30815c71cdfb9fb083.jpg

~~Im_not_a_robot~~ ★★★★★
(30.09.17 08:04:12 MSK)

Ссылка

медленный PHP
вспомнил про python

Звучит как «нужно чем-то заменить медленный автобус, вспомнил про самокат».

WereFox ★☆
(30.09.17 08:40:58 MSK)

Ссылка

1. если хочешь мгновенный результат, то засунуть словарь в индекс систему - solr, elastic.

2. если устраивает просто ускорение в 10-20 раз, но разбей словарь по индексу - хотя бы на первой букве. получшь n dict файлов, по которому будешь в около n раз быстрее искать.

язык не имеет значения.

vtVitus ★★★★★
(30.09.17 09:00:10 MSK)

Ответ на: комментарий от postscreen 30.09.17 00:07:13 MSK

Словарь нужно читать не по одному слову за раз, а хотя бы по 100к слов. Можно и сразу весь, 400Мб это не много.

trim нужно делать один раз.

Вместо preg_match_all достаточно preg_match - тебе же всё равно нужно узнать только факт что слово встречается. Зачем парсить весь текст и выбрасывать результат?

Самый эпик - in_array. Сделай хэш, и проверяй по array_key_exists.

no-such-file ★★★★★
(30.09.17 09:22:20 MSK)

Ссылка

Ответ на: комментарий от KRoN73 30.09.17 07:53:24 MSK

У опа проблема не выборе языка, а в алгоритме.

python заметно медленнее, чем PHP

Весьма спорное утверждение. На каких задачах? Каком-то синтетическом тесте? php научился в асинхронность? Хотя бы не умирать после запроса? Для питона есть всякие numpy, cython, pypy если уж очень надо.

pawnhearts ★★★★★
(30.09.17 09:28:56 MSK)

Ответ на: комментарий от pawnhearts 30.09.17 09:28:56 MSK

Весьма спорное утверждение. На каких задачах?

На задаче топикстартера :)

У опа проблема не выборе языка, а в алгоритме.

Само собой. Но это другая история.

~~KRoN73~~ ★★★★★
(30.09.17 09:32:23 MSK)

Ссылка

Словарь надо билдить в конечный автомат при загрузке. Чтобы быстро билдить - надо делать это лениво. Смотри конкурс от компании Hola, там народ фильтры по email писал на JS. Есть очень быстрые решения с кодом + статьи на хабре описывающие код.

Norgat ★★★★★
(30.09.17 09:34:36 MSK)

Ссылка

Алгоритм у тебя дурной, не PHP. А так:

grep -iFf  shto-ischem.txt gde-ischem.txt

anonymous
(30.09.17 09:35:32 MSK)

Ответ на: комментарий от anonymous 30.09.17 09:35:32 MSK

Хм.. Кое что я не правильно задании понял, но да ладно. Вот довольно быстрый код на PHP. Можно сделать намного быстрее с отсортированным словарём, но для этого надо постараться, а мне лень. :-P

<?php

$text = "Мама мыла раму";
$words = array_unique(array_map('mb_strtolower', preg_split("~\W+~u", $text)));

//We suppose dictionary is normalized already: contains only lowercased words and no empty strings
$foundWords = [];
$fh = fopen('dictionary.txt', 'r');
while ($strRaw = fgets($fh)) {
    $str = trim($strRaw);
    if (in_array($str, $words)) {
        $foundWords[] = $str;
    }
}
fclose($fh);

print_r($foundWords);

anonymous
(30.09.17 10:07:26 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

← Ковариантность и динамическая типизация

Development

нужна помощь в идентификации кода →

Похожие темы