Чем бы разбить строку с учетом кавычек?

0

1

Задача: нужно выделить в строке подстроки, ограничивающиеся символами-разделителями. Но есть некоторые тонкости:

- Символы-разделители могут быть разные. Примерный набор: " .,;:-?!/\".
- В строках могут встречаться кавычки. Все что заключено между двумя кавычками - это отдельная подстрока, и символы-разделители в ней остаются как есть (то есть, разбивки внутри таких подстрок делать не нужно, «схлопывать» символы-разделители тоже в таких подстроках ненужно).
- В исходной строке подстрок в кавычках может быть несколько.
- Если кавычек нечетное количество, выделяются подстроки в парных кавычках, и подстрокой считается часть строки со следующего знакосимвола после последней кавычки до конца строки.

Решение нужно с поддержкой кириллицы (UTF-8) для использования в опенсорчной кроссплатформенной Qt-only программе (минимум Linux, Windows, MacOS, FreeBSD, Android). Поэтому что-то наподобе re2c рассматриваю только в том случае, если есть готовое решение по интеграции библиотеки в код.

Примеры, как должно работать разбиение:

0. Строка: Один два, три
Один
два 
три

1. Строка: Один, два, три
Один
два 
три

2. Строка: Один-два, три
Один
два 
три

3. Строка: "Один два" три
Один два 
три

4. Строка: "Один-два" три
Один-два 
три

5. Строка: "Один-два" "три четыре
Один-два 
три четыре

6. Строка: "Один-два" три, "четыре
Один-два 
три 
четыре

7. Строка: "Один-два" три "четыре! пять"
Один-два 
три
четыре! пять

Ссылка

← python перехват чужих print

Прикрутить к классу чтение полей из конфиг-файла малой кровью →

реализовать доступными средствами «конечный автомат»

futurama ★★★★★
(19.09.16 11:28:22 MSK)

Ответ на: комментарий от futurama 19.09.16 11:28:22 MSK

Конечный автомат, который будет пробегать строку посимвольно и срабатывать по содержимому, как это в более крупном виде реализовано в SAX при парсинге XML?

Или конечный автомат, который строит эээ... скажем «лексическое дерево», для выделения и объединения лексем?

Или конечный автомат, который циклично преобразует строку регулярками?

Или еще что? Конечных автоматов можно напридумывать много. Какой конечный автомат имеется в виду?

Xintrea ★★★★★
(19.09.16 11:45:29 MSK) автор топика

Ответ на: комментарий от Xintrea 19.09.16 11:45:29 MSK

посимвольный

futurama ★★★★★
(19.09.16 11:47:50 MSK)

Ссылка

http://doc.qt.io/qt-5/qstring.html#split Пойдет?

Co6aku ★
(19.09.16 11:57:07 MSK)

Можно сделать с использованием boost.tokenizer (с копированием нужных заголовков в проект для простоты). Я как раз делал, чтобы разделители схлопывались и незакрытые кавычки приводили к ошибке, последнее надо будет подправить здесь (ну и примитивную обработку escape-последовательностей можно удалить, если оно не надо).

xaizek ★★★★★
(19.09.16 12:00:27 MSK)

Ответ на: комментарий от Co6aku 19.09.16 11:57:07 MSK

Ты же видишь, что не подходит. Почитай условия.

Xintrea ★★★★★
(19.09.16 12:00:35 MSK) автор топика

Ссылка

Ответ на: комментарий от xaizek 19.09.16 12:00:27 MSK

Можно сделать с использованием boost.tokenizer

Вроде написал, что Qt-only

(с копированием нужных заголовков в проект для простоты).

Что имеешь в виду? Зачем копировать _заголовки_ в проект?

Xintrea ★★★★★
(19.09.16 12:03:06 MSK) автор топика

Твои примеры 0-7 – это автоматика? Они должны так биться без участия юзера? Тогда плюсую наколеночный парсер на ДКА.

Кстати, как на счет:

"Один\" два"  ,   ""три "четыре! пять

Stil ★★★★★
(19.09.16 12:04:50 MSK)

Ссылка

Ответ на: комментарий от Xintrea 19.09.16 12:03:06 MSK

Вроде написал, что Qt-only
Что имеешь в виду? Зачем копировать _заголовки_ в проект?

Чтобы было Qt-only. Многие Boost-библиотеки header-only и ничего кроме заголовков им не нужно.

xaizek ★★★★★
(19.09.16 12:09:40 MSK)

В чём проблема сделать посимвольный разбор, вроде

function(str){
    var ret = [];
    var len = str.length;
    var buf = '';
    var quoted = 0;
    for(var i = 0; i < len; i++){
        if(str[i].match(/[\s\.\,\;\:\-\?\!\/\\]/)){
            if(quoted == 0){
                if(buf.length > 0){
                    ret.push(buf);
                    buf = '';
                }
            } else {
                buf += str[i];
            }
        } else if(str[i] == '"') {
            quoted = (quoted == 1 ? 0 : 1);
        } else {
            buf += str[i];
        }
    }
    if(buf.length > 0) {
        ret.push(buf);
    }
    return ret;
}

Но на Qt?

WDWTFWW ★
(19.09.16 12:11:33 MSK)

Свой парсер

XMs ★★★★★
(19.09.16 12:24:49 MSK)

Ссылка

Ответ на: комментарий от xaizek 19.09.16 12:09:40 MSK

Чтобы было Qt-only. Многие Boost-библиотеки header-only и ничего кроме заголовков им не нужно.

То есть, у них исполняемый код в заголовках?

Xintrea ★★★★★
(19.09.16 12:58:01 MSK) автор топика

Ответ на: комментарий от WDWTFWW 19.09.16 12:11:33 MSK

Это на яваскрипте чтоли писано?

Xintrea ★★★★★
(19.09.16 13:10:14 MSK) автор топика

Ссылка

Ответ на: комментарий от Xintrea 19.09.16 12:58:01 MSK

Там много inline функций. Так как куча всего на шаблонах, то иначе сделать и не получится в любом случае.

xaizek ★★★★★
(19.09.16 13:21:08 MSK)

Ссылка

так в итоге и не понял, что ты хочешь, но если нужны регулярки - http://doc.qt.io/qt-5/qregularexpression.html

arcanis ★★★★
(19.09.16 15:58:25 MSK)

Ссылка

Ответ на: комментарий от WDWTFWW 19.09.16 12:11:33 MSK

Сделал вот так вот, на первый взгляд работает. Во всяком случае тесты в топике проходят правильно:

QStringList FindScreen::textDelimiterDecompose(QString text)
{
  QStringList list;
  int len=text.length();
  QString buf;
  bool quoted=false;

  QString delimiter;
  delimiter.append(" ");
  delimiter.append("'");
  delimiter.append('.');
  delimiter.append(',');
  delimiter.append(';');
  delimiter.append(':');
  delimiter.append('-');
  delimiter.append('?');
  delimiter.append('!');

  for(int i=0; i<len; i++)
  {
    // Если обнаружен разделитель
    if(delimiter.contains( text[i] ))
    {
      if( !quoted )
      {
        if(buf.length() > 0)
        {
          list.append(buf);
          buf = "";
        }
      }
      else
        buf += text[i];
    }
    else if(text[i] == '"')
    {
      quoted = (quoted == true ? false : true);
    }
    else
    {
      buf += text[i];
    }
  }

  if(buf.length() > 0)
    list.append(buf);

  qDebug() << "Find split list:" << list;

  return list;
}

Xintrea ★★★★★
(19.09.16 16:52:28 MSK) автор топика
Последнее исправление: Xintrea 19.09.16 16:56:04 MSK (всего исправлений: 1)

Ответ на: комментарий от Xintrea 19.09.16 16:52:28 MSK

QStringList QString::split(const QRegExp & rx, SplitBehavior behavior = KeepEmptyParts) const и правильная регулярка не прокатывает?

Blastbit
(19.09.16 17:03:35 MSK)

Ссылка

Ответ на: комментарий от Xintrea 19.09.16 16:52:28 MSK

wtf?

quoted = (quoted == true ? false : true);

Разве не проще

quoted = !quoted;

fluorite ★★★★★
(19.09.16 17:12:29 MSK)

Ответ на: комментарий от fluorite 19.09.16 17:12:29 MSK

len пометить const, а если delimiter инициализировать сразу строкой, то и его.

fluorite ★★★★★
(19.09.16 17:15:17 MSK)

Ответ на: комментарий от fluorite 19.09.16 17:15:17 MSK

Ну и возвращать QStringList заведомо из одного элемента как-то странно.

fluorite ★★★★★
(19.09.16 17:17:33 MSK)

Ответ на: комментарий от fluorite 19.09.16 17:17:33 MSK

  QString delimiter;
  delimiter.append(" ");
  delimiter.append("'");
  delimiter.append('.');
  delimiter.append(',');
  delimiter.append(';');
  delimiter.append(':');
  delimiter.append('-');
  delimiter.append('?');
  delimiter.append('!');

А это не смутило?

anonymous
(19.09.16 17:32:53 MSK)

Ответ на: комментарий от anonymous 19.09.16 17:32:53 MSK

Второй комментарий про const и инициализацию строкой. Я бы конечно, initializer_list какой-нибудь предпочёл, если у QString'а есть такой { ' ', ',' блабла }

fluorite ★★★★★
(19.09.16 17:36:40 MSK)

Ссылка

Ответ на: комментарий от Xintrea 19.09.16 16:52:28 MSK

По примеру Stil ещё выходит, что там ещё случай с кавычками надо дополнить, ибо если после закрывающей сразу окажется ещё одна, то так обе проигнорируются.

WDWTFWW ★
(19.09.16 20:56:55 MSK)

Код на re2c:

#include <stdio.h>

typedef unsigned char YYCTYPE;

static void lex(const YYCTYPE *YYCURSOR)
{
    printf("\n%s\n", YYCURSOR);
    const YYCTYPE *YYMARKER, *word;
    for (;;) {
        word = YYCURSOR;
    /*!re2c
        re2c:yyfill:enable = 0;

        end = "\x00";
        word = ["] [^\x00"]* ["]? | [^\x00 .,;:?!/\\"-]+;

        end  { return; }
        word { printf("> %.*s\n", (int)(YYCURSOR - word), word); continue; }
        *    { continue; }
    */}
}

int main(int argc, char **argv)
{
    for (int i = 1; i < argc; ++i) {
        lex((YYCTYPE*)argv[i]);
    }
    return 0;
}

Собираем и запускаем (если надо проверять строку на корректность кодировки, то UTF-8 в re2c включается опцией -8):

re2c -W 1.re -o1.cpp
g++ -O2 -Wall 1.cpp -o1
./1 \
    '"Один-два" три "четыре! пять"' \
    '"Один-два" три, "четыре' \
    '"Один-два" "три четыре' \
    '"Один-два" три' \
    '"Один два" три' \
    'Один-два, три' \
    'Один, два, три' \
    'Один два, три' \
    'Один "\"два", три'

Вывод (эскейп кавычки намеренно не обрабатывается, как показывает последний пример; легко переделать чтоб обрабатывался):

"Один-два" три "четыре! пять"
> "Один-два"
> три
> "четыре! пять"

"Один-два" три, "четыре
> "Один-два"
> три
> "четыре

"Один-два" "три четыре
> "Один-два"
> "три четыре

"Один-два" три
> "Один-два"
> три

"Один два" три
> "Один два"
> три

Один-два, три
> Один
> два
> три

Один, два, три
> Один
> два
> три

Один два, три
> Один
> два
> три

Один "\"два", три
> Один
> "\"
> два
> ", три

re2c - не библиотека, а компилятор регулярных выражений в C. Поэтому портабельность выражается в том, чтобы собрать re2c под нужную платформу. На линуксе, бсд и макоси он или запакетирован, или собирается без проблем; под виндовс надо собирать мингвом или самостоятельно возиться с MSVC.

anonymous
(20.09.16 01:24:26 MSK)

Ссылка

Ответ на: комментарий от fluorite 19.09.16 17:17:33 MSK

Там не один элемент, а найденные токены.

Xintrea ★★★★★
(20.09.16 06:30:18 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 19.09.16 17:32:53 MSK

А это не смутило?

Мне так удобнее. Я так лучше вижу обрабатываемые символы, чем это будет записано в строке. Скорость тут неважна, памяти тоже копейки тратятся.

Xintrea ★★★★★
(20.09.16 06:33:44 MSK) автор топика

Ссылка

Ответ на: комментарий от WDWTFWW 19.09.16 20:56:55 MSK

там ещё случай с кавычками надо дополнить, ибо если после закрывающей сразу окажется ещё одна, то так обе проигнорируются.

Есть такое, но это не критично. Неправильный запрос пользователя - неправильный ответ программы, это нормально. Можно еще предварительно смыкать кавычки, коль они служат символами на границах токенов.

Xintrea ★★★★★
(20.09.16 06:38:21 MSK) автор топика