LINUX.ORG.RU

Плохие UTF-8 данные для тестов

 , , , ,


0

1

Лень выдумывать самому, есть где такие? Что бы были все типы битых сторок и/или намеренно сломанные. Может с приколюхами какими. Главное что бы я смог покрыть все типы кривых строк.

Ответ на: комментарий от ugoday

Да, но в случайных данных будут случайно появляться utf8 данные, типа их отфильтровывать от мусора? ))))))

Не, это не то. Вернее, да спасибо, надо будет и на мусоре прогнать обязательно и не раз. Вродь нашёл https://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt, может кто ещё что подкинет.

LINUX-ORG-RU ★★ ()
Последнее исправление: LINUX-ORG-RU (всего исправлений: 1)
Ответ на: комментарий от LINUX-ORG-RU

в случайных данных будут случайно появляться utf8 данные

Так в том и смысл, что корректно надо отрабатывать любые входные данные. Если уж мы полагаем, что от пользователя может придти какой-то мусор, то отчего бы ему нам и трёхсотмегабайтный выхлоп /dev/urandom не прислать?

ugoday ★★★★★ ()
Ответ на: комментарий от beastie

Да, но нет версии для ленивых. Когда доделаю всё постараюсь выложить конкретные тестовые файлы. Что бы просто взял скормил и посмотрел что вышло и как должно быть. Я именно вот такое вот искал =)

LINUX-ORG-RU ★★ ()