Что не так с кодировками? (боли-тред)

Есть файл в кодировке cp866, есть скрипт в кодировке utf8 (исходник).

Вот скрипт:

#!/usr/bin/perl

use strict;
use warnings;

use utf8;
use Encode;

my $c = 0;
my $str = '';

open(my $fh, '<:encoding(cp866)', 'test.txt') or die "$!\n";;

while (($c++<10) && ($str = <$fh>)) {
    chomp $str;

    #my $norm = Encode::decode('cp866', $str);
    
    if ($str =~ m/^L#48595284#МУЗ Нефтекумская ЦРБ#$/) {
        print "TEST MATCHING: 1\n";
    } else {
        print "TEST MATCHING: 0\n";
    }
    print "is utf8: " . Encode::is_utf8($str) . "\n";

    Encode::_utf8_off($str);
    #print "$c>  $norm" . Encode::encode('utf8', $norm) . "\n";
    print "$c-" . Encode::is_utf8($str) . ">  $str\n";

}

В итоге регулярка никогда не срабатывает. Что бы я не делал.

Помогите побороть, пожалуйста.

Ссылка

← C++, Qt, анимация, частота обновления экрана, апдейта виджета.

Можно ли в django при использовании моделей НЕ ВСЕГДА вытаскивать поле из базы? →

Encode::_utf8_off($str);

Зря, надо так:

binmode STDOUT, ':utf8';

Вот так у меня работает:

#!/usr/bin/perl

use strict;
use warnings;
use utf8;

open(my $fh, '<:encoding(cp866)', 'test.txt') or die "$!\n";;

binmode STDOUT, ':utf8';
for (my $c = 0; $c < 11; $c++) {
    my $str = <$fh>;
    last if (!$str);

    chomp $str;

    my $match = $str =~ m/L#48595284#МУЗ Нефтекумская ЦРБ#/ ? 'yes' : 'no';

print <<__LINE_SUMARY__;
$str
    MATCH: $match
__LINE_SUMARY__

}

Разница лишь в регулярке (отсутсвуют ^ и $).

KennyMinigun ★★★★★
(07.05.13 22:20:33 MSK)
Последнее исправление: KennyMinigun 07.05.13 22:22:00 MSK (всего исправлений: 1)

Фокус - в символах конца строки \r\n вместо \n:

$ cat test.pl
#!/usr/bin/perl
use warnings;
use strict;
use utf8;
use feature 'say';

use Encode;

open my $fh, "<:crlf:encoding(cp866)", $ARGV[0] or die $!;
binmode STDOUT, ":utf8";

while (<$fh>) {
        say /^L#48595284#МУЗ Нефтекумская ЦРБ#$/;
}
$ perl test.pl test.txt
1

AITap ★★★★★
(07.05.13 22:22:06 MSK)
Последнее исправление: AITap 07.05.13 22:25:17 MSK (всего исправлений: 2)

Ответ на: комментарий от KennyMinigun 07.05.13 22:20:33 MSK

Все дело в line separator: $/

$ file test.txt 
test.txt: Non-ISO extended-ASCII text, with CRLF line terminators

Видим - винда. Фиксим:

local $/ = "\r\n";

Fixed:

#!/usr/bin/perl

use strict;
use warnings;
use utf8;

open(my $fh, '<:encoding(cp866)', 'test.txt') or die "$!\n";

binmode STDOUT, ':utf8';
for (my $c = 0; $c < 11; $c++) {
    my $str = <$fh>;
    last if (!$str);

    {
        local $/ = "\r\n";
        chomp $str;

        my $match = $str =~ m/^L#48595284#МУЗ Нефтекумская ЦРБ#$/ ? 'yes' : 'no';

print <<__LINE_SUMARY__;
$str
    MATCH: $match
__LINE_SUMARY__
    }

}

KennyMinigun ★★★★★
(07.05.13 22:27:37 MSK)

Ссылка

Ответ на: комментарий от AITap 07.05.13 22:22:06 MSK

ну вроде chomp должен их убирать, нет?

bvn13 ★★★★★
(07.05.13 22:28:25 MSK) автор топика

да, все решило

local $/ = "\r\n";

А ведь я еще подумал, без концов в регулярке проверить... Но про такую фишку еще не знал. Спасибо.

bvn13 ★★★★★
(07.05.13 22:36:44 MSK) автор топика

Ссылка

Ответ на: комментарий от bvn13 07.05.13 22:28:25 MSK

Нет. chomp не убирает \r, т.к. $/ = «\n» by default. Вобщем делать надо как указали, либо руками:

open my $fh, "<", "/path/to/file" or die "open: $!";

while (<$fh>) {
  s/[\r\n]+$//;
  myfunc($_);
}

~~gh0stwizard~~ ★★★★★
(07.05.13 22:44:44 MSK)

Ссылка

Ответ на: комментарий от AITap 07.05.13 22:22:06 MSK

:crlf

Век живи — век учись, блин.

anonymous
(08.05.13 03:03:34 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← C++, Qt, анимация, частота обновления экрана, апдейта виджета.

Development

Можно ли в django при использовании моделей НЕ ВСЕГДА вытаскивать поле из базы? →

Похожие темы