Как можно парсить таблицы из страницы html? (+)

1

0

Привет,

Возникла необходимость запарсить из html в базу данных много таблиц, которые окружены текстом. Возможно ли позцепить данные чем-нибудь, руками копировать слишком муторно.

Спасибо.

Ссылка

←	NIS сервер и базы данных

Как в секции команд какой либо цели makefile-а объявить переменную ОКРУЖЕНИЯ, чтобы её было видно по env???

→

Перлом можно. Вот фрагмент реально работающего кода, который выдирает данные из таблиц html
и сохраняет в текстовом файле.

#!/usr/bin/perl -w
# Copyright (C) 2003 by josephson ;)

BEGIN{
    use strict;}

die('Command line argument not found')unless$ARGV[0];
my $Index=0;
my @Temporary;
my $SrcFile=$ARGV[0];
my $DstFile='>'.&FrmDstName('.tmp');
# Parse a html file and write the user data to one line.
open(SRC,$SrcFile)||die("Can't open file $SrcFile");
open(DST,$DstFile)||die("Can't open file $DstFile");
while(<SRC>){
    chomp;
    $Temporary[$Index]=$_;
    next unless($Temporary[$Index]=~m/^<td\s+?.*?>.*?<\/td>$/);
    $Temporary[$Index]=~s/^<(td\s+?.*?)>//s;
    $Temporary[$Index]=~s/<\/td>$//s;
    print(DST "$Temporary[$Index]\t");
    $Index++;
    ($Index>6)&&($Index=0,print(DST "\n"));}
close(DST);
close(SRC);

# Generate the destination file name.
sub FrmDstName{
    my $DstFile=$SrcFile;
    $DstFile=~s/(\.\w+)?$/$_[0]/s;
    return $DstFile;}

josephson ★★
(19.08.04 10:26:57 MSD)

Ссылка

perldoc HTML::Parser

johnny ★
(19.08.04 10:46:29 MSD)

Ссылка

парсером для XML который можно найти под любой язык программирования. Ставишь обработчики на теги table, tr, td, th - и вперед!

kpblca ★
(19.08.04 10:58:41 MSD)

Ответ на: комментарий от kpblca 19.08.04 10:58:41 MSD

а поподробнее нельзя ли рассказать как можно такое реализовать но на С++ с использованием QT, хотя можно и без неё...

Severus_Zley ★
(19.08.04 11:20:09 MSD)

Ответ на: комментарий от Severus_Zley 19.08.04 11:20:09 MSD

try to google it: C C++ XML parser

kpblca ★
(19.08.04 11:29:18 MSD)

Ссылка

Ответ на: комментарий от Severus_Zley 19.08.04 11:20:09 MSD

QT это же вроде графический тулкит? При чём здесь он вообще?

ugoday ★★★★★
(19.08.04 13:46:10 MSD)

Ссылка

Ответ на: комментарий от Severus_Zley 19.08.04 11:20:09 MSD

libxml?

или регулярными выражениями, для этого pcre есть

hooj ★★
(19.08.04 14:06:01 MSD)

Ответ на: комментарий от hooj 19.08.04 14:06:01 MSD

Спасибо, будем посмотреть :)

anonymous
(19.08.04 15:48:33 MSD)

Ответ на: комментарий от anonymous 19.08.04 15:48:33 MSD

Не, надо использовать lex+yacc :)

anonymous
(19.08.04 17:52:27 MSD)

Ссылка

в питоне есть модуль хтмл парсера, XML по идее не совместим..

anonymous
(21.08.04 00:52:29 MSD)

Ответ на: комментарий от anonymous 21.08.04 00:52:29 MSD

Короче, я нашёл способ лучше ;)

Делаю так: импортирую html в ОпенОффис Calc и там уже с помощью lookup'ов хватаю ту дату, которая мне нужна. Можно прямо с интернета данные хватать :-)

anonymous
(21.08.04 02:02:13 MSD)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	NIS сервер и базы данных

Development

Как в секции команд какой либо цели makefile-а объявить переменную ОКРУЖЕНИЯ, чтобы её было видно по env???

→

Похожие темы