Ищу софт для обработки информации

Ищу софт которые бы работал следующим образом или чтото на это похожее.

Есть библиотека технической литературы в виде файлов разного формата djvu, pdf, doc и т.д.

Нужен некий софт который позволит ее обработать следующим образом:

Загружаю всю библиотеку в софт

Появляется возможность поиска по библиотеке по ключевым словам

Группировка совпадающих по теме участков текста из разных файлов

Возможность отмечать изученные, прочитанные участки текста в файлах, чтобы в будущем не обращаться к ним по нескольку раз.

Ссылка

← VNC клиент с полным погружением.

mint 17 -> 17.1 спячка →

Под линукс такого софта стопроцентно нет. Тут как минимум тщательное OCR нужно с проверкой по словарю. Слишком сложно.

~~Eddy_Em~~ ☆☆☆☆☆
(14.01.15 09:02:00 MSK)

Ну по словам, допустим, можно было бы искать седом, если бы не дежавю, который ЕМНИП суть есть картинки.

Про участки по теме - это ж как их анализировать-то надо? ИИ?

Zhbert ★★★★★
(14.01.15 09:05:24 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.01.15 09:02:00 MSK

Идея вот какая: Есть некая область знаний с которой я еще не работал, ну например программирование нa Javа

Я нахожу кучу материала, но я ее еще не обработал.

Я начинаю врубаться в тему но материал еще не изучил и неизвестные мне понятия ищу в этой куче материала по ключевым словам

Когда я нахожу нужную мне тему в материале я ее изучаю.

После этого участки текста которые я уже изучил я хочу отметить каким то образом как уже изученные чтобы не проделывать двойную работу в будущем.

Я думаю это будет быстрее чем линейное изучение материала. Будет совмещаться практика и обучение.

Sergey1988
(14.01.15 09:11:26 MSK) автор топика

Ответ на: комментарий от Sergey1988 14.01.15 09:11:26 MSK

Типа база материала по теме плавно переходит в мой личный опыт работы с темой

Sergey1988
(14.01.15 09:13:06 MSK) автор топика

Ответ на: комментарий от Sergey1988 14.01.15 09:13:06 MSK

Этож гугуль, я прав.

anonymous
(14.01.15 10:04:06 MSK)

Xanadu

/тред

anonymous
(14.01.15 10:15:18 MSK)

Чуть менее чем вообще всё покрывает банальный каталогизатор коих в линуксах как говна по весне.

djvu, pdf, doc и т.д.

«djvu, pdf, и т.д.» - не обязательно несут в себе текст. Исправь это а потом возвращайся.

anonymous
(14.01.15 11:09:06 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.01.15 10:04:06 MSK

This.

anonymous
(14.01.15 11:21:39 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.01.15 09:02:00 MSK

В DJVU хранится конечная таблица глифов, которые используются по всему документу. Чем качественнее скан, тем глифов на одну и ту же букву меньше. Можно сделать распознавалку даже без OCR (хотя он значно убыстрит дело, предлагая сразу вариант) — выставлять каждому глифу руками символ, по типу инструментария для переводчиков. Искал было такую программу, но не нашёл. Если нету, надо срочно запилить.

~~MiniRoboDancer~~ ★☆
(14.01.15 15:53:58 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.01.15 10:15:18 MSK

+10500

anonymous
(14.01.15 21:10:55 MSK)

Ссылка

org-mode + agenda + todo list в org + файлики с рецензиями и обзорами.

куда ты сам, руками пишешь примерно такое: «сегодня я прочитал книжку ... , 60% из 100%. в пятой главе на восемнадцатой странице в третьем абзаце сверху в работе [1] автор XYZ пишет: ».... бла-бла-бла-бла-бла ...". и тут у меня на это возникло особо ценное замечание: "... тыртыпдырмыр ...", что в контексте [2] автора DEF страница ... абзац .... , точная цитата: " .. парам пам пам ..". на что можно возразить: " .. тыц дыц дрынц шмынц ..."

в итоге, в заключении следует отметить следующие выводы: " бла-бла-бла-блабла "

при этом ссылки типа [1] [2] и т.п. в org-mode делаеются через C-c C-l org-mode capture link.

затем, при настроенной публикации — одним движением публикуешь все свои заметки из отдельных .org файлов, как проект — в .tex (и потом в .pdf, рецензенту и на arxiv.org), или в .html и себе в бложик.

пишешь из головы, естественно. из того, что в ней есть. чего нет — не пишешь. а сначала в голову загружаешь.

или сам напиши такой софт. ну что ты как маленький, в самом деле.

нужна индексация разных форматов для поиска по содержимому, теги и категории для того чтобы потом что-то найти, заметки и аннотации типа как к .pdf-ам рецензирование, автоматический перенос одной кнопкой всех заметок в .org-файлы.

тут что-то можно автоматизировать — разберись с capture link protocol в org-mode.

а заметки и рецензии, аннотации — надо самому писать, руками из головы. никто за тебя это не сделает.

anonymous
(14.01.15 21:25:47 MSK)

Ссылка

Ответ на: комментарий от Sergey1988 14.01.15 09:11:26 MSK

погугли на тему «active essay» Алана Кея и проект FONC. это к чему надо бы стремиться.

а так: посмотри, например, tagstore (читать), поставь его себе и раскладывай по тегам: «прочитанное», «попробовал», «поэкспериметрировать» ,«разобраться с ...», «выучил, осилил: знаю и умею полностью».

и *руками* прочитанное и освоенное по таким тегам и категориям раскладывай. и бложик себе в org-mode пиши, про непонятки, с которыми надо бы подробнее разобраться.

anonymous
(14.01.15 21:31:45 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.01.15 09:02:00 MSK

дело не столько в OCR и индексации нажитых непосильным трудом репринтов всяких papers — сколько в том, чтобы всё это дело сортировать по каким то 1) тегам и категориям 2) процессам 3) этапам ЖЦ процессов

пускай для начала хоть руками сортирует и по ~~папкам~~ тегам раскидывает.

затем нужен какой-то BPM процесс, и контексты типа «Activities» в GNOME. чтобы все действия по процессам контекстам группировались.

а в идеале хотим Xanadu Теда Нельсона, конечно же.

чтобы любой кусочек информации, из любого приложения — можно было вытащить, под универсальный гипертекст положить, и свою нетлёнку себе в локальную_вики/сайт/бложик/tagstore/.org-mode/green/gold open access archive репринты опубликовать, в полдвижения. примерно так же, как проекты в org-mode публикуются в pdf через latex.

anonymous
(14.01.15 21:39:18 MSK)

Ответ на: комментарий от anonymous 14.01.15 21:39:18 MSK

к примеру, есть вот такая штука, система управления версиями: VC/M

здесь нас интересует, в основном одна единственная фича под названием: process control.

вот нечто подобное и нужно реализовать в своём велосипеде. чтобы движения между тегами и категориями — выполнялись не совсем уж руками, а каким-то бизнес-процесом, в каком-то BPM. или, накрайняк, скриптом на баше :-)

а сам контент — ложить в tagstore и/или, в org-mode capture link.

и потом i like to move it, move it между тегами и категорими (чтобы реализовать ЖЦ какого-нибудь процесса работы с информацией) отдельными бизнес-процессами. а потом их интеллектуальность постепенно повышать.

а потом фронтенд к своему локальному Xanadu написать, конечно же. лайкать и репостить в свою локальную ~~веб-~~ Xanadu глюкалку, а в фоне у тебя там процессы двигают контент и автоматом публикуют куда ни попадя.

World Wide Web Бернерса Ли — очень, очень плохая музыка. думал, как-то получше будет, гораздо получше будет вот это оно всё. новая компьютерная космология и революция.

как в Xanadu Теда Нельсона, например. не автоматизация перекладывания бумажек с места на место — а 3D, 4D, 10500-D интерфейсы к базам данных, в духе фильма «Джонни Мнемоник». ZigZag Теда Нельсона, только с гипертекстом.

и векторный гипертекстовый фидонет поверх этого всего, конечно же.

anonymous
(14.01.15 21:58:05 MSK)

Ссылка

Ответ на: комментарий от Sergey1988 14.01.15 09:11:26 MSK

начинаю врубаться в тему но материал еще не изучил и неизвестные мне понятия ищу в этой куче материала по ключевым словам

а ключевые слова и «неизвестные понятия» за тебя какой софт расставлять будет ??? каким образом он должен догадаться «это понятие или ключевое слово тебе ещё не известно», а вот это — отработанный материал ???

откуда он знает ???

anonymous
(14.01.15 22:01:38 MSK)

нашел чтото похожее на то что хочу видеть Docear

Sergey1988
(14.01.15 22:02:14 MSK) автор топика

Ссылка

Ответ на: комментарий от Sergey1988 14.01.15 09:13:06 MSK

школяр гугль для школоты, если точнее. но оно ведь не делает и 10500 тех функций, которые должен делать Xanadu, конечно же. или программируемый ZigZag, например.

anonymous
(14.01.15 22:05:13 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.01.15 22:01:38 MSK

Ну есть скажем куча материала неважно какого, скажем пара десятков книг по java в одной папке. Я услышал незнакомое слово array, ввожу его в поиске. Поиск выдает мне все найденные фрагменты. Я отмечаю в них то что меня заинтересовало, плюс добавляю свои комментарии. Выделенное + комментарии сливается в отдельный файл, получается типа конспекта. Те фрагменты которые я уже просмотрел, повторно выдаваться не должны. Т.е. таким образом я нелинейно постепенно перекапываю кучу этого материала.

Ну конечно не факт что все будет работать/должно работать именно так ;) и возможно это моя фантазия

Sergey1988
(14.01.15 22:10:02 MSK) автор топика

Ответ на: комментарий от Sergey1988 14.01.15 22:10:02 MSK

Те фрагменты которые я уже просмотрел, повторно выдаваться не должны.

вот это движение за тебя кто делать будет ??? не смотрено => просмотрено.

Ну конечно не факт что все будет работать/должно работать именно так ;) и возможно это моя фантазия

«бросая камни в пруд, наблюдай за кругами, ими образуемыми. иначе твоё бросание будет сплошною забавою» (с) козьма прутков.

как именно оно будет работать — ты поймёшь только тогда, когда попробуешь хоть как-нибудь (и потом переделаешь так, чтобы было удобно).

бери и пробуй. например, в tagstore ложи и по тегам раскладывай. прочитал что-то, разобрался — переложил в новый тег.

а в бложик/org-mode/docear/scrinever себе заметки делай, чему ты на этот раз научился.

в итоге получается процесс: двигать в новый тег, добавить заметку.

в идеале, процесс должен как-то автоматически контекст захватывать, и ссылки на новые «кусочки информации» (org-mode capture link, например)

автоматически — типа для чего там Activities в GNOME/KDE замышляли.

//капча AutoIt мне льстит

anonymous
(14.01.15 22:22:36 MSK)

Ответ на: комментарий от anonymous 14.01.15 22:22:36 MSK

сплошною забавою

* пустою забавою, же.

anonymous
(14.01.15 22:23:22 MSK)

Ссылка

Возможность отмечать изученные, прочитанные участки текста в файлах, чтобы в будущем не обращаться к ним по нескольку раз

Повторение мать учения.

А вообще начинай писать такую утилиту - так и изучишь.

ziemin ★★
(14.01.15 22:27:24 MSK)

Ссылка

новость на лоре в тему, про papers

или Sumatra repro research + статьи оттуда на тему «Automated capture of experiment context ...» (например)

только у тебя «эксперимент» будет в том, чтобы раскидать файло/данные по тегам (предварительно какой-то план эксперимента написав, типа «разораться с x, y, z»)

anonymous
(19.01.15 16:17:38 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← VNC клиент с полным погружением.

Desktop

mint 17 -> 17.1 спячка →

Похожие темы