HPC.ru

Здравствуйте!

У меня a60s, и у меня есть такие файлы, в которых, скажем, сосканированы две страницы в одной. Или одна страница, но шрифт настолько мелкий, что читать его с полной страницы невозможно (по крайней мере нежелательно). В оных случаях было бы естественно увеличить изображение, чтобы читать только половину страницы. Увеличение, конечно, работает на ура. Но есть одно маленькое но - перемещение по странице работает в час по чайной ложке, а вкупе с характерной скоростью обновления и вовсе превращается в издевательство. Я выяснил, что ежели удерживать кнопку 10-15 секунд - то она пролистывает сразу в конец страницы, но это не лучшее, что можно было бы пожелать. Посему вопрос - можно ли как-либо сделать, чтобы сие действие выполнялось по одному обычному нажатию? Или существуют какие-то другие волшебные комбинации кнопок? Или это снова только меня такой вопрос волнует?

Заранее благодарен.

Обедающий философ нормальный выход из этого - экран 9,7''.
А не нормальный - программы для обрезки сканов. Мы с Тимом
об этом писали в инструкции.
Есть ещё странный выход - использовать прошивку типа 1.4-серии. Там боковая прокрутка была мощнее по процентам от изображения.

Kirith писал(а):Обедающий философ нормальный выход из этого - экран 9,7''.

Не вариант. У меня 6 влезает в карман куртки, а 9 - нет. Не говоря уже о жабе.

Kirith писал(а):А не нормальный - программы для обрезки сканов.

Это уже получше, но всё равно лишние движения.

Обедающий философ а прошивку старую не попробовал? А то там всё не так плохо было... Если тебе не нужны офис-форматы, то очень даже...

У меня две новости, и обе хорошие.

Во-первых, как оказалось, можно повернуть экран на 90 градусов и выбрать отображение страниц "рулоном", и тогда можно читать страницы с мелким текстом на ура. Однако по понятным причинам такой способ не годится для страниц типа "два в одном". И для этого случая у меня вторая новость.

Мною был сочинён скрипт на питоне, каковой позволяет разделять страницы (как в djvu, так и в pdf) буквально одной командой. Причём работает по идее на любых источниках, в частности, обработал файл, на котором gscan2pdf выдал совершенно дикую кашицу. Ложка дёгтя - проверялся только под линуксом (не знаю, есть ли под винду djvulibre и imagemagick), а также сохраняет только в djvu. Ежели будет интерес, могу немного довести до ума и выложить.

Обедающий философ писал(а):Во-первых, как оказалось, можно повернуть экран на 90 градусов и выбрать отображение страниц "рулоном", и тогда можно читать страницы с мелким текстом на ура.

Ну это как изобретение велосипеда... См. Руководство по чтению PDF и DjVu (обновление от 21.05.2011) Я сам тоже очень такие изобретения люблю делать!

Обедающий философ писал(а):а также сохраняет только в djvu

В чём сохраняешь? gscan2pdf не имеет толком настроек кодирования в DjVu... Я получаю им ОГРОМНЫЕ файлы. Они отлично перевариваются ONYX-ом, но место не экономят

Порыщи тутпро библиотеки. Про скрипт мне интересно, но сам я не программер...

Kirith писал(а): В чём сохраняешь? gscan2pdf не имеет толком настроек кодирования в DjVu... Я получаю им ОГРОМНЫЕ файлы.

Ну так djvulibre. Дело всё в том, что в дежавю можно сохранять как фотографию (программа c44) или с палитрой (cpaldjvu). В первом случае получаются файлы большие и размытые (как jpg), во втором - вполне себе, порой даже меньше, нежели ПДФ. Правда, ежели файл содержит цвета помимо чёрного и белого, то по-хорошему надо к нему индивидуальную палитру подбирать. Не говоря уже о тех случаях, когда в файле содержатся фотографии.

Строго говоря, правильнее всего делить файл на текст и картинки и жать их отдельно, но я ещё не научился так делать.

Kirith писал(а):Порыщи тут про библиотеки.

Это я всё читал, но в итоге лучшим руководством оказались банальные man djvu и man convert.

Kirith писал(а):Про скрипт мне интересно, но сам я не программер...

Ну ежели линукс есть, то и с командной строкой должен быть знаком. Хотя через командную строку сейчас можно поменять только название палитры, а за остальными параметрами надо лезть в исходник, но по идее не должно быть необходимости их изменять.

Итак, программа SPLITDJVU 0.01

Для работы нужно djvulibre, imagemagick и возможно что-то ещё вроде libtiff.

Распаковываем её в ту директорию, где лежит исходная книга. В командной строке входим в оную директорию, а затем вводим:

./splitdjvu.py vstranenasek.pdf

или

./splitdjvu.py vstranenasek.pdf grayscale.ppm

(в первом случае в качестве палитры будет использоваться bw.ppm). Программа создаст два файла - vstranenasek.djvu (просто пдф, переведённый в дежавю) и vstranenasek_split.djvu - собственно то, что нам надо.

В случае дежавю то же самое:

./splitdjvu.py "Солбриг, О. и Д. - Популяционная биология и эволюция (М., 1982).djvu"

- в этом случае по понятным причинам конечный файл будет только один.

В случае обычных чёрно-белых книг этого должно быть достаточно. Теперь представим, что у нас цветная книга. Тогда запускаем программу с параметром noclean:

./splitdjvu.py "Солбриг, О. и Д. - Популяционная биология и эволюция (М., 1982).djvu" noclean

Тогда папка с промежуточными файлами не будет удалена после выполнения, и можно будет открыть тиф-файл какой-либо страницы в графическом редакторе и при помощи пипетки узнать её палитру. После чего делаем новую палитру - копируем bw.ppm, называем color.ppm и в том же графическом редакторе карандашом проставляем точки избранных цветов. Ну и запускаем процесс с использованием оной палитры, предварительно не забыв удалить директорию djvusplit_temp.

На сегодня, пожалуй, всё. Ежели кто захочет адаптировать под винду (или ещё как-то улучшить) - флаг в руки.

Обедающий философ писал(а): Строго говоря, правильнее всего делить файл на текст и картинки и жать их отдельно, но я ещё не научился так делать.

Это хорошо делает Scan Tailor в режиме сохранения конечного результата "Смешанный". Он помечает распознанные им области "Картинки" флагами и границами. Можно их и в ручную создавать в нём. А потом программа-кодировщик это читает (проверял на DjVu Small.exe) и сжимает отдельно.
За скрипт - спасибо! В ближайшее время - испробую, и тогда отпишусь.
Есть только пара вопросов:
1.

Обедающий философ писал(а): Тогда папка с промежуточными файлами не будет удалена после выполнения

А ведь в неё распакованы исполняемые файлы... Они тоже уйдут???
2. А исходник в чём? Tiff (многостраничный, или отдельные только?), PNG (и они бывают многослойные...) или только Pdf (как в твоём случае...)
3.

Обедающий философ писал(а):В первом случае получаются файлы большие и размытые (как jpg), во втором - вполне себе, порой даже меньше, нежели ПДФ.

Так gcan2pdf какую использует? Его выходной размер DJVU почти всегда ровно в 2 раза меньше аналога PDF, НО картинки - идеальные.

Kirith писал(а):Это хорошо делает Scan Tailor в режиме сохранения конечного результата "Смешанный". Он помечает распознанные им области "Картинки" флагами и границами. Можно их и в ручную создавать в нём. А потом программа-кодировщик это читает (проверял на DjVu Small.exe) и сжимает отдельно.

Это получается, что djvusmall умеет читать файл проекта скантейлора? Есть подозрение, что djvulibre так не умеет. Теоретически, конечно, можно переводить из одного формата в другой, но надо этому некоторое время посвятить.

Кстати говоря, когда я тейлором обрабатывал цветную книжку, он львиную долю цветных областей не смог распознать, и пришлось ручками выделять.

Kirith писал(а):2. А исходник в чём? Tiff (многостраничный, или отдельные только?)

Тифф из дежавю (ddjvu) создаётся многостраничный, затем разделяется на страницы (tiffsplit) и тут же удаляется. Дежавю-кодер понимает только ppm, так что приходится тифы в него переводить, но в результате получаются настолько большие файлы, что программа их удаляет сразу же после использования.

Kirith писал(а):Так gcan2pdf какую использует?

Я как попробовал открыть с его помощью пдф-файл, он мне выдал кашицу, так я его закрыл и забыл о нём. Посему ничего не могу сказать.

Обедающий философ писал(а):Это получается, что djvusmall умеет читать файл проекта скантейлора?

Нет. Просто сами графические файлы как-то так изменяются. Я в этом не очень разбираюсь...

Обедающий философ писал(а):Кстати говоря, когда я тейлором обрабатывал цветную книжку, он львиную долю цветных областей не смог распознать, и пришлось ручками выделять.

Ну и это так! Но ST становится умнее и умнее от релиза к релизу. Сейчас ручной работы меньше

Обедающий философ писал(а):Дежавю-кодер понимает только ppm, так что приходится тифы в него переводить

А чем "переводить"? Я знаю один интересный способ: если открыть любой файл в gscan2pdf то в /tmp создаётся им папка с конвертнутыми файлам как раз в ppm! Путано ты пишешь... Так исходные файлы - всё таки -ppm? Прямо ответь.

Обедающий философ писал(а):Я как попробовал открыть с его помощью пдф-файл, он мне выдал кашицу, так я его закрыл и забыл о нём. Посему ничего не могу сказать.

Я не о том! Формат ВЫХОДНОГО файла - те что gscan2pdf сохраняет! Ну, да ладно, я понял, что ты не думал об этом...
gscan2pdf мне нравится тем, что там есть подключаемый модуль для OCR. Никогда не пробовал создать такой слой в DJVU? Мне и спросить (кроме Google) не у кого...
И к слову, последний ST умеет распрямлять строки! Супер!

Kirith писал(а):Нет. Просто сами графические файлы как-то так изменяются. Я в этом не очень разбираюсь...

По идее такого быть не должно. По крайней мере gimp мне не показал, что файл на какие-то слои поделён. Возможно, она сама умеет их разбивать на части.

Kirith писал(а):А чем "переводить"? Я знаю один интересный способ: если открыть любой файл в gscan2pdf то в /tmp создаётся им папка с конвертнутыми файлам как раз в ppm! Путано ты пишешь... Так исходные файлы - всё таки -ppm? Прямо ответь.

По-моему всё кристально ясно. Полный цикл следующий:

- pdf2djvu - переводит пдф в дежавю (понятное дело, только ежели пдф на входе)
- ddjvu -format=tiff - переводит дежавю в многостраничный тиф
- tiffsplit - делает из многостраничного тифа много одностраничных
- для каждого одностраничного тифа:
-- convert -crop 50%x100% -gravity West (и соответственно East) - выделяет левую (и правую) половинки, получается два файла
-- для каждого из двух файлов:
--- convert -format ppm - переводит в ппм
--- ppmquant -mapfile - приводит ппм в соответствие палитре
--- cpaldjvu - переводит ппм в дежавю
- djvm - собирает все получившиеся одностраничные дежавю в многостраничный

Вот и всё собственно. Собственно в питоновском файле это же написано, только чуть подробнее.

Kirith писал(а):Никогда не пробовал создать такой слой в DJVU?

Нет, к сожалению. Ежели такое случится - то напишу.

Ну так программа работает или нет?

HPC.ru

Прокручивать страницу быстрее?

Прокручивать страницу быстрее?