Как установить словари...(Ответ)
А что там криво? Может мы тут зря на Оникс наезжали, что транскрипция в карточке слова не показывается...Reader7 писал(а): все устанавливается, собственно для редактирования в качестве исходных и брал уже рабочие словари (но кривые - да все словари кривые, кроме Мюллера, это и хотел поправить).
I62M Albatros HD; 1.8 от 7.01.2013
Добрый день,
Извините, тут на время отошел от дел оных...
Но вчера вернулся и глянул свежим взглядом на проблему. Второй подход оказался удачным! Сам не ожидал, что так быстро все решиться, да и несколько нетипично - если следовать традициям, русским сказкам там, успешной должна быть третья попытка. Все-таки отдых полезен, чего и всем желаю.
Соответственно, как тут запрашивали, привожу типа "руководства".
1. Сначала скачиваем несколько инструментов, которые нам понадобятся для работы:
- по ссылке
http://code.google.com/p/stardict-3/downloads/list
находим в списке и скачиваем StarDictPortable-stardict.sourceforge.com_3.0.3.paf.exe
- по ссылке
http://sintegrial.com/dictui/pages/en/index.php
скачиваем Win32 DictUI binaries - setup as standalone application
- также будет очень полезен (тем кто еще не пользуется) блокнот notepad++ на замену стандартного блокнота
http://notepad-plus-plus.org/download/
- и такой очень полезный и наверное один из лучших инструментов для работы с регулярными выражениями как RegexBuddy. Это коммерческий продукт, но пролеченные варианты в сети имеются, например:
http://rutracker.org/forum/viewtopic.php?t=3320287
2. Следующая задача состоит в том, чтобы подредактировать какой-либо "кривой" словарь, так чтобы ониксы его более корректно воспринимали.
Например, возьмем универсальный англо-русский словарь из коллекции
http://soft.sibnet.ru/soft/5349-stardic ... -slovarei/
Проблема с ним в том, что оникс не показывает транскрипцию и, наоборот, показывает лишние ссылки на звуковые файлы.
Практически это проблема всех словарей кроме stardict-mueller7-2.4.2.
Поэтому логично подсмотреть как устроен mueller и подогнать другие словари под близкий формат.
Предварительно сделаем копию нашего словаря.
Затем запускаем StarDictPortable-stardict.sourceforge.com_3.0.3.paf.exe, и после раз'архивации этого пакета, использует StarDictEditorPortable.exe для декомпиляции словаря. Подставляем .ifo-файл и выбираем, а в качестве формата "Textual StarDict dictionary".
В результате должны получить одноименный xml-файл.
Остальные файлы словаря кроме этого xml-файла - удаляем.
Прежде всего, видим лишние ссылки на звуковые файлы, типа <rref>help.wav</rref>
Для их удаления можно использовать RegexBuddy в режиме Replace и вкладку GREP, заменяя регулярное выражение <rref>.+</rref> на пустую строку.
Далее, если сравнить, его с аналогично полученным xml-файлом mueller словаря, то станет очевидным, что оникс не понимает теги транскрипции типа <tr>help</tr>, вместо них должно быть [help]. Делаем соответствующую автоматическую групповую замену во всем xml-файле. Для этого также можно использовать Replace-GREP и замену <tr>(.+)</tr> на [\1]
Все, файл исправлен, теперь компилируем его обратно. Опять используем StarDictEditorPortable.exe, для уже компиляции, выбирая в качестве входных данных наш xml-файл, а в качестве формата "Textual StarDict dictionary". Получим 3 одноименных файла: .ifo, .idx и .dict.
Полученный .ifo оникс не понимает (можете сравнить его с исходным если интересно), поэтому мы его заменяем на исходный из сохраненной копии словаря (но это было бы недопустимо, если бы мы добавляли или удаляли словарные статьи из xml-файла).
Далее нам осталось сжать .dict файл в .dict.dz файл. Для этого мы и скачивали ранее Win32 DictUI.
После раз'архивации этого пакета, получим папку DictUI, а в ней dictui.exe (для работы через интерфейс) и dictzip.exe (для работы через командную строку). Так вот, не советую пользоваться dictui.exe, как показало бинарное сравнение файлов эта утилита работает не совсем чисто. Лучше зайдите в cmd или far (как я) и запустите оттуда dictzip.exe "ваш словарь.dict" (предварительно скопировав "ваш словарь.dict" в папку DictUI). В результате получим искомый "ваш словарь.dict.dz"
Все, копируем все 3 файла на оникс и наслаждаемся плодами своих трудов
Писал долго, но в реальности все эти операции занимают считанные минуты.
================
Также подкорректировал словарь Apresyan (En-Ru), где изначально после каждой строки в словарных статьях шли 2 лишние пустые строки. Проблема была в тегах, которые оникс корректно не понимает. Просто вычистил эти теги.
Эти уже готовые откорректированные словари, поместил на
http://rusfolder.com/34757246
http://rusfolder.com/34757245
Если кто будет корректировать другие словари, просьба также делится результатами.
Извините, тут на время отошел от дел оных...
Но вчера вернулся и глянул свежим взглядом на проблему. Второй подход оказался удачным! Сам не ожидал, что так быстро все решиться, да и несколько нетипично - если следовать традициям, русским сказкам там, успешной должна быть третья попытка. Все-таки отдых полезен, чего и всем желаю.

Соответственно, как тут запрашивали, привожу типа "руководства".
1. Сначала скачиваем несколько инструментов, которые нам понадобятся для работы:
- по ссылке
http://code.google.com/p/stardict-3/downloads/list
находим в списке и скачиваем StarDictPortable-stardict.sourceforge.com_3.0.3.paf.exe
- по ссылке
http://sintegrial.com/dictui/pages/en/index.php
скачиваем Win32 DictUI binaries - setup as standalone application
- также будет очень полезен (тем кто еще не пользуется) блокнот notepad++ на замену стандартного блокнота
http://notepad-plus-plus.org/download/
- и такой очень полезный и наверное один из лучших инструментов для работы с регулярными выражениями как RegexBuddy. Это коммерческий продукт, но пролеченные варианты в сети имеются, например:
http://rutracker.org/forum/viewtopic.php?t=3320287
2. Следующая задача состоит в том, чтобы подредактировать какой-либо "кривой" словарь, так чтобы ониксы его более корректно воспринимали.
Например, возьмем универсальный англо-русский словарь из коллекции
http://soft.sibnet.ru/soft/5349-stardic ... -slovarei/
Проблема с ним в том, что оникс не показывает транскрипцию и, наоборот, показывает лишние ссылки на звуковые файлы.
Практически это проблема всех словарей кроме stardict-mueller7-2.4.2.
Поэтому логично подсмотреть как устроен mueller и подогнать другие словари под близкий формат.
Предварительно сделаем копию нашего словаря.
Затем запускаем StarDictPortable-stardict.sourceforge.com_3.0.3.paf.exe, и после раз'архивации этого пакета, использует StarDictEditorPortable.exe для декомпиляции словаря. Подставляем .ifo-файл и выбираем, а в качестве формата "Textual StarDict dictionary".
В результате должны получить одноименный xml-файл.
Остальные файлы словаря кроме этого xml-файла - удаляем.
Прежде всего, видим лишние ссылки на звуковые файлы, типа <rref>help.wav</rref>
Для их удаления можно использовать RegexBuddy в режиме Replace и вкладку GREP, заменяя регулярное выражение <rref>.+</rref> на пустую строку.
Далее, если сравнить, его с аналогично полученным xml-файлом mueller словаря, то станет очевидным, что оникс не понимает теги транскрипции типа <tr>help</tr>, вместо них должно быть [help]. Делаем соответствующую автоматическую групповую замену во всем xml-файле. Для этого также можно использовать Replace-GREP и замену <tr>(.+)</tr> на [\1]
Все, файл исправлен, теперь компилируем его обратно. Опять используем StarDictEditorPortable.exe, для уже компиляции, выбирая в качестве входных данных наш xml-файл, а в качестве формата "Textual StarDict dictionary". Получим 3 одноименных файла: .ifo, .idx и .dict.
Полученный .ifo оникс не понимает (можете сравнить его с исходным если интересно), поэтому мы его заменяем на исходный из сохраненной копии словаря (но это было бы недопустимо, если бы мы добавляли или удаляли словарные статьи из xml-файла).
Далее нам осталось сжать .dict файл в .dict.dz файл. Для этого мы и скачивали ранее Win32 DictUI.
После раз'архивации этого пакета, получим папку DictUI, а в ней dictui.exe (для работы через интерфейс) и dictzip.exe (для работы через командную строку). Так вот, не советую пользоваться dictui.exe, как показало бинарное сравнение файлов эта утилита работает не совсем чисто. Лучше зайдите в cmd или far (как я) и запустите оттуда dictzip.exe "ваш словарь.dict" (предварительно скопировав "ваш словарь.dict" в папку DictUI). В результате получим искомый "ваш словарь.dict.dz"
Все, копируем все 3 файла на оникс и наслаждаемся плодами своих трудов

Писал долго, но в реальности все эти операции занимают считанные минуты.
================
Также подкорректировал словарь Apresyan (En-Ru), где изначально после каждой строки в словарных статьях шли 2 лишние пустые строки. Проблема была в тегах, которые оникс корректно не понимает. Просто вычистил эти теги.
Эти уже готовые откорректированные словари, поместил на
http://rusfolder.com/34757246
http://rusfolder.com/34757245
Если кто будет корректировать другие словари, просьба также делится результатами.
Последний раз редактировалось Reader7 Ср янв 30, 2013 21:05, всего редактировалось 10 раз.
M92 и i62ML
Pooh_, наезжали не зря, транскрипция в самих словарях содержится, но оникс ее не отображает - очевидная недоработка софта.Pooh_ писал(а): А что там криво? Может мы тут зря на Оникс наезжали, что транскрипция в карточке слова не показывается...
Встречаются и другие проблемы - ненужные ссылки на звуковые файлы или лишние пустые строчки...
Вообще, многие теги StarDict формата софт не понимает.
Если говорить о версии StarDict формата 2.4.2., который и рекомендуется для оникса, то эта версия от 2003 года! В то время как на офсайте StarDict уже много поколений библиотеки для работы с этим форматам сменилось - сейчас уже идет версия 3.0.4 (от 2013 года).
Поэтому позор китайским (или кто там) программистам! Исходники есть - бери да вставляй, что им мешает?
M92 и i62ML
Сейчас прямо до Вас доберётся модератор. Исправляйте ссылку на что-то легальное. Банят тут за это...Reader7 писал(а):Например, возьмем stardict-ER-LingvoUniversal-2.4.2 словарь из коллекции
http://rutracker.org ***

Последний раз редактировалось Kirith Ср янв 30, 2013 20:52, всего редактировалось 1 раз.
"я тысячу раз сожалел о том что сказал и ни разу - о том что промолчал" Фома Аквинский
I62HD(st), М92, M92Mx20 М90х13
I62HD(st), М92, M92Mx20 М90х13
Таки, если правильно помню, на этом форуме изначально и нашел эту ссылку.Kirith писал(а):Сейчас прямо до Вас доберётся модератор. Исправляйте ссылку на что-то легальное. Банят тут за это...
Тем более сам контент по этой ссылке вроде не содержит никаких пиратских (нелегальных) данных.
Да и вообще ссылки на инфу не запрещены законом, или здесь модераторы строже чем российское законодательство?
M92 и i62ML
Reader7, преценденты были. Прямо с этой ссылкой. В неё позже словари Lingvo ворованные добавили. Убирайте - не хочу, чтобы Вас банили. Модератор DV1024 после 20:00 форум просматривает.
"я тысячу раз сожалел о том что сказал и ни разу - о том что промолчал" Фома Аквинский
I62HD(st), М92, M92Mx20 М90х13
I62HD(st), М92, M92Mx20 М90х13
Как вариант замены этих двух программ предлагаю полностью свободную - geditReader7 писал(а):- также будет очень полезен (тем кто еще не пользуется) блокнот notepad++ на замену стандартного блокнота
http://notepad-plus-plus.org/download/
- и такой очень полезный и наверное один из лучших инструментов для работы с регулярными выражениями как RegexBuddy. Это коммерческий продукт, но пролеченные варианты в сети имеются, например:
У кого ненависти к Linux-у нет - пользуйтесь. Мне очень нравится.Currently it features:
Full support for internationalized text (UTF-8)
Configurable syntax highlighting for various languages (C, C++, Java, HTML, XML, Python, Perl and many others)
Undo/Redo
Editing files from remote locations
File reverting
Print and print preview support
Clipboard support (cut/copy/paste)
Search and replace
Go to specific line
Auto indentation
Text wrapping
Line numbers
Right margin
Current line highlighting
Bracket matching
Backup files
Configurable fonts and colors
A complete online user manual

"я тысячу раз сожалел о том что сказал и ни разу - о том что промолчал" Фома Аквинский
I62HD(st), М92, M92Mx20 М90х13
I62HD(st), М92, M92Mx20 М90х13
Reader7
Спасибо за подробную инструкцию. Но я бы очень попросил в качестве примера брать словари, незащищенные авторским правом. И уж ни в коем случае не Lingvo. Все ссылки на нелицензионные словари Lingvo (особенно с прямым указанием) и инструкции по конвертации словарей Lingvo в Stardict будут удаляться. У МакЦентра есть строгое соглашение с ABBYY.
Предупреждение я Вам давать не стал - ввиду того, что Вы написали действительно хорошую инструкцию. Но, увы, все упоминания Lingvo из нее пришлось удалить. Извиняюсь, но таковы правила данного форума.
Спасибо за подробную инструкцию. Но я бы очень попросил в качестве примера брать словари, незащищенные авторским правом. И уж ни в коем случае не Lingvo. Все ссылки на нелицензионные словари Lingvo (особенно с прямым указанием) и инструкции по конвертации словарей Lingvo в Stardict будут удаляться. У МакЦентра есть строгое соглашение с ABBYY.
Предупреждение я Вам давать не стал - ввиду того, что Вы написали действительно хорошую инструкцию. Но, увы, все упоминания Lingvo из нее пришлось удалить. Извиняюсь, но таковы правила данного форума.
Ок, уважим модератора, раз такие строгости, заменил на другую ссылку.Kirith писал(а):Убирайте - не хочу, чтобы Вас банили. Модератор DV1024 после 20:00 форум просматривает.
Кстати notepade++ тоже мультиплатформеная и соотвественно может работать под Linux.
Сейчас также огромную популярность набирает текстовой редактор Sublime Text 2
Мне notepade++ нравится тем что там также есть много полезных плагинов.
Более того адептам Linux и RegexBuddy не понадобится, поскольку там GREP встроен в командную строку.
Последний раз редактировалось Reader7 Ср янв 30, 2013 21:52, всего редактировалось 2 раза.
M92 и i62ML
Reader7, успел Вашу статью скопировать сюда. Если всё измените, то там изменю. 

Знаем.. знаем...Reader7 писал(а): Более того адептам Linux и RegexBuddy не понадобится, поскольку там GREP встроен в командную строку.

+1 Спасибо за понимание.dv1024 писал(а): Предупреждение я Вам давать не стал - ввиду того, что Вы написали действительно хорошую инструкцию
"я тысячу раз сожалел о том что сказал и ни разу - о том что промолчал" Фома Аквинский
I62HD(st), М92, M92Mx20 М90х13
I62HD(st), М92, M92Mx20 М90х13
Kirith, спасибо за ссылку на интересный ресурс!Kirith писал(а):Reader7, успел Вашу статью скопировать сюда. Если всё измените, то там изменю.
(только не понял как там зарегится, чтобы оставлять комменты - вход через google аккаунт не помогает)
Если этот ресурс не связан договоренностью с лингвой, то смысла что-то менять не вижу.
M92 и i62ML
- Злой Зилов
- Академик (6 lvl)
- Сообщения: 1507
- Зарегистрирован: Ср дек 14, 2011 22:45