AWK особенно хорошо подходит для табличных данных и имеет более низкую кривую обучения, чем некоторые альтернативы.
AWK: учебное руководство и введение
Краткая информация AWK (ссылка высокого звука)
info sed
, info grep
и info awk
или info gawk
Вы посмотрели на Lucene или Sphinx? В то время как необходимо будет первоначально проанализировать документы, Вы хотите индексировать, после того как это сделано, любой может искать от cli.
Для Lucene существует некоторая информация о выполнении этого доступного.
Сфинкс, немного более неопределенно, но существует также некоторая доступная документация. Можно передать структурированные данные XML по Вашему выбору сфинксу через xmlpipe2 источник данных.
Lucene полагается на Java, в то время как Сфинкс создается в C++ без необходимых внешних зависимостей.
Любой собирается потребовать, чтобы немного работы сделало то, что Вы хотите, но, походит на полностью осуществимое решение.
Средство отслеживания может быть вызвано из командной строки, и gtk + не является трудной зависимостью для проекта (но может быть для пакетов).
В настоящее время существует два потока Средства отслеживания, стабильного (0.8) и нестабильны (0.9). Ваша ОС, вероятно, имеет 0,8 версии, поэтому если можно предоставить ее (она имеет некоторые новейшие зависимости от программного обеспечения), пойдите, захватывают последний tarfile (0.9.x). Это имеет много улучшений по сравнению с 0,8 и в настоящее время стабилизируется далее, чтобы быть 0.10 (четные числа представляют устойчивость). Если Вы принимаете решение пойти этим путем, используйте эту команду для конфигурирования:
./configure --disable-tracker-needle --disable-tracker-preferences --disable-tracker-explorer --disable-tracker-status-icon
Вы, вероятно, не собираетесь устанавливать зависимости, таким образом, это должен быть esier, чтобы просто установить 0.8 от Вашего дистрибутива и просто избежать битов GUI. На Debian Сжимают, Ubuntu 10.10 и Ubuntu 11.04, они приятно разделяются. Таким образом (как корень) выполненный:
apt-get install --no-install-recommends tracker-utils tracker-miner-fs
Инструмент CLI для этого tracker-search
, таким образом выполните его с --help
опция видеть, как использовать в своих интересах его :-)
примечания:
tracker-applet
и tracker-preferences
. У них действительно однако есть отдельный пакет для tracker-search-tool
, поисковый интерфейс GUI.Я работал над записью инструмента полнотекстового поиска (новое кстати) для индексации и поиска страниц справочника для NetBSD этим летом с помощью Sqlite3. Это состоит из двух инструментов командной строки:
Вы могли легко записать подобный инструмент для себя для PDF, Вам будет нужна библиотека для парсинга документов PDF и так же утилиты для парсинга открытых офисных документов.
Можно читать больше о проекте здесь
Код здесь
выезд xapian. Это имеет интерфейс командной строки и может индексировать много форматов.
Code Search - инструмент для индексирования, а затем выполнять обычный поиск выражений в больших телах исходного кода.
1 trigintillion = 1,000,000,000,000,000,000,000,000,000,000,
000,000,000,000,000,000,000,000,000,000,000
000,000,000,000,000,000,000,000,000,000
Суперпользователи в Debian/производных могут попробовать: [119599]sudo apt-get install codesearch