Добавление слов «исключение» к правилу Perl-скрипта сопоставления заголовков

Для копирования файлов вам необходимо иметь root-права на livecd ( sudo должно работать). Если вы хотите сохранить разрешения, передайте - preserve = all ; вы также можете передать -a , чтобы подразумевать -dR --preserve = all ( -d сохраняет символические ссылки; если вы не знаете, что это означает, вы, вероятно, захотите их сохранить).

Пример:

cp -a /media/mint/bfcc9b0f-abbf-49cc-86a7-4b97475bf409/home/luis/.config/chromium/Default /path/to/destination
3
13.04.2017, 15:36
2 ответа

Это очень похоже на ответ @meuh, но вместо добавления цикла foreach после строки split , вам нужно добавить туда только одну строку, используя функцию grep perl или ее функцию map :

@titlewords = grep (!/^(and|if|the)$/i, @titlewords);

или

@titlewords = map { /^(and|if|the)$/i ? () : $_ } @titlewords;

См. ] perldoc -f grep и perldoc -f map для получения более подробной информации об этих функциях и различиях между ними. Они часто используются (особенно map ) во многих сценариях perl , поэтому стоит потратить время, чтобы понять, что они делают, и узнать, как они работают.


Кстати, НЕ используйте #! / Usr / bin / env perl . Использование env вроде этого достаточно плохо для скриптов python и ruby ​​ (где, к сожалению, это соглашение), но оно полностью нарушено для perl скрипты и определенно НЕ обычный способ их запуска.

perl имеет множество параметров командной строки, которые существенно изменяют его поведение в зависимости от того, какую программу вы пытаетесь написать. Использование env для запуска интерпретатора, такого как perl , полностью лишает возможности передавать параметры командной строки интерпретатору (поскольку env не поддерживает его. env даже не предназначался для использования с этой целью, это просто уродливый прием, использующий побочный эффект фактической цели env - установки переменных среды перед запуск программы).

Используйте вместо него #! / Usr / bin / perl (или любой другой путь к вашему интерпретатору perl ).


Вот еще один perl-скрипт, который делает то, что вы хотите, но он использует модули Class :: CSV и List :: Compare , а также два хэша-массива. для сравнения файлов CSV:

#! /usr/bin/perl

use strict;
use warnings;

use Class::CSV;
use List::Compare;

sub parse_csv($%) {
  my($filename,$tw) = @_;

  # exclude the following word list and the "empty word"
  my @exceptions = qw(and if the);
  my $exceptions = '^(\s*|' . join('|',@exceptions) . ')$';


  my $csv = Class::CSV->parse(
      filename => $filename,
      fields   => [qw/id title num1 num2/]
  );

  # build a hash-of-arrays (HoA), keyed by the CSV line. Each array
  # contains the individual words from each title for that line (except
  # for those matching $exceptions).  The words are all converted to
  # lowercase to enable case-insensitive matches.
  foreach my $line (@{$csv->lines()}) {

    # The following three lines are required because the input file has
    # fields separated by ', ' rather than just ',' which makes
    # Class::CSV interpret the numeric fields as strings.
    # It's easier/quicker to do this than to rewrite using Text::CSV.
    #
    # The final output will be properly-formed CSV, with only a comma as
    # field separator and quotes around the title string.
    my $key = join(',',$line->id,'"'.$line->title.'"',$line->num1,$line->num2);
    $key =~ s/([",])\s+/$1/g;   # trim whitespace immediately following " or ,
    $key =~ s/\s+([",])/$1/g;   # trim whitespace immediately preceding " or ,

    # If it wasn't for the not-quite-right CSV format, we could just use:
    #my $key = $line->string;

    push @{ $tw->{$key} }, grep (!/$exceptions/oi, split(/\s+/,$line->title));
  };
};

# two hashes to hold the titlewords HoAs
my %tw1=();
my %tw2=();

parse_csv('csv1',\%tw1);
parse_csv('csv2',\%tw2);

# now compare the HoAs
foreach my $k2 (sort keys %tw2) {
  my @matches = ();
  foreach my $k1 (sort keys %tw1) {
    my $lc = List::Compare->new('-u', \@{ $tw2{$k2} }, \@{ $tw1{$k1} });
    push @matches, $k1 if ($lc->get_intersection ge 3);
  };
  print join("\n",sort(@matches,$k2)),"\n\n" if (@matches);
};

Вывод:

11,"The Sun Still Shines in Reading",64312,464566
97,"Reading Still Shines",545464,16748967

Каждая группа совпадений сортируется, и, хотя в образце выходных данных это не отображается (потому что есть только одна группа совпадений), каждая группа печатается как отдельный абзац (т.е. разделены пустой строкой)

Кстати, если вы не хотите заключать поля заголовка в двойные кавычки, отредактируйте строку my $ key = join (...) , которая добавляет их так что это не так.

1
27.01.2020, 21:18

После строки

my @titlewords = split /\s+/, $title;    #/ get words

добавьте код для удаления слов из массива:

my @new;
foreach my $t (@titlewords){
    push(@new, $t) if $t !~ /^(and|if|the)$/i;
}
@titlewords = @new;
3
27.01.2020, 21:18

Теги

Похожие вопросы