Это должно работать:
curl www.website.com/ | grep '^<a href=.*title=$' > new1.txt
Это выберет все строки, которые начинаются <a href=
и конец в title=
Просто видел комментарий Terdon. Можно использовать -P
опция с grep и делает a non-greedy
иначе lazy
альтернатива следующим образом:
curl www.website.com/ | grep -P '^<a href=.*?title=$' > new1.txt
Учет того факта, что HTML не является регулярным языком, и анализируя его с регулярными выражениями, почти невозможен, Вы могли попробовать:
... | grep '^<a href=.*title=.*' > ...
Править: Видел, что Вы указали строки, которые запускаются с <a href
; каре заботится о том условии.