sedでhtmlのタグを除去する

サラトガIT日記 > Linux(UNIX) > sedでhtmlのタグを除去する sedでhtmlのタグを除去する

2009-06-17

文字列の置換に sed はよく利用していますが、複雑な正規表現が少し苦手です。今回は html のタグを除去する正規表現を試してみましたが、果たしてこれで問題ないのかどうか・・・。

[saratoga.txtの中身]
<a href="http://it.pakapaka.jp/">http://it.pakapaka.jp/</a>

$ cat saratoga.txt | sed -e 's/<[^>]*>//g'

http://it.pakapaka.jp/

最初は、<.*> でやっていましたが、これだとリンクタグで挟んでいる文字列も除去されてしまったので考え直してみました。

関連記事