今に必要なのはHpricot or Htree? - 今日も元気にテクニカル

前回紹介したmechanizeの最大の特徴は、「フォームに情報を入力できる」ということだった。これにより、フォームに文字を入力しなければ見れない動的なページへのアクセス、またフォームを介した自動ログイン、自動投稿が可能になったのだ。

なら「ふつうにアクセスして見えるページ」ならmechanizeではなくて専用のHTTPパーサーを使えばよい。

…ということにmechanizeを使ってやっと気付いた。

で、HpricotとHtreeである。両方ともrubyのHTTPパーサでHTTPをXMLに直したりしてくれるらしい(多分直接文字列を取得する事も可能…だと思う)。XMLにした後は、各種パーサー(ここ突き詰めると長くなるので省略)で取り出してやればよい。

実用的な流れとしては

となるのかな。

メモすることが多すぎてここから本題なんだけど、HpricotとHtree、どっち使ったらいいんだ？ってことだ。次回に続く…。