2007-05-21から1日間の記事一覧
ということで、newsingの新着記事リストから個別記事URLを取得する。※newsingの新着記事のアドレス体系は http://newsing.jp/list?start=x0 (x=1,2,3...) となっている。 require 'hpricot' require 'open-uri' require 'kconv' lis…
ここまでHpricot見てきたけど、キモは「検索方法」だなぁと思う。要素の指定さえ正しくすれば返ってきた要素の加工は、今までのrubyの知識で十分だし、どっちかっていうとCSSやXPATHの知識が必要ぽい。以下ひっかかった要素のフルパスを返すメソッドをメモし…
ってなわけでリファレンスの出番ですよ先生。http://tam.qmix.org/wiki/Hpricot.html Route 477 inner_html inner_textと違って指定した要素の中のHTMLも一緒に抜き出す。 doc = Hpricot(open("http://newsing.jp")) (doc/"a.medium").inner_html.each do |t…
俺がNEWSING★BOOSTERでやってるのと同じことをHpricotを使ってやってみる。個別記事URLはclass="medium"となっているので、以下のような構文で取り出せる。 require 'hpricot' require 'open-uri' require 'kconv' doc = Hpricot(op…