今日も元気にテクニカル

技術情報書きたいけど本ブログに書きたくないからこんな名前になりました。

2007-05-21から1日間の記事一覧

本題:newsingの新着記事リストから個別記事URLを取得する

ということで、newsingの新着記事リストから個別記事URLを取得する。※newsingの新着記事のアドレス体系は http://newsing.jp/list?start=x0 (x=1,2,3...) となっている。 require 'hpricot' require 'open-uri' require 'kconv' lis…

適当に検索した要素のXPATH,CSSフルパスを調べる

ここまでHpricot見てきたけど、キモは「検索方法」だなぁと思う。要素の指定さえ正しくすれば返ってきた要素の加工は、今までのrubyの知識で十分だし、どっちかっていうとCSSやXPATHの知識が必要ぽい。以下ひっかかった要素のフルパスを返すメソッドをメモし…

当然調べます。

ってなわけでリファレンスの出番ですよ先生。http://tam.qmix.org/wiki/Hpricot.html Route 477 inner_html inner_textと違って指定した要素の中のHTMLも一緒に抜き出す。 doc = Hpricot(open("http://newsing.jp")) (doc/"a.medium").inner_html.each do |t…

newsingの新着記事リストから個別記事URLを取得する

俺がNEWSING★BOOSTERでやってるのと同じことをHpricotを使ってやってみる。個別記事URLはclass="medium"となっているので、以下のような構文で取り出せる。 require 'hpricot' require 'open-uri' require 'kconv' doc = Hpricot(op…