• 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

WWW::Mechanize::Page#images

WWW::Mechanize::Page は、forms, links メソッドでそれぞれの要素の配列が取得できるが、画像(img)を取得するメソッドはまだないので簡易実装。

   1  require 'mechanize'
   2   
   3  WWW::Mechanize::Page.class_eval do
   4    def images
   5      @images ||= search('img').map do |img|
   6        case src = img['src']
   7        when %r{^https?://}
   8          src
   9        else
  10          (uri + src).to_s
  11        end
  12      end.uniq
  13    end
  14  end

forms, links では Page::XXX オブジェクトが返るので、 同様に Page::Image オブジェクトを作成するのが正しい姿であるが、 今はページの画像のURL一覧が欲しいだけなので、割愛。 そこは誰かに任せた。

   1  agent = WWW::Mechanize.new
   2  page  = agent.get('http://blog.s21g.com/')
   3  page.forms.size  # => 1
   4  page.links.size  # => 109
   5  page.images.size # => 17

とりあえず快適!

posted by Png maiha on Fri 28 Aug 2009 at 09:47
Contents
Mechanizeで画像のURL一覧を取得
Comments
maiha: 追記)対応は約1営業日でした。チームの忙しさに応じて変動するとは思いますが、大体の目安情報とい... '10-4
maiha: なるほど。rails のログから実行したクエリを抜き出したいと思うことがよくありまして。 あ... '10-3
winebarrel: レポートありがとうございます。 削除できない件は修正しました。 SQLのparserはTC/... '10-2
maiha: なるほど。ありがとうございます! '10-2
ursm: Haml 2.2 以降はどこでも式展開が使えるようになったので、== は意味がなくなりました。... '10-2
Services from s21g
twpro(ツイプロ)
Twitterプロフィールを快適検索
地価2009
土地の値段を調べてみよう
MyRestaurant
自分だけのレストラン手帳
Formula
ブログに数式を埋め込める数式コミュニティ