Estou voltando depois de muito tempo sem escrever. Dei aula à noite durante dois meses e isso me exigiu uma atenção especial. E nada melhor do que voltar com Ruby!
Como vocês já devem ter percebido adoro scripts. Gosto de automatizar algumas tarefas que costumo realizar varias vezes ao dia.
As vezes vou até a página da Globo.com ver o que está acontecendo no mundo. Mas tem muita informação na tela pra quem só corre o olho – e metade é Big Brother (pelo menos quando escrevi isso).
Para me ajudar fiz um script que resume a página da Globo.com pegando apenas suas imagens. Como sempre faço primeiro vou colocar o script e depois explico:
Primeiramente percebe-se que utilizei o Hpricot para fazer parse do HTML. Excelente, diga-se. A variável html serve para concatenar o HTML que o script vai gerar.
Na linha 8 faço uma leitura na página Globo.com, utilizo Hpricot e open-uri para isso. Na linha 10 busco todas as imagens da página. Na linha 11 faço uma verificação na url da imagem para ver se é absoluta (http://www.globo.com/imagem.jpg) ou relativa (/imagem.jpg), transformando todas em urls absolutas para serem visualizadas de fora do servidor da Globo.
Finalizo o HTML que geramos e na linha 17 salvo em um arquivo chamado “Agora.html”. Quem está utilizando o Windows pode descomentar a linha 19, para abrir o Internet Explorer (Eca!) com esse arquivo.
Você pode, facilmente, alterar o script e buscar as imagens de outro portal, como o Terra, por exemplo. Modifique e comente… Até mais.

Legal cara, gosto muito do Hpricot. Tá surgindo muita coisa legal pra fazer crawlers… dá um bizú no Anemone e no Tarantula.
Fui!
Tutorial: Extraindo as imagens da Globo.com | Ruby Brasil // jul 25, 2009 at 12:04
[...] Wagner Andrade publicou em seu blog um pequeno script que acessa a página inicial da Globo.com, e retorna apenas as imagens [...]
Muito bom cara! Bom te ver escrevendo de novo.
Abraço.
3dfacil.blospot.com, Wagner! feliz retorno pra nós te-lo Rubyano, até…