Pythonでsitemap.xmlからURLをパースする

引用元:http://www.craigaddyman.com/parse-an-xml-sitemap-with-python/

この記事の翻訳です。

Parse An Xml Sitemap With Python

20-August-2015#python

PythonでサイトマップXmlをパースしようぜ!

I have had parse a number of XML sitemaps this week for different reasons so I thought I would make it a little easier and quicker. There are specific standard libraries for parsing XML but this is what I came up with…

今週、私はいくつかの理由からいくつものサイトマップXMLをパースしました。ということで、ちょっとでも簡単に早くできるように考えました。
これらは、おなじみのXMLをパースするスタンダードなライブラリですが、私の考えたやり方は…

from bs4 import BeautifulSoup
import requests

url = "http://www.site.co.uk/sitemap.xml"
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data)

for url in soup.findAll("loc"):
print url.text

※追記

  • 私もこのやり方で実装できましたー。
  • URL部分をローカルのファイルにしたいときは、requestsはいらなくなるので、こうね
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("sitemap.xml"))
...

スポンサーリンク
hige1
hige1

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
hige1