Selenium - イチゾーのブログ

英語多読用の本をレベル別に取得する（完成版）

一蔵 — Thu, 29 Dec 2016 03:52:31 +0000

英語多読用の本をレベル別に取得する（完成版）

これまでのまとめと残りの実装

検索を行いその結果をリスト化しテキストに保存するという一連の作業を実装します。

検索の実行はPythonでSeleniumを動作させて行います。

英語多読研究会さんのWEBページから、読みやすさレベル別に本のリストを取得するスクリプトの完成版です。

これまで、「英語多読用の本のリストをレベル別に取得する」や
「英語多読用の本をレベル別に取得する（ページャーも対応）」で
実装してきたものの完成版です。

レベル別の英語多読用の本のリストをそれぞれテキストファイルに書き出すという処理です。

読みやすさレベルは、0.0から0.1刻みで10.0まであるので、
それぞれのレベルごとに本のリストを取得して、そのISBNをテキストファイルに書き出します。

今までは書名を取得していたのですが、検索結果の中にISBNが含まれていたことに気が付き、これを取得することにしました。

プログラムソース

では、プログラムソースです。

# -*- coding: utf-8 -*-
"""
Created on Thu Dec 22 16:32:48 2016

@author: 
"""

from selenium import webdriver

url = 'http://www.seg.co.jp/sss_review/jsp/frm_a_100.jsp'
keyword0 = '100'
level_no = 0
isbn_list = []

def open_window():
    try:
        browser = webdriver.Chrome('./chromedriver')
    finally:
        print('END')
    return browser
        
def search_web(browser, keyword1):
    browser.get(url)
    
    search_input = browser.find_element_by_name('dt_page_in')
    search_input.send_keys(keyword0)

    search_input = browser.find_element_by_name('nm_yle')
    search_input.send_keys(keyword1)

    search_input = browser.find_element_by_name('nm_yls')
    search_input.send_keys(keyword1)
    
    browser.find_element_by_name('Submit3022233').click()
    
    return browser

def go_next_page(browser):
    isFind = True
    page_no = 1
    
    while isFind:
        get_isbns(browser)
    
        page_no += 1
        search_word = '"JavaScript:fncPagnig('+str(page_no)+');"'
        
        if browser.page_source.find(search_word) > 0:
            browser.find_element_by_xpath('//a[@href='+search_word+']').click()
        else:
            isFind = False

def get_isbns(browser):
    subjects = browser.find_elements_by_class_name('subj')
    for subject in subjects:
        if subject.text.find('●ISBN：') > 0:
            isbn = subject.text.split('●ISBN：')
            isbn = isbn[1].split('(')
            isbn_list.append(isbn[0])

def write_file(level_no):
    f = open('list'+str('%1.1f' % level_no)+'.txt', 'w')
    for isbn in isbn_list:
        f.write(isbn)
        f.write('\n')
    f.close()
    

if __name__ == '__main__':
    browser = open_window()
    while level_no < 10:
        browser = search_web(browser, str('%1.1f' % level_no))
        go_next_page(browser)
        write_file(level_no)
        level_no += 0.1
        isbn_list = []

プログラムソースの説明

ソース下部の

if __name__ == '__main__':

から各メソッドを実行していますので、ここから説明していきます。

これまではsearch_web()内で

browser = webdriver.Chrome('./chromedriver')

を行っていたのですが、検索のたびに新しいウィンドウを立ち上げたくなかったので、
別途open_window()メソッドを定義して、1回だけこれを呼び出すことにしました。

読みやすさレベルは、0.0から10.0まで検索を続けるので、
whileループで各レベルごとに検索処理を実行します。

ループ内では、search_web()で検索処理を実行し、
検索結果をgo_next_page()に渡します。

go_next_page()では、検索結果ページごとにget_isbns()を呼び出し、
ページャーのリンクを探します。
ページャーのリンクの数だけ、リンクをクリックし、検索結果をget_isbn()に渡すことを繰り返します。

get_isbns()では、ISBNはclass名が「subj」というtdタグで囲まれているので、
find_elements_by_class_nameで「subj」を指定して中の文字列を取得します。
これで文字列はリストに入るので、この文字列でループし、
「●ISBN」という文字列がある場合だけISBNを取得し、これをリストに追加します。

ISBNをリストに追加し終わったらwrite_file()で
読みやすさレベル別にテキストファイルに保存します。

次にlevel_no（読みやすさレベル）を0.1上げて、
検索結果をセットするリストを初期化しておきます。

以上をlevel_noが10になるまで繰り返します。

注意事項

私は、非常に低スペックのパソコンで実行しているためか、
Seleniumで検索を行ってページ送りしてという動作が非常に緩慢です。
手動で検索を行ってページ送りしてというよりも動作が遅いぐらいです。

ですのでsleepを入れていませんが、
高スペックパソコン等で検索やページ送りの動作が非常に速い場合は
ループの間隔をあけるように適度にsleepを入れましょう。

The post 英語多読用の本をレベル別に取得する（完成版） first appeared on イチゾーのブログ.

英語多読用の本をレベル別に取得する（ページャーも対応）

一蔵 — Wed, 28 Dec 2016 08:04:19 +0000

英語多読用の本をレベル別に取得する（ページャーに対応する）

前回の「英語多読用の本のリストをレベル別に取得する」に引き続き、
英語多読研究会さんのデータベースから、読みやすさレベル別の書籍リストを取得する実装を行います。

検索結果が多数のページにまたがらないように、結果一覧ページの表示件数を最大の100件にしています。
また読みやすさレベルで細かく分けられるように、検索項目の読みやすさレベルを0.1刻みで上げていく方法を取ります。
他の絞り込み条件を入れると、リストから漏れてしまったりということも考えられなくもないので、
単純に読みやすさレベルを細かく刻むことでその対応とします。

前回の記事で紹介したPythonのソースをさらに書き換えます。

プログラムは以下のようになりました。

プログラムソース

# -*- coding: utf-8 -*-
"""
Created on Thu Dec 22 16:32:48 2016

@author: 
"""

from selenium import webdriver

url = 'http://www.seg.co.jp/sss_review/jsp/frm_a_100.jsp'
keyword0 = '100'
keyword1 = '0.0'
keyword2 = '0.0'
title_list = []

def search_web():
    try:
        browser = webdriver.Chrome('./chromedriver')
        browser.get(url)
        
        search_input = browser.find_element_by_name('dt_page_in')
        search_input.send_keys(keyword0)

        search_input = browser.find_element_by_name('nm_yle')
        search_input.send_keys(keyword1)

        search_input = browser.find_element_by_name('nm_yls')
        search_input.send_keys(keyword2)
        
        browser.find_element_by_name('Submit3022233').click()
        
        get_titles(browser)

        page_no = 2

        search_word = '"JavaScript:fncPagnig('+str(page_no)+');"'
        page_source = browser.page_source
        while page_source.find(search_word) > 0:
            browser.find_element_by_xpath('//a[@href='+search_word+']').click()
            get_titles(browser)
            page_no += 1
            search_word = '"JavaScript:fncPagnig('+str(page_no)+');"'
            
    finally:
        print('END')

    return title_list

def get_titles(page_text):
    titles = page_text.find_elements_by_xpath('//b')
    isTitle = 0
    for title in titles:
        if isTitle == 0 and title.text == '簡易検索：':
            isTitle = 1
        elif isTitle == 1 and title.text == 'ISBN検索：':
            isTitle = 2
        elif isTitle == 1:
            #print(title.text)
            title_list.append(title.text)

            
if __name__ == '__main__':
    search_web()
    print(title_list)

プログラムソースの内容

今回は、プログラムの冒頭で、以下のように空のリスト「title_list」を宣言します。

title_list = []

search_web()で英語多読研究会さんのサイトからデータの取得処理を行います。

browser = webdriver.Chrome('./chromedriver')

で、chromedriverを立ち上げて、send_keysで検索項目を指定し、
下記のclick()で検索処理を実行するところまでは前回と同じです。

browser.find_element_by_name('Submit3022233').click()

その後、以下でget_titles()を実行します。

get_titles(browser)

取得した書名リストをtitle_listに追加します。

title_list.append(title.text)

ここまで終わると、再びsearch_web()に戻ります。

ページャーのリンクは、以下のタグです。

これをクリックすることで2ページ目に遷移します。

ページャーがあると、”JavaScript:fncPagnig(2);” という文字列がページソース内に存在します。
最初に page_no = 2 として、以下のようにsearch_wordという文字列を生成します。

search_word = '"JavaScript:fncPagnig('+str(page_no)+');"'

3ページ以上あることも想定して、page_no をインクリメントし、
その値で生成したsearch_wordで、ページソースを検索します。

while page_source.find(search_word) > 0:

ページソース内にページャーがあった場合はwhileループ内を実行します。

まずは、以下でページャーのリンクをクリックします。

browser.find_element_by_xpath('//a[@href='+search_word+']').click()

get_titles(browser)

で検索結果ページから書名リストを取得します。

page_no += 1
search_word = '"JavaScript:fncPagnig('+str(page_no)+');"'

でpage_noをインクリメントして、その値でリンク先の文字列を生成します。

while文で、この値（次のページのリンク）が存在するかを調べ、
存在する場合は再度ループ内を実行します。

次ページが存在しない場合は、ループを抜けてプログラムを終了します。

次は、書名のリストをテキストファイルに書き出すことと、
これまで固定だった検索項目（読みやすさレベル）を動かして
それぞれの読みやすさレベルごとに書名リストのテキストファイルを
生成することを実装したいと思います。

The post 英語多読用の本をレベル別に取得する（ページャーも対応） first appeared on イチゾーのブログ.

英語多読用の本のリストをレベル別に取得する

一蔵 — Tue, 27 Dec 2016 07:55:05 +0000

英語多読用の本のリストをレベル別に取得したい

英語多読研究会さんが、英語多読に使える本のデータベースを公開してくれています。
読みやすさレベルを指定して検索することができるので、
自分のレベルに合わせた本を探すのに非常に使い勝手がいいサイトになっています。

このリストから読みたい本を見つけて英語多読に役立てたいところですが、
個別に本を買っていると結構お金がかかってしまいます。

そこで洋書も多いKindle Unlimitedで対象の本があれば
月額980円で読み放題ということで、
より英語多読がやりやすくなります。

ということで、英語多読に役立てたいという目的で、
英語多読研究会さんのデータベースからレベル別に
本のリストを取得することを考えてみます。

Seleniumを使おう

レベル別に英語本のリストを取得するには、
検索画面に抽出したいレベルを指定して
検索要求を投げる必要があります。

最初はPythonスクリプトからRequestsを使って
リスト取得することを考えました。

検索項目等の指定をした上で検索要求を投げる訳ですが、
再び検索画面が表示されるだけで、なぜか検索結果画面が表示されません。
（検索画面と検索結果画面のURLが同じで、どうにも受け渡しているパラメーターによって切り替えているっぽいです）

Requestsでヘッダ情報をセットしたり、
検索画面で受け取ったクッキーを検索要求で渡すなどやってみましたが
うまくいかずRequestsでの検索要求はやめることにしました。
（ブラウザから渡しているhidden項目等を渡してみましたがことごとくダメでした）

ということでSeleniumでブラウザを操作して検索結果を取得してみます。

Seleniumを操作するプログラム

まずはプログラムソースを。

前回の記事「PythonとSeleniumでブラウザの自動操作」で作成したソースを改変します。

# -*- coding: utf-8 -*-
"""
Created on Thu Dec 22 16:32:48 2016

@author: 
"""

from selenium import webdriver

url = 'http://www.seg.co.jp/sss_review/jsp/frm_a_100.jsp'
keyword0 = '100'
keyword1 = '0.0'
keyword2 = '0.0'


def search_web():
    try:
        browser = webdriver.Chrome('./chromedriver')
        browser.get(url)
        
        search_input = browser.find_element_by_name('dt_page_in')
        search_input.send_keys(keyword0)

        search_input = browser.find_element_by_name('nm_yle')
        search_input.send_keys(keyword1)

        search_input = browser.find_element_by_name('nm_yls')
        search_input.send_keys(keyword2)
        
        browser.find_element_by_name('Submit3022233').click()
        
        #print(browser.page_source)
        titles = browser.find_elements_by_xpath('//b')
        isTitle = 0
        for title in titles:
            if isTitle == 0 and title.text == '簡易検索：':
                isTitle = 1
            elif isTitle == 1 and title.text == 'ISBN検索：':
                isTitle = 2
            elif isTitle == 1:
                print(title.text)
            #booktext = bookdata.text

        
    finally:
        print('END')


if __name__ == '__main__':
    search_web()

プログラムソースの解説

keyword0 = ‘100’で、表示件数（100件）、
keyword1 = ‘0.0’とkeyword2 = ‘0.0’で読みやすさレベルを設定しておきます。

browser = webdriver.Chrome('./chromedriver')

で、Pythonスクリプトと同じディレクトリ内に置いたchrmedriverを読み込みます。
browser.get(url) で指定したURLを開きます。

search_input = browser.find_element_by_name('dt_page_in')
search_input.send_keys(keyword0)

で、dt_page_inにkeyword0（100）をセットします。

同様に「nm_yle」と「nm_yls」に検索項目である読みやすさレベルを指定します。

browser.find_element_by_name('Submit3022233').click()

で検索ボックスをクリックします。

検索結果ページはbrowserに入っていて、
書名は「bタグ」で囲まれているので、書名リストをfind_elements_by_xpathで取得します。

titles = browser.find_elements_by_xpath('//b')

titlesにbタグで囲まれた書名のリストが入っていますが、
それ以外のbタグで囲まれた部分もリストに入っているので、
以下で取り除きます。

isTitle = 0
for title in titles:
    if isTitle == 0 and title.text == '簡易検索：':
        isTitle = 1
    elif isTitle == 1 and title.text == 'ISBN検索：':
        isTitle = 2
    elif isTitle == 1:
        print(title.text)

ここまでで、検索を実行して表示された検索結果ページから
書名のリストを取得する（ただし最初の1ページ目のみ）ということができました。

引き続いて次回は、検索結果が複数ページに渡る場合に
画面を遷移させた上で書名リストを取得し、
これをテキストファイルに出力するということを行います。

Pythonって直観的で使いやすい言語ですね。

The post 英語多読用の本のリストをレベル別に取得する first appeared on イチゾーのブログ.

PythonとSeleniumでブラウザの自動操作

一蔵 — Thu, 22 Dec 2016 07:55:43 +0000

PythonとSeleniumでブラウザの自動操作

今回は、PythonからSeleniumを動かしてブラウザの自動操作をやってみます。

前回の「PythonのRequestsを使って検索結果を取得する」で、
うまく検索結果を取得できなかったサイトがあったので
今回はSeleniumを使用してみます。

Requestsで取得できなかったのは、見えないところで何らかのパラメーターを渡しているのか、
header情報が必要なのか、画面表示の際にJavaScriptが動いているようなので
これが何かをやっているのか等々なのですが、
ブラウザ操作からは簡単に結果を取得できるので
Requestsは早々に諦めてSeleniumを使ってみることにしました。

Seleniumとは？

ブラウザの自動操作ツールです。

Pythonから操作できるということで、Python勉強中の私は
勉強も兼ねてSeleniumを使ってみたいと思います。

まずはSeleniumのインストールです。

これはpipから行えます。

私はWindows環境なので、コマンドプロンプトを管理者権限で立ち上げて
以下のコマンドを実行します。

pip install selenium

すると以下のようにインストールされます。

Collecting selenium
  Downloading selenium-3.0.2-py2.py3-none-any.whl (915kB)
    100% |################################| 921kB 359kB/s
Installing collected packages: selenium
Successfully installed selenium-3.0.2

ブラウザはChromeを使いたいのですが、
ドライバが必要なようです。

ChromeDriverをダウンロードサイトからダウンロードします。

「Latest Release:」の後ろの「ChromeDriver 2.26」（2016/12/22現在）の
リンクをクリックするとファイル一覧が表示されます。

「chromedriver_win32.zip」をダウンロードします。

解凍すると「chromedriver.exe」というファイルが現れるので、
これをPythonファイルと同じフォルダ内に移動します。

Pythonのプログラムを実装

# -*- coding: utf-8 -*-
"""
Created on Thu Dec 22 16:32:48 2016

@author: 
"""

import time
from selenium import webdriver

url = 'http://search.yahoo.co.jp/search'
keyword = 'python'

def search_web():
    try:
        browser = webdriver.Chrome('./chromedriver')
        browser.get(url)
        time.sleep(1)
        
        search_input = browser.find_element_by_name('p')
        search_input.send_keys(keyword)
        search_input.submit()
        time.sleep(1)
        
        print(browser.page_source)
        
    finally:
        print('END')


if __name__ == '__main__':
    search_web()

seleniumのwebdriverを使用するために、「from selenium import webdriver」を宣言します。

対象ページのURLと検索キーワードを設定しておきます。

search_web()内では、「webdriver.Chrome(‘./chromedriver’)」で
同じディレクトリ内にあるchromedriverを起動します。

「browser.get(url)」でブラウザにURLを渡します。

検索キーワードの入力ボックスのnameが「p」だったので、
「search_input = browser.find_element_by_name(‘p’)」として指定します。

「search_input.send_keys(keyword)」でキーワードをセットします。

「search_input.submit()」で検索を実行します。

検索結果は「browser.page_source」から取得します。

実際に実行してみると、まずchromedriverが起動し、
次にChromeが立ち上がります。

http://search.yahoo.co.jp/searchに移動し、
検索ボックスに「python」が入力されます。

さらに検索が実行され、検索結果ページが表示されました。

最後にChromeが閉じ、検索結果ページのソースが出力されました。

これだけ簡単な操作だと、実装コードも少なくて簡単ですね。

ちなみに、「検索」ボタンがsubmitではなくて、
onclickでJavasScriptを実行している場合は、
「search_input.submit()」の部分を下記で置き換えます。

browser.find_element_by_name('Search').click()

The post PythonとSeleniumでブラウザの自動操作 first appeared on イチゾーのブログ.