在使用selenium模塊進(jìn)行數(shù)據(jù)爬取時(shí),通常會(huì)遇到爬取iframe中的內(nèi)容。會(huì)因?yàn)槎ㄎ坏淖饔糜騿栴}爬取不到數(shù)據(jù)。
我們以菜鳥教程的運(yùn)行實(shí)例為案例。
按照正常的定位
會(huì)以文本塊生成xpath為/html/body/text()。這樣的話根據(jù)xpath進(jìn)行如下代碼編寫。
#!/user/bin/ # -*- coding:UTF-8 -*- # Author:Master from selenium import webdriver import time driver = webdriver.Chrome(executable_path="./chromedriver") driver.get('https://www.runoob.com/try/runcode.php?filename=HelloWorldtype=python3') time.sleep(2) text = driver.find_element_by_xpath('/html/body').text print(text) time.sleep(5) driver.quit()
執(zhí)行結(jié)果:
很明顯這并不是想要的結(jié)果。
當(dāng)我們打開抓包工具定位到Hello, World!文本的時(shí)候會(huì)發(fā)現(xiàn),該文本是在一個(gè)iframe中。這樣的話我們xpath所定位到的內(nèi)容則是大的html中的路徑。我們需要的內(nèi)容則是在iframe中的小的html中。
通過分析發(fā)現(xiàn),想要解決問題的實(shí)質(zhì)就是改變作用域。通過switch_to.frame(‘id')方法來改變作用域就可以了。
重新編寫代碼:
#!/user/bin/ # -*- coding:UTF-8 -*- # Author:Master from selenium import webdriver import time driver = webdriver.Chrome(executable_path="./chromedriver") driver.get('https://www.runoob.com/try/runcode.php?filename=HelloWorldtype=python3') time.sleep(2) driver.switch_to.frame('iframeResult') text = driver.find_element_by_xpath('/html/body').text print(text) time.sleep(5) driver.quit()
查看運(yùn)行結(jié)果:
到此這篇關(guān)于Python爬蟲實(shí)現(xiàn)selenium處理iframe作用域問題的文章就介紹到這了,更多相關(guān)selenium iframe作用域內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
標(biāo)簽:廊坊 重慶 德宏 長春 臨汾 漢中 東莞 河池
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲實(shí)現(xiàn)selenium處理iframe作用域問題》,本文關(guān)鍵詞 Python,爬蟲,實(shí)現(xiàn),selenium,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。