python new_url = link['href'] 这句话是什么意思

#!/usr/bin/env python2
# -*- coding: UTF-8 -*-
import re
import urlparse

from bs4 import BeautifulSoup

class HtmlParser(object):

def parse(self, page_url, html_cont):
if page_url is None or html_cont is None:
return

soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')
new_urls = self._get_new_urls(page_url, soup)
new_data = self._get_new_data(page_url, soup)
return new_urls, new_data

def _get_new_urls(self, page_url, soup):
new_urls = set()
links = soup.find_all('a', href=re.compile(r"/view/\d+\.htm"))
for link in links:
new_url = link['href']
new_full_url = urlparse.urljoin(page_url, new_url)
new_urls.add(new_full_url)
return new_urls

def _get_new_data(self, page_url, soup):
res_data = {}

# url

res_data['url'] = page_url
# <dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>
title_node = soup.find('dd', class_= "lemmaWgt-lemmaTitle-title").find("h1")
res_data['title'] = title_node.get_text()

summary_node = soup.find('div', class_="lemma-summary")
res_data['summary'] = summary_node.get_text()
return res_data

举报该问题

推荐答案 2016-08-05

不知道你这是什么版本的python，或者说用了些我完全不了解的库。<br>
就那一段来说，links = soup.find_all('a', href=re.compile(r"/view/\d+\.htm"))：<br>
应当是在soup里检索所有符合 re.compile(r"/view/\d+\.htm") 的结果，存放在结构 links 里。<br>
for link in links: # 循环 links 结构； link 好像是个字典<br>
new_url = link['href'] # new_url 应该是符合re.compile(r"/view/\d+\.htm") 的其中一个结果

温馨提示：答案为网友推荐，仅供参考

当前网址：http://44.wendadaohang.com/zd/GYVGZYWW3DWDDZDVDDK.html

相似回答

$href = $root_url.'#'.这段代码什么意思,答：Link是链接外部CSS样式文件，而不是导入；导入用到的是import，例如你上面的还可以写成：<style type="text/css">  </style> href：表示引入的外部文件 href=css/global.css ：css文的路径 rel：是可选的 type：表示css文件的mime类型，text是大类型，表...

URL是指什么?答：淘宝里的URL的意思是：统一资源定位符，也就是网页地址。URL的全称：UniformResourceLocator Uniform读法英[ˈjuːnɪfɔːm] 美[ˈjuːnɪfɔːrm]1、n.制服;校服 2、adj.一致的;统一的;一律的短语：1、uniformcustomsandpractice 统一...

提示:Class 'App\Common\Model\Link' not found Severity: Fatal 无...答：$linkDataModel=new App\Common\Model\Link;---这里为报错所说的第5行$linkData=$linkDataModel->orderBy("sort",'ASC')->field("lname,url")->limit(3)->get(); ?><ul class="web_link"><li id="fi">友情链接</li><?php foreach ($linkData as $v){?><li><a href="<?php echo $v[...

如何获取这个网页的代码答：linkset[2][0]='<div class=menuitems><a href=?skin=0>恢复默认设置</a></div>'linkset[2][1]='<div class=menuitems><a href=?skin=1>├ <font color=red>默认风格</font></a></div>'linkset[3]=new Array()linkset[3][0]='<div class=menuitems><a href=pic_list.asp?show=14>...