python爬虫-抓取内涵吧内涵段子

2024-11-28 09:20:00 来源：元中文学点击：1

这是个python简易爬虫，主要使用了requests和re模块，适合入门。出处：oding:utf-8 -*-import requests, re, timeclass Neihanspider(object): def __init__(self): self.base_url = /article/list_5_' self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"} # 第一层解析的正则表达式正则里面的符号不能改，必须照原样复制过来 self.first_pattern = re.compile(r'.*?', re.S) # 第二层解析的正则表达式去除所有标签字符实体空白全角空格 self.second_pattern = re.compile(r'|&.*?;|\s|　　') # 发送请求 def send_request(self, url): time.sleep(2) try: response = requests.get(url, headers=self.headers) return response.content except Exception as e: print e # 写入文件 def write_file(self, data, page): with open('04neihanba.txt', 'a') as f: filename = '第' + str(page) + '页的段子\n' print filename f.write('-' * 10 + '\n') f.write(filename) f.write('-' * 10 + '\n') for first_data in data: # 第二层解析 content = self.second_pattern.sub('', first_data) f.write(content) # 在每个段子结束的时候加个换行 f.write('\n\n') # 调度方法 def start_work(self): for page in range(1, 5): # 拼接url url = self.base_url + str(page) + '.html' # 发送请求 data = self.send_request(url) # 转码 data = data.decode('gbk').encode('utf-8') # 第一层解析 data_list = self.first_pattern.findall(data) # 将数据写入文件 self.write_file(data_list, page)if __name__ == '__main__': spider = Neihanspider() spider.start_work()

北京看睡眠的哪家医院好

北京癫痫病治疗费用有哪些

北京看儿童癫痫医院有哪些方法

江苏治癫痫的药哪种好使

江苏羊癫疯大发作能治好吗

上一篇：你的情商藏着你的内涵
下一篇：内涵段子

内涵段子

2024-11-28 09:20:01
内涵段子

2024-11-28 09:20:01
内涵段子

2024-11-28 09:20:01
内涵段子

2024-11-28 09:20:01
内涵段子

2024-11-28 09:20:01
书的内涵

2024-11-28 09:20:01
内涵段子

2024-11-28 09:20:01
美的内涵

2024-11-28 09:20:01