37丨数据采集实战：如何自动化运营微博？

今天我来带你做一个数据采集的实战。之前我讲到可以使用第三方工具，比如八爪鱼做数据采集，也可以自己编写脚本，比如使用Python。编写Python做数据采集和自动化最大的好处就是可控性强，每个步骤都可以调试，而且可以找到问题所在并一一突破。

今天我就带你使用Python自动化运营微博。关于今天的学习，希望你能达成以下的3个学习目标：

掌握Selenium自动化测试工具，以及元素定位的方法；
学会编写微博自动化功能模块：加关注，写评论，发微博；
对微博自动化做自我总结。

Selenium自动化测试工具

当我们做Web自动化测试的时候，可以选用Selenium或者Puppeteer工具。我在第10篇的时候简单介绍过Selenium这个工具，你可以再回顾一下。Puppeteer通过控制无头Chrome来完成浏览器的工作。这两个工具之间的区别在于：Selenium更关注程序执行的流程本身，比如找到指定的元素，设置相应的值，然后点击操作。而Puppeteer是浏览者的视角，比如光标移动到某个元素上，键盘输入某个内容等。

今天我们继续使用Selenium工具自动化模拟浏览器，重点是学习对元素的定位。在第10篇讲到Selenium WebDriver的使用时，重点是对HTML进行获取和解析，然后通过HTML中的XPath进行提取，读取相应的内容。

在今天的实战里，我们需要在微博上自动登录，加关注，发评论，发微博等，这些操作都需要在浏览器上完成，所以我们可以使用Webdriver自带的元素定位功能。

如果我们想定位一个元素，可以通过id、name、class、tag、链接上的全部文本、链接上的部分文本、XPath或者CSS进行定位，在Selenium Webdriver中也提供了这8种方法方便我们定位元素。

通过id定位：我们可以使用find_element_by_id()函数。比如我们想定位id=loginName的元素，就可以使用browser.find_element_by_id(“loginName”)。
通过name定位：我们可以使用find_element_by_name()函数，比如我们想要对name=key_word的元素进行定位，就可以使用browser.find_element_by_name(“key_word”)。
通过class定位：可以使用find_element_by_class_name()函数。
通过tag定位：使用find_element_by_tag_name()函数。
通过link上的完整文本定位：使用find_element_by_link_text()函数。
通过link上的部分文本定位：使用find_element_by_partial_link_text()函数。有时候超链接上的文本很长，我们通过查找部分文本内容就可以定位。
通过XPath定位：使用find_element_by_xpath()函数。使用XPath定位的通用性比较好，因为当id、name、class为多个，或者元素没有这些属性值的时候，XPath定位可以帮我们完成任务。
通过CSS定位：使用find_element_by_css_selector()函数。CSS定位也是常用的定位方法，相比于XPath来说更简洁。

在我们获取某个元素之后，就可以对这个元素进行操作了，对元素进行的操作包括：

清空输入框的内容：使用clear()函数；
在输入框中输入内容：使用send_keys(content)函数传入要输入的文本；
点击按钮：使用click()函数，如果元素是个按钮或者链接的时候，可以点击操作；
提交表单：使用submit()函数，元素对象为一个表单的时候，可以提交表单；

了解WebDriver元素定位和功能之后，我们模拟一下微博的自动登录，具体代码如下：

from selenium import webdriver
import time
browser = webdriver.Chrome()
# 登录微博
def weibo_login(username, password):
     # 打开微博登录页
     browser.get('https://passport.weibo.cn/signin/login')
     browser.implicitly_wait(5)
     time.sleep(1)
     # 填写登录信息：用户名、密码
     browser.find_element_by_id("loginName").send_keys(username)
     browser.find_element_by_id("loginPassword").send_keys(password)
     time.sleep(1)
     # 点击登录
     browser.find_element_by_id("loginAction").click()
     time.sleep(1)
# 设置用户名、密码
username = 'XXXX'
password = "XXXX"
weibo_login(username, password)

需要说明的是，你需要填写自己的微博用户名和密码（对应username和password）。

通过HTML标签分析，我们能看到id=loginName和id=loginPassword对应着用户名和密码的输入框，获取这两个元素之后，使用send_keys()设置用户名和密码，然后通过id=loginAction找到登录按钮，获取该元素，使用click()函数点击提交。

这样我们就完成了微博的自动化登录，具体效果如下：

微博自动化运营：加关注，写评论，发微博

我们已经基本了解了Selenium WebDriver是如何获取指定元素，并且对元素进行操作的。下面我们撰写一下微博自动加关注，写评论，发微博的功能代码，具体模块如下：

我们刚才完成了weibo_login微博登录模块的编写，现在来看下加关注的功能，具体代码如下：

# 添加指定的用户
def add_follow(uid):
    browser.get('https://m.weibo.com/u/'+str(uid))
    time.sleep(1)
    #browser.find_element_by_id("follow").click()
    follow_button = browser.find_element_by_xpath('//div[@class="m-add-box m-followBtn"]')
    follow_button.click()
    time.sleep(1)
    # 选择分组
    group_button = browser.find_element_by_xpath('//div[@class="m-btn m-btn-white m-btn-text-black"]')
    group_button.click()
    time.sleep(1)
# 每天学点心理学UID
uid = '1890826225' 
add_follow(uid)

这里有两点你需要注意。

第一点是如何找到用户的UID呢？

在微博中，用户是用UID做唯一标识的。代码中我随机指定了一个UID，你也可以指定其他的UID。那么如何获取用户的UID的呢？

你可以点击任何一个微博用户，查看他的URL链接，比如链接是https://weibo.com/u/5020181423 ，那么u后面的数字5020181423即为用户的UID。你也可能遇到https://weibo.com/ixinli（每天学点心理学）这样的链接情况，那么通过查看他的粉丝即可以显示出UID，比如这个微博的粉丝链接是https://weibo.com/1890826225/fans，那么UID对应的就是1890826225。

第二个需要注意的是使用XPath定位元素定位。

我们如何找到“关注”这个按钮的元素标识呢？在Chrome浏览器中，在“关注”按钮用鼠标右键点击，选择“检查”查看这个元素对应的代码。通过分析，你能看到这个元素的div标签中的class属性为m-add-box m-followBtn，那么你可以通过find_element_by_xpath(’//div[@class=“m-add-box m-followBtn”]’)获取这个元素。关注之后，程序会弹出选择分组的页面，如下所示。

通过同样的方法，你可以查看“取消”这个按钮对应的HTML标签特征，然后通过find_element_by_xpath定位，使用click()函数提交。这样我们就关注了一个指定的用户。

接下来，我们继续完成写评论和发微博的模块代码：

# 给指定某条微博添加内容
def add_comment(weibo_url, content):
    browser.get(weibo_url)
    browser.implicitly_wait(5)
    content_textarea = browser.find_element_by_css_selector("textarea.W_input").clear()
    content_textarea = browser.find_element_by_css_selector("textarea.W_input").send_keys(content)
    time.sleep(2)
    comment_button = browser.find_element_by_css_selector(".W_btn_a").click()
    time.sleep(1)
 
# 发文字微博
def post_weibo(content):
    # 跳转到用户的首页
    browser.get('https://weibo.com')
    browser.implicitly_wait(5)
    # 点击右上角的发布按钮
    post_button = browser.find_element_by_css_selector("[node-type='publish']").click()
    # 在弹出的文本框中输入内容
    content_textarea = browser.find_element_by_css_selector("textarea.W_input").send_keys(content)
    time.sleep(2)
    # 点击发布按钮
    post_button = browser.find_element_by_css_selector("[node-type='submit']").click()
    time.sleep(1)
# 给指定的微博写评论
weibo_url = 'https://weibo.com/1890826225/HjjqSahwl'
content = 'Gook Luck!好运已上路！'
# 自动发微博
content = '每天学点心理学'
post_weibo(content)

这个环节里，同样也有一些需要说明的地方。

如何找到某条微博的链接呢？你可以在某个用户微博页面中点击时间的链接，这样就可以获取这条微博的链接。

如何定位评论区中输入框元素的位置呢？

我们将鼠标移动到评论框中，在Chrome浏览器中点击右键“查看”，可以看到这个textarea的class是W_input，使用find_element_by_css_selector函数进行定位，然后通过send_keys设置内容。

最后就是发微博的流程。我们可以观察到点击微博页面的右上角的按钮后，会弹出一个发微博的文本框，设置好内容，点击发送即可。发微博的函数和写评论的代码类似，使用find_element_by_css_selector()函数定位，通过send_keys()设置内容的设置，最后通过click()发送。

上面的代码你可以自己模拟下，在实际运行过程中，你可能会遇到各种情况，比如下面这种情况：

微博自动化运营是一个系统的工程，需要考虑到各种情况，比如相同的内容发布需要间隔10分钟以上；关注了一个用户之后，就无法对他二次关注，可以判断是否已经关注过，再关注操作；因为操作频繁导致需要输入验证码的情况等。

另外，微博自动化运营只是自动化运营的开始，实际上在微信上我们也可以做同样的操作。比如监听微信群的消息，自动发微信等。实际要考虑的问题比微博的要复杂。

总结

今天我带你进行了微博自动化运营的实战，通过实战你对使用Selenium WebDriver应该更有了解，包括如何定位指定的元素，对元素进行各种操作等。同时我们使用了implicitly_wait函数以及time.sleep()函数让浏览器和程序等待一段时间，完成数据加载之后再进行后续的操作，这样就避免了数据没有加载完，导致获取不到指定元素的情况。

通过三个模块（加关注、写评论、发微博）的编写，你能了解如何使用工具完成自动化的操作。在实际的过程中，可能会遇到各种复杂情况，这些都需要你在运行过程中慢慢体会。

自动化运营是个细致的活儿，我在之前的加餐文章中也提到过。如果真的想要实现自动化，还需要解决反垃圾的清理问题等，你可以再回顾一下。

最后留两道题吧。今天我们对微博加关注这一模块编写了代码，同样我们也可能会对某个指定用户的UID做取消关注的操作，请你使用今天讲的元素定位和操作功能，编写相应的代码。

通过今天自动化测试工具的学习，你有怎样的收获和总结呢？

欢迎在评论区与我分享你的答案，也欢迎点击”请朋友读“，把这篇文章分享给你的朋友或者同事，一起实战交流一下。

精选留言

牛奶布丁

2019-03-09 14:51:47

老师，微博登录时需要验证码怎么处理呢？

作者回复

这个最好用第三方工具，比如八爪鱼这种

2019-12-29 19:36:04
梁林松

2019-03-08 21:48:07

给打家介绍一个XPath的小窍门：下载 XPath Helper插件，安装后在网页上选取想要提取的元素，点击右键选中检查然后开发者工具自动打开你可以看到 HTML代码，选中然后再次点击右键，选中copy 里的 copy to xpath这样就得到了xpath的值了。

作者回复

对 XPath Helper很好用

2019-12-29 19:38:17
一语中的

2019-03-08 11:00:10

数据思维和算法是我的薄弱项，还在一节一节敲之前例子中的代码，但selenium和爬虫是强项，8种定位方法结合WebDriverWait，再加上ActionChains中的方法和js基本天天用。
虽然学的有点虐(除了本课程最近同时在补《利用python进行数据分析》《精益数据分析》)但是很开心~~~

作者回复

不错的图书分享

2019-12-29 19:38:06
Geek_hve78z

2019-03-09 12:42:15

取消关注时，必须登录账户
______________
#模拟微博自动登录
from selenium import webdriver
import time
browser=webdriver.Chrome('./chromedriver')

# 登陆微博
def weibo_login(username,password):
# 打开微博登录页
browser.get('https://passport.weibo.cn/signin/login')
browser.implicitly_wait(5)
time.sleep(1)
# 填写登录信息：用户名、密码
browser.find_element_by_id("loginName").send_keys(username)
browser.find_element_by_id("loginPassword").send_keys(password)
time.sleep(1)
# 点击登录
browser.find_element_by_id("loginAction").click()
time.sleep(1)

# 设置用户名、密码
username='**********'
password='*********'
weibo_login(username,password)

# 取消指定的用户
def out_follow(uid):
browser.get('https://m.weibo.cn/u/'+str(uid))
time.sleep(1)
#browser.find_element_by_id("follow").click()
out_follow_button=browser.find_element_by_xpath('//*[@id="app"]/div[1]/div[4]/div[2]/div/div[1]/div/span/h4')
out_follow_button.click()
time.sleep(1)

# 点击取消关注
out_button1=browser.find_element_by_xpath('//*[@id="app"]/div[1]/div[4]/div[2]/div/div[1]/div/div/ul/li[2]/div/h4')
out_button1.click()

#再次确认取消关注
out_button2=browser.find_element_by_xpath('//*[@id="app"]/div[2]/div[1]/div[2]/footer/div[2]/a')
out_button2.click()
time.sleep(1)
# 每天学点心理学 UID
uid='1890826225'
out_follow(uid)

作者回复

Good Job

2019-12-29 19:36:14
Geek_hve78z

2019-03-08 12:37:55

利用Selenium在微博用户页面点击关注，弹出新的小窗口，但是程序显示无法定位到“取消按钮”。通过网上查找，说是需要driver.switchTo().fame("")重新定位页面，但是运行失败，求指导。
https://www.cnblogs.com/ella-yao/p/7762352.html
志

2019-03-08 21:46:16

课后练习取消关注模块：
# 取关指定的用户
def unfollow(uid):
browser.get('https://m.weibo.com/u/'+str(uid))
time.sleep(1)
unfollow_button = browser.find_element_by_xpath('//*[@id="app"]/div[1]/div[4]/div[2]/div/div[1]/div')
unfollow_button.click()
time.sleep(1)
# 选择取消关注
uf_button = browser.find_element_by_xpath('//*[@id="app"]/div[1]/div[4]/div[2]/div/div[1]/div/div/ul/li[2]/div')
uf_button.click()
time.sleep(1)
# 确定取消
confirm_button = browser.find_element_by_xpath('//*[@id="app"]/div[2]/div[1]/div[2]/footer/div[2]/a')
confirm_button.click()
time.sleep(1)

# 每天学点心理学 UID
uid = '1890826225'
unfollow(uid)

作者回复

Good Job

2019-12-29 19:36:34
初

2024-07-04 14:48:22

好多页面元素改了，还有find_element的语法也改了，把登录和加关注的脚本改了，后面的不改了。之前做过从51job上爬招聘数据，所以找xpath还挺容易的。整个流程也基本就是找元素-塞内容-操作元素，不过开头的两个验证码真的太烦了，图形验证码+手机验证码，这俩我是通过sleep足够的时间之后手动操作的。
yanyu-xin

2024-04-16 16:53:10

使用Selenium 4.19.0版本时遇到了AttributeError: 'WebDriver' object has no attribute 'find_element_by_xpath'的错误，这意味着需要将代码中的元素查找方法更新为新的语法。具体来说，需要从selenium.webdriver.common.by导入By类，并使用find_element方法来替代原来的find_element_by_xpath方法。

在Selenium 4.3.0及之后的版本中，原有的元素查找方法find_element_by_*和find_elements_by_*已经被弃用。现在，Selenium推荐使用新的查找元素的方法，即通过find_element函数结合By类来定位元素。例如，原来使用find_element_by_xpath的方式现在应该改为find_element(By.XPATH, ...)的形式
GodlovezZ

2021-07-14 11:02:16

老师好，您这些都是通过python2实现的，请问有对应python3的代码嘛
Untitled

2020-03-17 19:01:38

相对于发微博和加关注，更多需求是爬取评论

作者回复

评论也可以尝试哦。原理相似，开发者工具中找到在源码中定位它的标签或属性，就可以爬取到想要的信息。

2021-04-09 02:00:51
Untitled

2020-03-17 19:00:21

有验证码这个怎么处理？？
Lisa

2019-08-29 22:45:13

selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"textarea.W_input"}
(Session info: chrome=76.0.3809.132)
这个报错怎么处理？？？

作者回复

元素定位的问题

2019-12-23 15:56:07
周志翔

2019-07-23 10:18:09

可能是这个网站用的比较多了，xpath定位变了

作者回复

有时候网站样式变化了，xpath也需要调整

2019-12-28 17:44:57
滢

2019-04-23 16:37:56

一直提示这个问题 driver.find_elements_by_css_selector("[node-type='publish']").click()
AttributeError: 'list' object has no attribute 'click' 老师能帮忙看下嘛？
另外，一直在刷一直在刷微博不让登录来，课后练习后面补上

作者回复

还是可以登录的，你也可以考虑用八爪鱼试试

2019-12-29 18:21:45
随便讲两句

2019-04-03 17:27:23

关注/取消关注用 [ https://m.weibo.cn/profile/:uid ] 这个页面也很方便。

# 取消关注
def unfollow(uid):
browser.get('https://m.weibo.cn/profile/' + str(uid))
browser.implicitly_wait(5)
time.sleep(1)
browser.find_element_by_xpath("//a[@class='m-btn m-btn-block m-btn-lite-white']").click()
time.sleep(1)
browser.find_element_by_xpath("//a[@class='m-btn m-btn-white m-btn-text-orange']").click()
time.sleep(1)

作者回复

Good Sharing

2019-12-29 18:55:48
梁林松

2019-03-11 10:33:43

我发现只要直接点击私信 udi就出现了。
https://api.weibo.com/chat/#/chat?to_uid=1890826225
third

2019-03-09 12:47:31

问题
1.可能是我不玩微博的原因吧，为什么我点击每天学点心理学主页的左边关注后面的1884976粉丝，得到的是https://weibo.com/p/1005051890826225/follow?relate=fans&from=100505&wvr=6&mod=headfans&current=fans#place这个网址？，怎么才能得到https://weibo.com/1890826225/fans
2.强制等待1s主要是为了什么呢？是为了，防止反爬机制吗？那如果这样，设置成随机强制休眠是不是会更好？
3.我反复测试，好像被微博发现了，现在进不去微博了。然后等一时间又能进去了
4.当我进入微博的主页的时候，并没有保持登录状态，变成了无登录状态，要设置成保持登录状态吗？
5.作业
def unfollow(uid):
browser.get('https://m.weibo.com/u/'+str(uid))
already_concerned_button=browser.find_element_by_xpath("//div[@class='m-diy-btn m-box-col m-box-center m-box-center-a'][1]//span")
already_concerned_button.click()
time.sleep(1)
unfollow_buttom=browser.find_element_by_xpath("//div[4]//li[2]")
unfollow_buttom.click()
time.sleep(1)
confirm_buttom=browser.find_element_by_xpath("//div[@class='m-box-col'][2]")
time.sleep(1)
uid='1890826225'
# add_follw(uid)
unfollow(uid)
Geek_hve78z

2019-03-09 12:13:57

css_selector定位总结
https://www.cnblogs.com/yahutiaotiao/p/8044849.html

作者回复

不错的分享

2019-12-29 19:36:18
白夜

2019-03-08 14:50:44

老师，我想问问，每天学点心理学里的内容，是从哪里找来的？不怕被举报抄袭吗
静静呀

2023-10-23 16:45:10

xpath定位实在是太难了，整了半天还是定位错的，好难