手机版 欢迎访问某某自媒体运营网(www.baidu.com)网站

当前位置: 主页 > 分析

抖音下载批量爬取 主页|喜欢|合集 视频|图片

时间:2024-03-12 13:21|来源:网络|作者:佚名|点击:
本帖最后由 QingTianGG 于 2023-10-23 16:08 编辑

现在程序能干啥
爬取下载抖音的 主页、喜欢、合集、收藏 里的 视频、图片、封面、音乐,可以自定义视频和(图集)图片保存时候的命名,在【config.ini】中 配置,会自动跳过已经下载的文件,可以批量下载,在【DownloadList.txt】中配置。

【2023年6月9日】
biqiang大佬的采集工具更新了。https://www.52pojie.cn/forum.php?mod=viewthread&tid=1740248     biqiang大佬小黑屋了
安逸丫大佬的采集工具也更新了。https://www.52pojie.cn/thread-1728830-1-1.html        好像还在维护,最近出问题了
本工具努力保持现有功能先用着吧。

程序报错怎么报
尽可能描述操作过程,然后把目录下Log目录的日志发上来,以便我复现定位问题及时修复。

下载
已打包程序和代码:
https://wwsd.lanzoue.com/b047lcidg
密码:d4wf
使用方法:先下载抖音爬虫20230116.1的两个压缩包,把.cfg后缀删掉再解压。然后下最新的程序包替换文件就行。
【各位顺手给个热心值评分吧

更新
【V20230629.1】
修复自己的收藏下载

【V20230626.1】
修复cookie字段,可以下载互关的私密账号的视频

【V20230616.1】
抖音主页的视频加载方式只有部分区域变了,微调一下代码

【V20230615.2重发版】
之前打包错文件了,需要下载这个

【V20230615.2】
修改了视频和图集的判断规则
解决了配置文件注释被清空的问题
抖音主页的视频加载方式改变,调整代码

【V20230613.1】
增加了自动保存和加载cookie的功能

【V20230608.1】
修改了视频和图集的判断规则,修复了封面和音乐的保存命名错误

【V20230518.1】
处理了一下作者名字里有特殊字符的问题

【V20230412.1】
评论区给了登录后可以顺利加载的方案,增加了扫码登录,确实可以

【V20230411.1】
抖音对主页的视频加载做了非常严格的反爬策略, 连正常的访问都没办法正常的加载视频,这个暂时无解了。可以手工辅助加载一下视频,只要能加载出来,就能下载。
抖音对验证码页面也做了cookie认证,这次是通过访问初始页面加载cookie的,但是这样验证码就不知道什么时候出来了。
先凑合着用吧,GUI版本先不改了

【V20230208.1】
更新了强制选择视频清晰度,默认关闭,可在配置文件里打开
发布了GUI版本

【V20230131.1】2023年1月31日01:46:16
更新了标题判断,跳过用户不存在及私密账户

【V20230130.1】2023年1月30日02:43:41
更新了用户状态判断,跳过用户不存在及私密账户

【V20230127.1】2023年1月27日23:27:32
更新了合集下载的首页数据处理判断,修复报错
增加了主页下载只下首页功能,默认关闭,可在配置文件里打开

【V20230118.1】2023年1月18日03:28:18
更新了用户头像、视频封面、视频图文音乐下载,默认关闭,可在配置文件里打开
增加了快速下载功能,发现数据已经下载过,则不再抓取后续内容,可减少爬取列表,极大加快速度,默认开启,可在配置文件里关闭

【V20230116.1】2023年1月16日23:02:42
更新了自带的谷歌浏览器至V109,增加了下载失败自动尝试,修改了DownloadList的填写类型

【V20230115.2】2023年1月15日23:21:35
增加了批量下载功能

【V20230115.1】2023年1月15日17:00:21
重构了程序,增加了日志traceback输出
复用浏览器,实现了一次人机认证多次下载

2023年1月13日14:28:57
更新了自己的收藏的下载功能,修改了key为自动识别,避免出现key37、38的问题

2023年1月13日02:46:58
更新了自定义视频和图片命名的功能,如果看不懂的就不要动config.ini文件了,采用获取数据后替换命名规则参数的方式形成文件名。
优化了一下代码和注释,重复代码挺多的,后续可以优化

2023年1月11日12:30:04
单独用py3.6打包了win7版本的,放在lanzou盘里了,用手头的win2008R2测试了能运行

2023年1月10日21:41:21
直接把V2接口的代码全删了,同时在py3.8的环境下进行了打包,win7应该也能用了,主页、喜欢、合集下载和断点续下功能都测试没问题

2023年1月10日18:13:46
抖爸爸把s_v_web_id重新加入了cookie,但是V2接口的认证应该是改了,得调整一下程序的判断逻辑,程序暂时用不了(合集可能可以用)
另外为了保证程序能在win7下运行,重新弄了py3.8的环境,有些代码要改一下

2023年1月10日16:53:37
合集下载忘了指定浏览器启动路径了,修复一下

2023年1月10日14:38:44
1、增加了图集下载功能,文件命名里描述的字段取了50个字符,初步测试没遇到报错,如果有报错的大家发链接和日志吧。
2、有几个还待查的点:
    (1)合集里面如果有视频被删了,那么第几集的顺序不知道会怎么变,这个会影响断点续下的功能
    (2)一挂代{过}{滤}理就会报错Max retries exceeded with url,这个问题我没找到原因
3、抖音的活动开始了,方便的帮忙扫个助力(づ ̄3 ̄)づ╭❤~

2023年1月8日21:03:27
发现合集接口是能用的,直接用就行了。调整让视频下载512B直接报异常,暂停下载。后续重启访问后会自动跳过已经下载过的视频。

2023年1月8日15:40:25
修复喜欢列表下载,修改手动滑动为自动滑动,调整文件命名为【作者名_描述_视频ID】,以便自动跳过已经下载的视频,进行断点续下

2023年1月8日01:15:58
v1接口的参数全部参与运算,搞不定,转向抓取Network.responseReceived的数据,修复了抓取主页功能

2023年1月6日21:25:09
发现抖音不给关键的cookie,s_v_web_id,接口失效了……发现晚上这个时间段又用上了v1接口,而且校验还多,明天看看会不会恢复v2接口

Copyright © 2002-2022 首页-雷神娱乐电商新闻发布站 版权所有

平台注册入口