全球主机交流论坛

标题: 求一个爬虫的解决方案。技术佬请进。 [打印本页]

作者: akatom 时间: 2025-3-15 23:10
标题: 求一个爬虫的解决方案。技术佬请进。
google的notebookml，没有api。这个notebookml主要作用就是读论文，返回一些文章的摘要。

试问各位大佬，我用python写个爬虫还是什么样子的自动化工具，然后买一台服务器，我通过一些方式（服务器搭建一个Django或者springboot的接口）上传这个需要阅读的论文，然后获取到这个文件之后，python写一个自动化的脚本，例如使用selenium，或者drissionpage，进行提交到这个notebookml（是一个在线网址，需要国外的服务器），然后这个notebookml会生成一些内容，然后通过爬虫把这些内容获取到之后，再用Django写个api 暴露这些内容，传给一个自动化的平台（make or coze）这样是不是就可以发不到公众号上了？请问大佬这些步骤是不是有哪些是可以优化的？谢谢各位大佬。

作者: 悲伤的K 时间: 2025-3-16 00:50
看起来好复杂

作者: akatom 时间: 2025-3-16 20:10
其实不复杂

作者: 千手如来 时间: 2025-3-16 20:38
用高铁不是就行了何必这么复杂还去搞个爬虫

作者: jep 时间: 2025-3-16 20:44
论文不都是有现成的摘要吗

作者: 伊吹風子 时间: 2025-3-16 20:45
思路可行，但逆向api得自己慢慢搞，并随时失效，碰到其他风控也无解，工程量比你想象的要大得多。

作者: Ausxilia 时间: 2025-3-16 21:10
感觉我一个外行都觉得你技术栈有点落后了

用playwright 代替selenium, 用fastapi代替Django

作者: akatom 时间: 2025-3-16 21:18

伊吹風子发表于 2025-3-16 20:45
思路可行，但逆向api得自己慢慢搞，并随时失效，碰到其他风控也无解，工程量比你想象的要大得多。 ...

不逆向，直接使用selenium 这种解决方案

作者: wg198300 时间: 2025-3-16 21:19
去看看抓包吧，这个都没有任何加密，直接就能获取，简单到不能再简单

作者: host0108 时间: 2025-3-16 21:25
我也觉得，搞这么复杂，对性能没要求，直接上webkit

作者: akatom 时间: 2025-3-16 21:49

host0108 发表于 2025-3-16 21:25
我也觉得，搞这么复杂，对性能没要求，直接上webkit

能解决上面的一套流程吗

作者: sulong 时间: 2025-3-17 09:42
写个fastapi 传入数据后调用selenium 读取到之后直接返回json或者txt给coze 理论可行但是建议是找下上传的api 可能会好一些 selenium 可能会出现一些意想不到的问题

作者: akatom 时间: 2025-3-17 13:16

sulong 发表于 2025-3-17 09:42
写个fastapi 传入数据后调用selenium 读取到之后直接返回json或者txt给coze 理论可行但是建议是找下上传 ...

是这样子的，谢谢bro

作者: akatom 时间: 2025-3-17 21:12

作者: xiaolaohu 时间: 2025-3-17 22:10
估计上传多了各种验证码就来了

欢迎光临全球主机交流论坛 (https://fd.vvwvv.eu.org/)