国家知识产权局最新公告显示,杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利于4月1日正式公布。该技术旨在优化网页数据采集流程,通过智能筛选链接、分析内容质量及优化下载分配,显著减少低效或重复下载,从而提升数据质量并降低网络资源消耗。专利摘要指出,该系统采用独立的信息回灌队列设计,确保数据处理的稳定性,同时避免对目标网站造成流量冲击。当前,大语言模型训练依赖高质量、多样化的数据集,但传统采集技术常面临链接遗漏、过量访问及内容质量不足等问题。深度求索的解决方案有望为人工智能领域提供更高效的数据支持,推动自然语言处理技术发展。
扫码关注二维码
2025-03-26 20:58
2025-03-28 11:42
2025-03-27 11:08
2025-03-30 12:11
2025-03-27 18:37
2025-03-31 10:33
扫码加入社群
扫一扫
关注亿恩公众号