上海AI实验室开源发布高质量语料“万卷CC”

上海AI实验室开源发布高质量语料“万卷CC”

在人工智能和自然语言处理(NLP)领域,数据集的质量直接影响到模型训练的效果。为了支持更大规模的模型训练,上海AI实验室近期推出了一个名为“万卷CC”的英文网络文本数据集。这个数据集的发布,标志着在构建大规模预训练语言模型方面迈出了重要的一步。 万卷CC数据集的构建过程是一项复杂的工程。它基于Com...

Facebook AI实验室开源相似性搜索库Faiss:性能高于理论峰值55%,提速8.5倍

在用户日常搜索过程中,一个经常出现的问题即大多数返回的网站结果拥有完全相同或者几乎一样的信息。而应用了相似性搜索的相似引擎即可为用户返回最恰当、最合适的结果,同时隐藏或者丢弃那些重复的数据。 但是,目前相似性搜索领域需要克服的难题即它的规模和运行速度。雷锋网近日了解到,Facebook的人工智能研究...

AI情绪鼓励师模型微调实操教学

1 课时 |
135 人已学 |
免费

跨越N次元 一键变身AI漫画人

1 课时 |
277 人已学 |
免费

AI社区开源学习实践

2 课时 |
141 人已学 |
免费
开发者课程背景图

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里云机器学习平台PAI
阿里云机器学习平台PAI
阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。
2435+人已加入
加入
相关电子书
更多
Lindorm一站式AI数据平台实战
Lindorm:打造AI时代的 一体化数据平台
Lindorm AI 能力介绍
立即下载 立即下载 立即下载