智鸿
数据科学平台

产品简介

  数据科学平台是面向数据存储、数据获取、模型训练、模型部署以及结果预测一体化的一款大数据挖掘产品,该平台能够通过对大规模数据集的处理,提高数据处理效率,依据机器学习、深度学习模型进行模型训练,帮助用户提供准实时的建模能力,当面对数据碎片化和数据隔离时,通过加密机制下的参数交换方式建立虚拟的共有模型,在充分保障各个参与方的隐私信息和数据安全的同时,多方联合建模满足对特定的业务场景数据分析的需求。

产品架构

产品特色

  • 基于Hadoop分布式文件系统,有效处理超大规模数据集,具有稳定性高、可扩展性强的特点,并结合spark框架进行分布式数据预处理和算法实现,提供准实时的建模能力。

  • 内置多种算法模型,可在页面进行点击操作完成数据处理、算法选择,通过对模型的调用输入参数的配置,实现模型训练。

  • 通过准确率、召回率等指标来评价算法的效果;通过参数优化、算法调整等方式改进模型效果。

  • 内置联邦学习,支持同态加密、SecretShare、DiffieHellman等多方安全计算协议,法律合规认证,大幅降低数据合作壁垒。

  • 在联合建模过程中,各个参与方依据贡献度获取建模收益,对恶意参与方的数据和模型作弊行为可检测可抵御。

产品功能

  •   数据科学平台用户登陆使用LDAP用户登陆,基于LDAP可作为数据库的特点,通过目录结构的方式存储用户信息来响应用户查找需求。

  •   通过对PySpark与Scala内核的安装,实现启动内核环境时自动接入大数据平台,使用集群资源。

  •   数据科学平台支持常用的Python,R,Scala编程语言,通过在页面上点击新建可实现指定语言的使用。

  •   在建模的同时,终端用户可视化和度量模型训练的全过程,支持对模型训练过程全流程的跟踪、统计和监控等,提供模型运行状态、模型输出和日志等信息。

  •   平台支持逻辑回归、线性回归、k-means、PCA、SVM等模型,支持神经网络训练,无监督学习,通过参数的调优实现模型最优化。

  •   人工智能Pipeline调度平台致力于完成高弹性、高性能的学习任务,主要包括模型训练、模型管理、生产发布以及联邦建模过程中输入输出实时跟踪等。

  •   解决代码中的依赖模块缺失问题,可在平台提供的页面进行命令行安装以及自定义编程函数式安装。

  •   提供Kaggle比赛机器学习项目案例,提供样例数据。

应用场景

  • ——— 通用场景 ———

      适用于需要个性化数据分析业务场景,以数据驱动业务,为用户提供量身定制的服务,帮助企业迅速创收。

  • ——— 金融领域 ———

      金融领域中可利用数据科学平台进行风控建模,如信用卡交易反欺诈、信用卡申请反欺诈、信用卡用户流失预测等。

  • ——— 媒体领域 ———

      通过跟踪用户的浏览、评论、阅读时长等行为提供个性化的内容推荐,新用户能够享受实时推荐,有效解决海量新闻、视频的精准投放问题。

  • ——— 权益场景 ———

      通过分析客户标签数据、订单数据、权益方数据,在用户进入积分页面时,根据用户兴趣偏好和权益类产品的分类进行推荐,帮助用户快速找到最适合的权益产品。