{dede:global.cfg_webname/}
  • English
  • 官方微信
  • 首页
  • 栏目名称
    • 测试
  • 第二个
  • 首页
  • 学院概况
    • 学院简介
    • 历史沿革
    • 机构设置
    • 现任领导
    • 历任领导
    • 联系我们
  • 师资队伍
    • 全职教工
    • 讲座 兼职教授
    • 重要人才计划
    • 退休人员名单
  • 人才培养
    • 本科生培养
    • 硕士生培养
    • 博士生培养
  • 科学研究
    • 学术交流
    • 重点学科
    • 科研机构
    • 科研团队
    • 科研成果
    • 讨论班
  • 党团建设
    • 党建动态
    • 工会活动
    • 团学工作
  • 理论学习
    • 主题教育
  • 合作交流
    • 国际合作
    • 校际合作
    • 校企合作
  • 招生就业
    • 招生信息
    • 就业信息
    • 招生宣传
  • 校友之家
    • 校友组织
    • 校友基金
    • 校友活动
    • 百年院庆
    • 校友动态
  • 院务信箱

学术交流

  • 学术交流
  • 重点学科
  • 科研机构
  • 科研团队
  • 科研成果
  • 讨论班

学术交流

Data organization limits the predictability of binary classification

日期:2025-05-21  作者:  点击:[]

题    目:Data organization limits the predictability of binary classification

主讲人:张子柯 教授

单    位:浙江大学

时    间:2025年5月24日 9:00

地    点:学院南阶教室


摘    要:The structure of data organization is widely recognized as having a substantial influence on the efficacy of machine learning algorithms, particularly in binary classification tasks. Our research provides a theoretical framework suggesting that the maximum potential of binary classifiers on a given dataset is primarily constrained by the inherent qualities of the data. Through both theoretical reasoning and empirical examination, we employed standard objective functions, evaluative metrics, and binary classifiers to arrive at two principal conclusions. Firstly, we show that the theoretical upper bound of binary classification performance on actual datasets can be theoretically attained. This upper boundary represents a calculable equilibrium between the learning loss and the metric of evaluation. Secondly, we have computed the precise upper bounds for three commonly used evaluation metrics, uncovering a fundamental uniformity with our overarching thesis: the upper bound is intricately linked to the dataset's characteristics, independent of the classifier in use. Additionally, our subsequent analysis uncovers a detailed relationship between the upper limit of performance and the level of class overlap within the binary classification data. This relationship is instrumental for pinpointing the most effective feature subsets for use in feature engineering. This work is generally has potential applications in data driven researches to quantitatively evaluate the dilemma of promoting algorithm performance and improving data quality.


简    介:张子柯,教授,博士生导师,浙江大学数字沟通研究中心副主任,浙江大学人工智能通识教育课程教材建设组副组长。主要研究兴趣为计算驱动的复杂社会系统。已正式发表期刊论文100余篇,引用6600余次,授权国家发明专利20项。主持国家自然科学基金3项,国家自然科学基金重大项目子课题,教育部人文社科重点研究基地重大项目子课题,欧盟第七科技框架、浙江省杰青等项目。荣获中国计算机协会自然科学二等奖、青海省自然科学三等奖、杭州市优秀学术成果一等奖等。近年来入选浙江省优秀教师、浙江省师德先进个人、浙江省中青年学科带头人、杭州市优秀教师、浙江省钱江人才计划等。兼任中国人工智能学会社会计算与社会智能专业委员会副主任、复杂性科学研究会秘书长,中国新闻史学会智能与计算传播专委会常务理事等。


上一条:迈向可解释的细胞命运建模:融合深度学习与机制模型的单细胞多组学驱动方法 下一条:种质资源数字化下的玉米株型关键农艺性状预测

【关闭】

友情链接

  • 学校教务处
  • 学校党委办公室
  • 学校校长办公室
  • 清华大学数学系
  • 浙江大学数学科学院
  • 上海大学数学系
版权信息