奇文学

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
某小勺的平凡生活

某小勺的平凡生活

写给自己……又名、、……......

万金娘子

万金娘子

【老六商户女VS腹黑权臣】800心眼子×2蜂窝煤夫妇都说平县的温家堆金积玉,就连吃饭的碗也是金子做的。可惜温老爷子嗣艰难,膝下只有两个女儿。眼瞅着温老爹病重,温家就要被族人们吃干抹净。刚穿越来的温婉表示很急。她极需一个听话又乖巧的赘婿——而奉旨下江南查案的淮安候魏峥遭人伏击,奄奄一息之际被人牙子打晕,连夜加急送到温婉的床榻上。失忆的魏峥变成温家赘婿赵恒。提剑索命的手也变成做羹汤的手。终于,温婉诊出喜脉,她毫不犹豫将魏峥药晕丢到五百里外的苍山雪林中自生自灭。而她头戴白花,臂缠黑纱,大摆宴席告别“暴毙而亡”的相公。提起那位温掌柜,平县的百姓们无不叹一句:这小娘子命苦!男人死了,带着老爹和一双儿女生活。别看她腰缠万贯,但她心里定然是苦不堪言。温婉拿罗帕擦拭眼泪,连连附和,生怕别人看出自己内心窃喜。直到后来,温家财富滔天惹人红眼,温婉锒铛入狱。办案的正是那位天下闻名的淮安候。温家跑前跑后散尽家财,案子却毫无进展。牢狱里,那青衫男子眉眼冷峻的问她。“温掌柜,听说你曾起誓终身不嫁为亡夫守节?”温婉瑟瑟发抖:大哥,已老实,求放过。...

北冥有鱼【探案】

北冥有鱼【探案】

古代女子地位低下,女仵作的地位更是低至尘埃。受尽家人折磨的林飞鱼逃离后跟随老仵作学习八年,却依旧不得官府和世人接受承认。在与落魄世家子程聿一起历经了王爷之死、鬼新郎、鲛人流珠、北冥少...

漂亮老婆请回家

漂亮老婆请回家

漂亮老婆请回家情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,漂亮老婆请回家-南音璃-小说旗免费提供漂亮老婆请回家最新清爽干净的文字章节在线阅读和TXT下载。...

玄门法医

玄门法医

当玄门大佬成为了一名职业的法医,那些看似无法破解的悬案就再也没有任何秘密,什么?没有目击证人,没有任何线索?那好办,贫道让死者自己指认凶手便是!灵异,鬼魂,斗法,你想要的应有尽有哦~......