
位从初中物理教师转型AI家具司理的引申者,用两天时期造了个能会诊学生物盼望维诞妄的AI系统。没偶而期布景、莫得工程师支柱,仅凭教学教化和全心计算的Prompt玉树锚索价格,他告捷构建起笼罩力学、光学等章节的诞妄宗旨常识库,并在压力测试中发现了白话化表述、规模场景处理等要津问题。这篇著述揭示了域常识在AI家具中的中枢价值,以及如何通过主动测试发现确凿问题。
我是名初中物理教师,教了四年书,当今在转行作念AI家具司理。
两天前,我决定不再仅仅”学习AI家具”,而是径直脱手作念个。
这篇著述记载我这两天作念了什么、发现了什么、踩了哪些坑。没偶而期布景的东谈主也能看懂,因为我我方也没偶而期布景。
我想惩处个确凿的问题教了四年物理,有件事直困扰我:我知谈班里某几个学生”没听懂”,但我说不明晰他们到底卡在那儿。
他们能背公式,能作念大略题,但际遇需要信得过合并宗旨的题目就崩掉。传统的老师只可告诉我”答错了”,告诉不了我”为什么会这么想”。
而学生在课堂上的发问和回话,赶巧藏着确凿的想维情状。比如个学生说:
“古道,汽车开得越快,惯就越大,否则为啥速行驶时刹车要滑那么远才停得下来?”
这句话里藏着个特地典型的诞妄——他把惯和动能混浊了。但在40东谈主的课堂里,这条信息说完就肃清了,从来莫得被系统地记载和分析过。
我想作念的,便是个能分析这类对话的AI系统。
我有什么,莫得什么我有的:
四年教学教化,脑子里装着几十条学生常犯的诞妄。我知谈学生在讲”惯”时容易说出什么诞妄,在讲”浮力”频频见的歪曲是什么。这些东西是任何AI工程师齐莫得的。
我莫得的:
不会写代码,莫得工程师,莫得作事器,莫得预算。
天津市瑞通预应力钢绞线有限公司就这两样东西,我运转了。
步:把脑子里的东西写下来我作念的件事,不是搭系统,不是学时期,而是开个文档,把我顾虑中典型的学生诞妄场景写下来。
身手很大略:
我写了10条,笼罩了参照物、摩擦力、均衡力、浮力、光学等章节。
这10条场景数据玉树锚索价格,自后成了总共这个词系统中枢的东西。它们同期上演了三个角:测试集(用来判断系统会诊得准不准)、常识库种子(让系统知谈学生常犯哪些错)、需求文档(告诉系统应该输出什么身手的遵守)。
二步:用Prompt模拟总共这个词系统莫得工程师,莫得代码,我用的是大略的式——径直给大模子写段详备的辅导(Prompt),让它上演”物理学情会诊”的角。
Prompt的中枢结构是这么的:
常识库摘要:把我写的诞妄宗旨库浓缩成几十行翰墨,告诉模子”学生常犯哪些错、诞妄的根因是什么”输出身手要求:强制模子用JSON身手输出,包含常识点、掌捏度等、淆乱点类型、引问题等字段理要求:要求模子须按三步输出理经由,不成径直给论断然后我把学生对话粘贴进去,看系统输出什么。
条测试的输出让我认为这个向是对的:
常识点识别准确,淆乱点判断正确,锚索引问题有确凿课堂价值。
三步:主动制造压力测试跑了5条圭臬场景之后,我莫得得志于”系统运行渊博”,而是主动构造了三种规模情况来测试系统果真凿才略。
测试:无极白话表述把学生原话改得白话化:
“古道用了动滑轮之后嗅觉粗莽多了,是不是作念的功也少了?”
遵守:系统会诊向正确,但莫得掷中常识库里的对应条件(因为常识库里写的是”省力就能省功”,而不是”嗅觉粗莽多了”)。
这泄漏了个确凿问题:常识库每个条件唯有种圭臬表述,白话化的变体会致检索失。
建树案:为每个诞妄宗旨补充3~5条白话化变体。
测试二:常识库规模测试输入个常识库里莫得笼罩的问题:
“铁块会千里是因为铁比水重,那相通分量的铁和木头,木头能浮起来是因为它相比轻吗?”
遵守:系统莫得老诚说”这个问题出了我的常识库领域”,而是强行匹配了个左近的条件,置信度给了0.85。
这是个风险问题。教师看到0.85的置信度会倾向于信任这个遵守,但本色上系统的会诊依据不是你构建的常识库,而是模子我方的老师数据,法回顾和考据。
这个问题靠休养辅导只可部分缓解,根底惩处需要在工程层面加入相似度阈值过滤。这是下阶段需要工程师来惩处的事。
测试三:情谊淆乱识别输入个莫得物理内容的表述:
“古道我不会,这章我从来就没听懂过,算了。”
遵守出乎猜度地好:系统正确识别了”法会诊”的情状,识别出了”悔怨”的样式信号,并把引战术从”常识纠错”切换成了”情谊安抚+降维拆解”——
“不要害,这谈题咱们先不看。你认为浮力这章哪个部分难?”
这种分离才略在现存AI莳植家具里并不常见。许多家具在学生说”我不会”的时候会径直送常识点素养,反而加剧惊恐。
两宇宙来,我作念了什么构建了个笼罩力学、压强、浮力、光学四个章节的诞妄宗旨常识库(11个条件)写出了个可用的会诊Prompt(迭代到v2.2版块)跑完毕13条测试(10条圭臬场景 + 3条压力测试)圭臬场景通过率:10/10()发现并记载了5个已知问题,其中3个已建树输出了完好意思的POC回来阐扬和测试数据我学到的紧迫的事:域常识是稀缺的金钱。
总共这个词阵势里,时期部分(写Prompt、调身手)其实不难,难的是”知谈学生会犯什么错、为什么会犯、怎么引”。这些东西来自四年的线教学教化,不是学AI能学来的。
如若你有某个域的度教化,这便是你作念AI家具大的护城河。
二:压力测试比圭臬测试有价值。
10条圭臬场景沿途通过,这个数据看起来很好意思瞻念。但信得过有价值的发现,沿途来自3条压力测试——白话化表述的检索失、规模场景的拒答机制不富厚、情谊淆乱的识别才略。
个只在盼望输入下测试的AI家具,上线之后会际遇各式出东谈主料想的情况。提前主动制造规模情况,比比及用户反应再建树要好得多。
三:发现问题比惩处问题紧迫(在POC阶段)。
我在阐扬里老诚记载了系统目下作念不到的事:规模场景的置信度虚问题,靠休养辅导法根,需要工程层面惩处。
能澄澈界说系统规模的家具司理,比只描摹好意思好愿景的家具司理值得信任。
接下来这个POC考据了中枢向是可行的。下步是把常识库膨大到电学章节,同期运转评估引入信得过的RAG工程框架(LangChain + 向量数据库),从”手动模拟”升到”信得过的系统”。
本文由 @YM 原创发布于东谈主东谈主齐是家具司理。未经作家许可,淆乱转载
题图来自Unsplash,基于CC0合同
相关词条:管道保温施工 塑料挤出设备 预应力钢绞线 玻璃棉厂家 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定玉树锚索价格,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。




