「你需要重新评估一下你的能力能不能做出一个完整的项目。」
「你的功能模块太多,除了文本训练还有图像识别,尽管网页开发比软件开发难度低,可你依然要顾及前后端衔接,你只有三个月,如果仅单人开发,我对你的时间和精力持怀疑态度。按照赛事介绍,这并不是一个创新概念赛,亦或者是理论赛事,你最终需要进行完整的运行测试和用户测试,做旅游领域的交叉应用是个正确的方向,但我建议你谨慎评价自己的开发能力和数据处理能力。」
很客观的评价和建议。
陈嘉彗心里清楚,原老师提到的点的确是她企图忽略的地方。
这个赛事的参赛队伍都很强,陈嘉彗又是抱着至少入围的目标参加的,一二三等奖是不太可能了,特别奖倒是有争取一二的余地,特别奖在项目完整度的基础上,更加看重创新,所以陈嘉彗才在文本智能交互的基础上加了智能推荐和图像识别的功能,她也不确定这些附加功能可以实现多少。
如果为了保证完成而砍掉功能,能否入围就悬了,未免可惜。
陈嘉彗回复原老师之后,立马开始找图像识别相关的开源训练集,找了半天,依旧没有找到合适的。
就在她即将放弃的时候,GitHub上一个动物识别项目引起了她的注意。
这个项目最早创建于2014年,持续更新到现在,已经积累了非常可观的stars。陈嘉彗翻了一下,建模思路跟她需要解决的问题是相匹配的,但是这个作者的方法需要长期大量图像训练,陈嘉彗不确定这是个团队项目还是别的什么,如果她也采用这个方法,三个月肯定是不够的,图像训练需要的算力比文本要多得多,训练难度也更大。
考虑再三,陈嘉彗决定暂时放弃这个功能模块。
这个作者……陈嘉彗的鼠标指针停在主页许久,应该真的非常热爱动物吧,尤其是狗狗。
Ta似乎不只是想要做物种或品种识别,而更像是要做到一对一的精准识别,这比人像识别要难得多,同一品种的动物细微的毛发差异就会导致识别模糊,想要达到目的得花很多时间和很强的算法能力。
这么多的训练记录中,出现频率最高的动物是狗,尤其是金毛。
可能作者家里养了金毛。
作者主页所有的项目源代码全都是开放可打包下载的,看得出来ta是真的很希望大家都能参与进来。
陈嘉彗点了关注。
吃完晚饭,陈嘉彗继续泡在论文和技术论坛里。
她必须找到一个合适的,AI文本训练的创新点,在此之前,她需要充分掌握transformer和bert,同时前端和后端开发的熟练度也要捡回来。
在此之外,大量的训练也需要足够的算力和数据储备,这又是需要发愁的问题。
原老师的邮件给陈嘉彗提了个醒。前世她在公司参与这个类似项目的时候,算力和数据资源都由公司搞定,她只要向上级打申请就行,然而现在是自己在做非商业项目,这两项资源必须自行从学校或者其它渠道找到解决方案,大纲还未提交,这些事项就要提前规划起来了。
全神贯注在论文和论坛里泡了四五天,创新点依旧没有定下来。要么时间和资源条件无法满足,要么她能力不足,要么创新点过于大众化,陈嘉彗点开赛事项目大纲提交界面,呆坐良久,长叹一口气,点击了确认提交按钮。
她最终还是听从原老师的建议砍掉了图像识别模块,并且没有加入新的创新点。
三个月从0到1,即便她有前世两年硕士基础,以及相应的工作经验,也无法彻底扭转一人参赛的劣势。陈嘉彗也不是没想过找本校计院的同学组队,但这个节骨眼上几乎所有的学生已经组队完成,即便有零星几个落单的,也宁愿找和数院或者经济学院的学生组队,也不会贸然和她这个明面上此前从未学过计算机,且坚持做自己的方向的人组队。
AI这个方向当下是个热点和新方向,但是还远没有2023年之后全民皆知那么火爆,物联网和云计算的提及次数反而要高许多。
现在这个阶段,参赛队伍的项目主题还未公布,参照去年的项目列表能够看出来AI、物联网、智慧城市、云计算等是主流参赛方向。陈佳慧选的AI旅游交叉主题归根到底还是在AI的大方向内,竞争比较激烈。
陈佳慧只是为未来三个月的自己默哀了一秒,随即开始准备各阶段的工作布置。
无论结果如何,先做了再说。
同为计算机强校,学校很重视这次赛事,给参赛队伍配备了半层机房,比赛的这3个月内,参赛学生凭借学生卡可以24小时使用,机房里的监控也24小时开着,这是赛事委员会的要求。
机房按照5人一组的标准配置进行了队伍划分,参赛队伍编号对应位置组号。
当陈佳慧第一天刷卡进机房的时候,还没有多少人关注她,直到一周过去,大家发现K-0027组的5个座位一直只有1个人在,不免有些好奇起来,时不时瞥向她。
陈嘉彗对此毫无察觉,她已经着手数据收集和清洗,并开始配置bert模型预训练。
单兵作战对陈嘉彗来说是劣势也是优势,她前世实打实参与了AI商业项目的执行,这些经验让她很清楚不同的训练和优化阶段会遇到什么坑,从而避免过去。如果和人组队,不免要花许多时间和口舌解释她为什么选择这个方案而不是那个方案。
接下来的将近一个月里,陈嘉彗除了吃饭睡觉和必要的课,其余时间全泡在机房里。数据清洗-模型训练-进度检测,陈佳慧的10月就在日复一日中很快过去。
经过一个月的熟悉,机房里的其他选手已经单方面认识她了,有部分比较闲且好交际的选手想趁着她休息的间隙跟她打招呼,没想到陈佳慧根本没有休息的时候,每次众人结伴出去吃饭的时候,K-0027组的那个女生在跑代码,众人轮换去睡觉的时候,K-0027在清洗数据,第二天众人陆续到自己的组准备看测试结果的时候,K-0027已经开始写检测日志了。
“她是哪一届的啊?这么拼。我感觉被卷到了。”
K-0019组的组员在线上群聊聊开了。
“不是信院的,我问过了,信院所有参赛队伍里没这号人。”
“那就是经济学院的吧。”
“管院的,旅游管理系酒店管理专业大三学生。”
“啊???这合理吗?”
“你别管合不合理,人家确实很拼。”
“这,她能做出啥啊,也不找个计算机专业的搭档。”
“可能是组不到队伍,我同学说上个月比赛报名快结束的时候,有个酒店管理专业的大三生求组队,校园帖子下面没人回应。”
“好惨。”
“还有人嘲讽她呢。”
“啊?”
“那个帖子我去围观过,有人问她有没有辅修计算机,她回复说没有,后来又有人问她要不要进组做执行和写论文,她拒绝了,因为她想做项目主导,然后被群嘲,之后帖子就被删了。”
“嘶,这姐姐真是有勇气。无知者无畏。”
“所以不用被她打乱节奏,她可能也一头雾水呢。”
“说的也是,待会午饭去吃什么?”
“二食堂黄焖鸡米饭。”
“喂,已经连续三天黄焖鸡米饭了啊,怪不得你大学三年没女朋友,黄焖鸡是你真爱吧……”
秋意更浓时,陈嘉彗几乎住进了机房。她买了个折叠床,带了一个小毯子,困了就定个闹钟睡一会,醒来去卫生间洗把脸刷个牙回来继续手头的工作。
核心功能的bert模型已经预训练完毕,接下来需要针对旅游规划助手的具体功能进行参数微调,每个功能模块需要准备数千条标注数据,陈嘉彗自己抓取的公开数据和学校的资源并不能满足需求。
这个阶段,陈嘉彗还必须开始网页前端界面开发和交互系统设计,即便获得海量可用数据,也无法自行标注,没时间了。
她有些烦躁地挠挠头,长叹一口气,盯着屏幕右下角跳动的时间出神。
如果是前世她就职的那家公司,一定储存了很多标注好的数据,而且刚好匹配她的需求。这个时间,他们应该还没开始启动AI方向的项目,如果她记得没错的话,项目正式立项是在2021年才启动,现在是2018年,早着呢。
一个念头突然闪过脑海,心跳逐渐加速,陈嘉彗打开赛事官网,划到赞助商一栏,居然真的看到了公司的名字。
天无绝人之路,陈嘉彗不自觉嘴角弯起。
她记下对应的赛事赞助方联系号码,将电脑熄屏,带着手机,走出机房。
A大交叉学院,呈佳树骑着自行车回到自己租的校内公寓后,登上自己的github账号,准备上传最新的模型演练数据,发现自己的历史上传项目多了好多star,就像是有人点进他的主页把每一个project全都star了一遍。
Follow也多了几个,呈佳树点列表,最新的一个follower是名为“cjhgogo”的用户,主页一片空白,貌似上个月才注册。
呈佳树愣了愣,微微歪了下头,有些迷茫地看着自己的github主页,呆了几秒,然后回过神来,开始上传自己的训练数据。
梦远书城已将原网页转码以便移动设备浏览
本站仅提供资源搜索服务,不存放任何实质内容。如有侵权内容请联系搜狗,源资源删除后本站的链接将自动失效。
推荐阅读