大学毕业被分配到某研究所工作,入职后先后跟着罗、高以及张师傅学习电子硬件设计以及汇编、C语言等编程。在各位老师的精心指导下,通过实践和培训,终于开始成长为一名电子技术工程师。
进所第二年,盛夏,开始参与一项系统的研发工作,项目当时很急,系统的技术负责人是张主任,其他的成员包括小柴、小倪等,都比较年轻。系统采用多DSP分布式控制,通过总线插卡扩展。我主要负责底层的数据采集、处理并存储到双口RAM中。
项目一开始进展良好,硬件设计调试和软件编写调试都按照预期进行。在进入系统联调后,项目被卡住了。我设计的板卡存储到双口RAM后,上位机读取错误,上位机通过双口RAM发给我的数据读取出来也不正确。这个问题整整折磨了我们好几天,期间做了大量的测试和仿真,始终找不出任何头绪。随着时间推移,项目组的气氛开始越来越紧张。问题是各自检查自己的设计和仿真数据都是正确的,一旦联调就不正确。开分析会时除了张主任依然是乐呵呵的调节气氛外,其他人都很焦虑。由于我的资历最浅,无形之中承担更大压力。
洛阳的夏天,白天很热,晚上没有空调的宿舍也是闷热难耐。夜里快12点了和老婆在宿舍楼下小花园乘凉。聊到项目被卡,数据总是出错时,老婆不经意说了一句“会不会是数据放错地方了”,突然灵光一现,马上骑上自行车直奔实验室,几分钟后就找到问题并得到验证,其实这只是因为系统设计中一个小疏忽导致的,很难说是谁的问题。问题找到了一切迎刃而解,第二天系统联调顺利过关,项目按照计划准时移交给需求方。
二十多年了,这件事始终萦绕在我脑海,让我获益良多:
1)项目越紧,项目负责人越要有定力,每当我负责的项目卡壳项目组人心浮动时,我就想起张主任的微笑,心情也马上会平静下来;
2)团队协助工作,涉及到系统级别的设计和联调时,表面上很奇怪的问题可能只是一点点的疏忽导致,既不能轻易怀疑别人的问题,也不能不信任自己的分析。遇到问题还是需要一点点抽丝剥茧,共同应对。现在不管遇到多么诡异的问题,我都会告诫团队成员,不要轻易说“绝不可能”等类似的话;
3)有时遇到技术上特别难理解和解决的问题,和所谓的外行聊聊天,没准会有意想不到的收获;其实在和外行解释的过程远比和内行解释困难,一件事情你能和外行解释清楚,必然要求你自己深入理解,在解释的过程中有些问题的答案自然就跑出来了。这些年来我经常采用打比方举例子等方式和非专业人士交流,效果往往很好。
4)勤奋真的很重要,特别是年轻人,不轻言放弃,遇事有钻研精神是技术上能有所成就的基本要求。只有亲身经历过一些磨难,才能终身受用。
电子工程师成长实录之教训系列之一:
2001年3月,因机缘巧合,我入职了A公司,主要从事指纹识别算法研究和相关产品开发销售。在美国911事件之前,指纹识别产品属于比较高冷的行业,属于很小众的高科技行业,单台产品售价和毛利率很高,但是销量很小。
我刚入职时是硬件工程师,参与指纹考勤门禁系统的研发工作,门禁系统研发完成后开始负责指纹门锁的软硬件研发工作。经过一段时间的研发后,基于指纹技术的门禁考勤机开始小规模生产销售。而且有两台销往东北地区,好像是沈阳的一家国企采购的。刚开始一切都很完美,毕竟有了客户而且每台有好几千元的利润。
没多久客户就打电话来投诉说考勤机坏了,因为涉及很多人的考勤问题,客户要求立即派人带上备用机器尽快赶过去更换。公司领导立即派了两个现场技术支持工程师乘飞机赶往东北,同时我们研发团队也紧急研讨故障的原因,但一时之间也没有头绪。
经过紧急处理更换后,两个人带着故障机赶回公司。拆开外壳后,大家发现原来是因为模具设计存在缺陷,电路板线缆的固定方式不太合理。加上装配工的疏忽,其中一根导线没有固定好,在扣上外壳时被压在卡槽里。由于卡槽扣合的力度很大,这根导线外皮已经破损,部分铜芯已经断裂,但没有完全断掉。因此出厂检验时一切正常。经过长途运输颠簸,加上考勤机是用在室外,东北地区的夜晚很冷,塑料外壳的收缩率远高于导线。就这样,一段时间后,这根导线就彻底断了,整个考勤机就坏掉了。
查明原因后,令人挠头的是没人知道刚刚更换的那台机器是否也存在同样的问题,不得已,公司领导又派人带着改进后的产品再赴东北进行更换。事后领导说这次两台机器的利润还不够人员两次往返的费用。
从此以后,但凡有电路板上接插件和导线需要和外壳配合时,我都会要求结构工程师一定要认真考虑线缆的走向和线束的固定问题,而且对于生产线的装配工艺反复核查,装配人员进行专业培训。
这些年来,看过很多故障电子产品,发现因结构装配不合理导致线缆松动、断裂等问题依然比较常见,电子产品的不良率中源于接插件和导线的部分占比很高。用过翻盖手机的很多人应该都有过换线的经历,家中的很多电器故障往往都是接插件松动接触不良。这类看似不起眼的小事从小处说可能是产品故障,客户投诉,从大处说可能导致机毁人亡。
作为电子工程师,这件事给我上了非常重要的一课,让我从此重视结构和线缆等小细节对产品的影响。
电子工程师成长实录之教训系列之二:
2005年,我在B公司担任hardware leader,负责宽带通信局端及终端设备硬件研发工作。B公司是日本C公司的全资子公司,也是它在国内设立的唯一的研发中心,日本C公司当时是全球最大的宽带通信设备供应商。
我们采用博通的方案成功开发出工业级ADSL局端和终端设备,该设备基于日本标准并主要应用于日本市场,当时已完成VCCI ClassA测试认证,正准备在日本工厂批量试生产。不过按照日本总部的要求,我们的任何设计或技术图纸改进完成后,都需要发送到总部进行资料初审,审核通过后再通过电话会议进行技术评审。VDSL项目设计图纸发到总部后很快收到一些改进要求和建议。记忆最深的一项是,总部工程师觉得得我们的保险丝熔断电流选择过大,要求更改保险丝规格,比如系统最大允许的工作电流是10A,我们的保险丝选择11A,而日方工程师建议选择9A。我们都知道保险丝的电流不能低于最大工作电流,因此我们团队成员包括我在内都觉得很不理解,甚至觉得提建议的工程师水平太低。
因为ADSL产品在日本工厂的试生产过程中发现有些问题,公司安排我立即赶赴工厂分析原因,经过现场分析测试后问题当天得到解决,而我也有机会见到那个提出保险丝建议的工程师。
提建议的是一位老工程师,据说在住友电工已经工作了几十年。当我说明来意后他带我到旁边的会议坐下后,又抱了好大一摞资料过来。他的英文水平在日本工程师中还算不错,不过日式发音确实比较难懂,而且有点磕磕巴巴,而我对日语的了解不超过从《地道战》等电影里鬼子军官说的几句话。好在大家都是工程师,技术资料有些是英文的,日文版本的很多汉字也能明白,再加上图表等,交流不存在障碍。
他很有耐心,不停的给我讲解各种资料,包括了保险丝供应商提供的规格书,不同系列的保险丝的工艺、特性、温度曲线等,可以看到很多资料关键点上都有标注。几乎整整一下午,从他那里我学习到大量的关于保险丝的知识及选取原则,技术沟通变成虚心讨教,对他的不屑变成了由衷的敬佩和尊重。
他是这么解释的:选取保险丝的目的是在系统工作状态异常时及时断开电源;保险丝因材料工艺不同种类各异,特性差异很大,我们选择的那款保险丝属于慢速响应性的热熔断丝,而热熔断的本质是流过保险丝的电流在期望的时间内热量的累积超过保险丝的熔断要求,这是一个关于电流的积分过程,而且重要的是熔断效应是非线性的,需要先根据期望熔断时间和规格书查找曲线图上合适的点后反推到合适电流;他经过仔细分析计算,我们这个项目最大电流持续时间极短,按照那个持续时间和最大电流的积分效应根本不足以熔断我们选择的保险丝,换句话说我们选择的保险丝根本达不到保险的目的;他是经过分析、查表最终计算出比较合适的规格并据此提出建议;
虽然这位老工程师的面容早已忘记,姓名也压根记不起,却唯独依旧记得那厚厚的资料,他详细的分析,严谨的推导计算,以及我当时的震撼和羞愧。从此之后,我努力去理解接触到的每一种元器件的基本原理,对别人设计中不理解的部分不敢妄加评议。
这些年,我接触过很多硬件工程师,也面试过许多硬件工程师,很遗憾很少有硬件工程师深入理解各种器件的原理和特性,每每看到那种无知而不屑的笑容,我仿佛就看到自己当年的影子。
电子工程师成长实录之教训系列之三:
2005年四月,我们研发的工业级ADSL局端和终端设备完成功能样机贴片和硬件测试,开始和软件团队进行系统联调。顺利开机、初始化完成、网络连接正常,一起顺利,大家纷纷开始憧憬起美妙的黄金周长假了。
不幸的消息很快从软件部反馈过来,经过初步测试,发现ASDL终端设备上行数据速率正常,但是下行数据速率远低于设计要求,和芯片规格书给出的指标相差甚远。按照常规流程,硬件团队马上进行电路测试,信号分析,供电检查等;软件团队进行驱动检查,特别是寄存器配置和数据分析等。大家乐观的认为,解决这种问题应该不算难事。
接下来几天,大家做了大量的工作。首先就是对问题进行定位,看看是因为硬件不良还是软件驱动存在问题。硬件方面首先对电路板进行完整的静态和动态测试,验证信号时序、逻辑、电平等,未发现明显异常。接着扩大硬件测试样品数量,确认同一批次的板子测试结果和不良现象高度一致,基本排除了因物料差异和贴装工艺导致的个体差异;软件工程师将各种可能导致Bug的问题进行模拟验证,对不同版本的驱动进行对比,对相关寄存器进行逐一排查,也未发现任何有价值的线索。一番折腾下来,没有什么进展,而五一长假开始了,没有什么好说的,取消一切出行计划,开始加班加点解决问题。
各种常规的方法无法突破后,我们开始进行各种交叉测试:将阿尔卡特和中兴等几家采用相同硬件方案的Flash芯片取下来,和我们板子上Flash芯片互换进行交叉试验,尽管采用的标准不一样,但除了启动时各家Logo不同外,其它功能基本没问题。别的公司的板子更换Flash前后均正常,而我们的板子更换前后下行速率始终不能达到指标要求。这基本确定了问题是出在硬件的设计上。
明确了问题范围,我们开始对硬件进行新一轮测试排查,测试的重点从时域转换到频域,果然通过频谱分析仪测试分析,发现在600KHz附近有严重的干扰,而这一频带正是是下行通道的主力通带范围,0到4KHz是音频通带,是低通滤波后接电话机用于语音通信的,25KHz到200KHz是数据上行频带,200KHz到1.1MHz是数据下行通带。
找到干扰频点后就继续追查干扰源,发现在距离通信驱动接口芯片比较远的的一颗DC-DC芯片的功率电感处存在2倍频600KHZ的较强干扰,继续分析发现该电源芯片的振荡频率为300KHz,而原来参考设计上的是同一家公司的非常接近的料号的一颗料,但原来的芯片振荡频率是600KHz,2倍频后是1.2MHz,已经超出了ADSL的1.1MHz的频带范围,但这颗料即将停产,所以后来电源供应商的FAE和我们的工程师沟通时极力推荐这颗新料,由于新老物料参数一致而且价格更低,工程师就选择了新料,由于料号几乎相同,工程师在送样测试时觉得输出电压、纹波系数和负载能力等指标都和老料一致,因而就选择了新料。
因为该芯片距离通信接口芯片较远,干扰源不是通过线间串扰过来而是通过空间耦合过来的,在时域范围内极难发现分析。问题定位后,通过在功率电感上增加屏蔽罩彻底解决了这个问题。但是七天长假已经过去了六天,而我也落下了腰肌劳损的毛病,直到几年后采用朋友的偏方才慢慢痊愈。
细细反思,至少有几方面的教训:细节真的很重要,任何物料的跟更换都要慎之又慎,每个参数都要搞清楚;基础知识真的很重要,如通信类的频带划分,调制方式,时域和频域的测试分析能力等;思路开阔、灵活应变,需要多维度思考问题。
电子工程师成长实录之教训系列之四:
在成长实录之教训系列之三中我有提到,2005年五一期间我们解决了ADSL局端及终端设备的频带干扰问题,初步测试下来功能正常,性能满足要求,终于可以交付到测试部门进行完整的测试。不出意料的,新问题来了。
测试工程师测试下来发现一个问题,设备正常工作一段时间后会莫名奇妙的自动重启,从开机到重启的时间每次不固定,而且手上的5台样机都存在同一问题。
接到测试报告后,软硬件团队开始联手进行系统调试。有系统开发经验的都知道,这个问题对工程师调试来说喜忧参半,喜的是这是一个必现的bug,相对来说问题比较容易复现和定位,问题是否得到解决比较好验证;忧的是这个问题出现的时间长短是随机的,功能都已实现,性能也达到要求,这种情况下的问题往往不简单,需要调试的工作量很大。
这个问题对于硬件部分比较常见的问题一般有电源设计不良、复位电路、晶振电路、过热保护、元器件不良、生产制程不良等;软件部分可能存在的问题有系统配置不正确、异常流程处理不当、内部看门狗不正确触发等。
硬件团队首先排查了可能存在制程问题,通过目视检查和X-ray照射,未发现明显异常;全面监测复位、供电和晶振等,均未发现自动重启时存在异常状态,通过对电路板全面的热监测也未发现存在过热区域;软件团队也对可能存在的问题逐一排除,未发现任何异常。调试陷入僵局,项目一时无法进展。
没办法,软硬件团队再次回到对故障现象的分析梳理,重新拟定测试方案,寻找重启时的共同点。经常大量的测试,终于发现当系统传输大容量数据时出现重启概率要大很多,而那种很轻负载状态的设备重启几率较小,时间间距也会拉开更大。找到规律不代表就能找到确切问题点,甚至更加让人迷茫。
当所有的分析测试都没有结果时,我们重新回到对生产制程的分析,由于主控芯片和MAC芯片都是BGA封装,电路板本身是10层板,大部分走线都是走在内层,对我们的排查来说困难重重。经过不懈努力,发现主控芯片到MAC的16根地址线因走线和贴装工艺存在瑕疵而有虚短路现象,其中一根和地之间的阻抗由正常的10兆欧左右降为1兆欧左右,由于检查BGA贴装质量的X-ray主要检查是否存在短路或断路问题,对于虚短是很难检查出来的。由于该地址线并未短路,在初始化或低速率传输数据时问题不大,但当大容量数据高速传输时,地址线之间的差异就会显现出来,导致程序运行异常而触发内部看门狗,从现象上看就是系统自动重启。
经验教训:不是能够正常工作了硬件就万事大吉,还要关注压力测试和长时间测试;阻抗匹配很重要,对于很多问题,数据线和地址线等对地阻抗测试会告诉我们很多信息;嵌入式系统的调试一定要有系统概念,软硬件及测试团队的通力协作是快速发现问题、定位问题和解决问题的前提和保证,很多现象是多种因素引起的,只有经多细致分析,大胆推测、反复验证才能解决问题。
电子工程师成长实录之教训系列之五:
常言道人靠衣衫马靠鞍,在一个拼颜值的社会,外观和结构设计对电子产品也变得越来越重要。消费类电子不用说,即使是工业类电子产品,外观靓丽、结构精巧的产品也会让产品更具竞争力。在多年的项目开发中,关于外观结构设计方面我就有过一次失败教训,每每想起还是记忆犹新。
那是十多年前,我带领团队从事网络流媒体智能监控系统的硬件研发和生产工作。系统采用世界首颗基于MPEG-4硬件压缩处理芯片,美国国家半导体的486主控平台,以太网和ADSL通信方式,具有音视频同步、本地数字化和网络传输、高达300:1数据压缩比、DVD画质等诸多优点,和当时传统的采用多DSP软解压方案相比具有明显技术优势。团队由电子、机械结构、测试、产品化及生产工艺等工程师构成,负责从研发到大规模量产全部工作。公司正准备去香港上市,而且预交了在北京举行的一个大型展会相关费用,项目的研发进度必须要保证。因为采用技术过新,团队克服了蓝屏、音视频分离、闪屏等重重困难,完成了原理样机验证,接下来就是工程样机研发。
工程样机研发阶段就需要考虑很多工程化的因素,而首当其冲的就是外壳和结构定型设计。那时没有3D打印,CNC快速打样也很昂贵,基本都是确认原理样机功能满足要求后才正式开始外壳设计和开模等。基于时间和经济性考虑,主要是开模周期及费用问题,首先排除了塑料外壳开模;考虑到批量产品单价问题,进一步排除了铝合金外壳;最终决定采用钣金冲压模外壳。
接下来就是根据电路板尺寸及散热需求决定了外壳的外形尺寸和安装方式;根据电脑效果图选择了一款简洁的矩形设计,采用黑色钝化工艺,大红色Logo;考虑到工业级产品现场安装和使用时的防护强度采用了比较厚实的板材。因为距离参展的时间太紧,直接下了几十套进行小批试制。然后,经过无比焦虑的催促和漫长等待后,终于在必须启程去北京布展前两天外壳到了。
所有的人都惊呆了,这个外壳真的不是一般的丑,黑乎乎的一块傻大粗笨的砖头,电脑效果图上闪亮的黑色钝化效果由暗淡无光的黑漆取代,笔直的缝线在钣金工艺上根本实现不了,效果图上美丽的大红的Logo在实际套印后显得很突兀,很多地方因为钣金工艺和材料原因都无法达到设计要求。但已经没时间更改了,咬牙带领团队忙碌了两天,最后一天全体熬了一个通宵,这也是我到上海后唯一的一次通宵加班。通过各种胶粘钉铆,在参展团队出发前一刻将测试通过的样品完成交付。
后来的事情可以想见,据参展的同事说,我们的产品是全场最丑的展品,没有之一。痛定思痛,经过彻底改进,终于满足了相关要求,实现大批量量产。
几点教训:外壳的ID设计需要专业的工业设计人员;永远不要相信效果图;尽早启动外壳设计,现在可以充分利用3D和CNC技术。
电子工程师成长实录之教训系列之六:
作为电子研发的老兵,面对各种纷繁复杂的问题,加班加点是家常便饭,绞尽脑汁甚至抓狂是常态。经常发现当项目进展到你想砸掉设备的时候,再坚持一步你就成功了。但是有一个项目却因为坚持,到现在每每想起我都心痛郁闷不已。
2006年,我在上海一家公司从事动态令牌的研发生产工作。公司是一家纯软件公司,在我入职前没有硬件部门。作为硬件部经理,负责创建团队、样机研发和后续大规模生产。工作压力很大,但是工作氛围很好,同事们相处很愉快。
当时这个动态令牌的技术正在快速在各行业推广应用,开始主要是用于保障跨国企业的网络登陆安全,2002年就是通过NS的FAE首次接触到这个东西,该技术的先行者是RSA,当时NS就是RSA定制的。后来随着银行的账户密码经常被盗,各大银行也开始推广动态密码器;那几年网络游戏超级火爆,随之而来的是游戏账号安全问题,并因盗号而发生过几起比较轰动的诉讼,网游公司开始陆续采用动态令牌来保障游戏账号的安全。
当时国内从事动态密码器研发生产的公司并不多,而能拥有自主知识产权的公司更少。公司创始人是剑桥大学毕业归国的海归,拥有基于SHA256算法的动态密码的核心专利技术,而SHA256在当时比其他的公司的技术整整领先一代;公司的投资人是美国IDG和5173。
我当时的主要工作就是采用合适的单片机,实现基于SHA256算法的动态密码器。SHA256算法相当复杂,有大量的矩阵和回归迭代运算,对于单片机实现基于时间的动态令牌来说存在以下难点:较大RAM空间;高速计算能力;超低功耗;超高可靠性;超低价格。
由于以上各项之间存在冲突,同时满足这些相互矛盾的需求其实非常困难。
我先在PC机上用C语言编程实现算法,仿真后发现RAM的需求最精简最少也超过2KB,如果移植到单片机上加上各种初始化和控制代码,RAM的需求接近3KB,2006年的时候能有3KB的RAM的单片机极为稀少而且价格极高。不得已,我选择用汇编语言编程,综合运用很多编程技巧,如采用程序空间换RAM空间,多次迭代的RAM动态分配回收等,最终花费了一周时间,将RAM需求降到409Byte,因当时已经有不少单片机的RAM空间达到512Byte,彻底解决了RAM空间不足的问题;
硬件上采用激光焊接锂电池以及晶振匹配和整体固定,软件上由于采用的是汇编语言,计算效率和可靠性远超C语言编程;采用了深度睡眠等技术平均功耗降到3.4uA,一块CR2032的电池可以工作超过3年,达到了超低功耗的要求。
当时有三款满足技术要求的单片机,分别是TI和台湾某公司的8位机、富士通的16位机,由于超低价格的要求,我们选择了台湾的单片机。
很快样机出来了,功能和性能测试OK,1K的样品生产出来了功能和性能都OK,但是经过一段时间后发现存在一定比例的样机功耗很大,电池很快就没有电了。拆开测试,未见异常,换装电池后功能正常;期间怀疑过晶振停振、电池松动、静电干扰、电路板异常、软件跑飞、芯片不良等;多次请供应商及代理商的技术人员一起分析,甚至寄实物到台湾请原厂分析,结论均是未见异常。
在测试分析和不懈坚持中,我又分别将代码成功移植到TI和富士通的单片机,但是这时国内做动态密码器的厂商开始多起来,他们采用的都是上一代简单的加密算法,虽然安全性不够,但对单片机要求很低,而且外观上看不出任何差异。在成本的压力之下,新的单片机导入工作在公司层面一直未能真正进行,生产订单开始源源不断,又掩膜定制50K的Dice片。
坚持了很久,通过对500套样品的排查,终于发现是因为该单片机的内在BUG,P64管脚IO口寄存器配置会在休眠期间发生反转,高低电平一旦反转后就开始快速放电。
问题查清了,但是对公司来说损失已经非常巨大,包括客户流失和口碑等。这是我工作以来遇到的最难复现、最难模拟、最难分析的问题,也是对公司造成影响最巨大的问题。
教训主要有以下几点:
1、 样机开发阶段过于考虑低成本方案往往会导致灾难性后果,优先选择口碑好的大品牌产品完成技术验证和生产销售,然后逐步降本;
2、 如果硬件问题没有得到解决,一段时间后还没有进展需要及时止损,切换不同方案,这时一味的坚持往往付出更加惨痛的代价;
3、 表面上的硬件问题有时其实是软件配置导致,但深层次原因可能还是硬件不良,遇到这种极难复现的问题尤其要当心;
4、不要迷信芯片公司,所谓原厂的技术支持其实是有限的,所谓的分析报告有时无非是一个免责的托词,而且这种深层次的问题很难追责。
电子工程师成长实录之教训系列之七:
2010年春节刚过,我受托创建公司的上海分公司,开始从事矿山自动化设备电控系统的研发和生产工作。
第一个项目就是要研发煤矿采煤工作面液压支架电控系统。液压支架是一个高达7米、宽近3米、自重约45吨、单架顶板负重能力超过400吨的庞然大物。全系统需要180架左右的支架组成,在地下几百米深的采煤工作面上形成一个长度超过300米的巷道。支架系统支撑整个工作面,保护人员和设备不受伤害。这个庞大系统还需要随着采煤机的不断移动而移动,具有手工和自动模式。每架支架有多达11组22个关节动作,电控系统需要通过对电磁先导阀的精确控制进而控制液压主阀,最终控制支架按照实际生产需求进行各种动作或是成组甚至是全系统自动运行。系统安装在采煤机作业现场,是井下生产人员最集中、爆炸性气体和粉尘最严重、空气最潮湿并有强烈腐蚀性的地方,需要高度的安全性,采用本安防暴设计,外壳防水等级达到IP65。行业内一位老教授曾说过液压支架电控系统是煤矿自动化设备中最复杂的电控系统之一。
液压支架系统井下现场图
组建之初,一个人、两间空办公室、四张工作台、一本德国玛柯的系统操作说明书和一些简单的预研资料就是全部的家当。我从没接触过自动化设备,更别说矿山自动化设备(^_^),在上海想找到有矿上自动化设备研发经验的软硬件工程师也是极为困难的。
经过大约6个月,团队已经有十多个人,我完成了方案书起草和通信帧格式制定,带领团队研发出15台原理样机,并顺利通过总公司组织的专家评审。
我一点也高兴不起来,因为自始至终有个问题困扰着我。那就是如何保证180架之间的可靠快速通信。可能是因为通信专业出身,从开始就深知这么庞大的实时联动系统稳定可靠的通信是项目成功的关键。原理样机的评审因为样机数量少,大家更关注的是单台设备的控制流程,对于系统级别的通信延时、误码率、可靠性及方案成本等没有太多考虑。
当初调研下来发现国内外屈指可数的几款产品都对技术资料严密封锁,从对操作手册里只言片语的分析,推断出他们采用的都是CAN或PROFIBUS等现场总线,基本都是干线并联加本地串联通信方式。这种方式听起来很好,但实际带来的问题也很多。通过实际走访矿上和深入矿井第一线,这些公司的系统其实都还存在一些通信问题。矿山专用的线缆强度和工艺要求很高,采用双绞线方式抗干扰能力很强,但是需要的通信线芯太多,线缆和接插件加工难度大,采购成本高;采用单线方式结构简单成本便宜但抗干扰能力太弱,通信速度太低。另外采用并行加串行的方式需要至少三个独立通信端口,而通常ARM器件都只有两个CAN接口。在各种纠结中只能摸索前进,为了简化系统软件控制流程和降低系统成本,我们先采用并行CAN总线方案。
原理样机评审结束后,我对系统通信能力的担忧更加强烈,决定重新评估技术方案,经过慎重思考和分析,部分也是总结当年研发动态令牌的惨痛教训,力排众议将方案改成串联CAN总线双绞线方式,彻底放弃并联总线,这意味着团队辛苦六个月的软硬件架构全部推倒重来。
针对大家的不理解甚至质疑,我是这么分析的:
并联CAN总线理论节点超过110个,实际70多个后就需要加CAN Bridge,这个技术难度并不低而且效果未知;
超过300多米和180个节点的规模,并行总线的传输速率要很低,通信误码率很高,系统管理难度很大,而且要精确实现控制器和支架支架一一对应难度很大;
串行方式不存在无法实现的技术难点,通信延时和可靠性要求可以通过提高通信速率和命令分级传输等方式解决;
系统的研发周期会压缩,硬件成本也会大幅度降低;
很快采用新架构的样机研制成功,于2012年10月完成型式定型、2012年底投入沙坪煤矿生产,2013年中投入斜沟煤矿生产。国内外技术资料的封锁带来的最大好处是我们拥有完全自主知识产权,不过采用了uCOS-II没有付费(^_^)。
几点经验教训:
1、 项目负责人不能因循守旧或存在思维定势,应因地制宜选择自己团队最有把握实现的技术方案;
2、发现项目存在难以克服的技术问题时,即使面临全部工作推倒重来也在所不惜,而且应该越早越好,这些损失的时间会因为方案优化调整而弥补回来;
3、集思广益没错,但是作为技术领头人需要综合平衡各种因素,关键时刻需要也要敢于拍板决策,犹豫不决会导致更加后续更加被动。
电子工程师成长实录之教训系列之八:
对公司来说,生产销售的产品有时难免存在质量问题,一般来说,软件BUG最容易处理,升级一下版本就解决了;外壳部分通常是掉漆变形等影响外观但不影响正常使用;电子部分如果出现质量问题往往就会涉及退货、召回等售后服务,经济损失巨大;如果是因设计或制造缺陷,产品在存储或使用中冒烟、起火、爆炸等安全问题就是灾难了。Note7的电池起火事件对三星公司就造成了巨大打击。这些年来我也亲身经历过两次产品的电池起火事件,至今心存余悸。
当年在研发生产某型号电子设备时,需要定制一批红外遥控器。去深圳考察了好几家专业的遥控器厂商,通过对比测试,最终选定一家供应商。遥控器比较普通,采用机顶盒公模,只是按键的功能重新分配了一下。样品测试OK,在公司老板一再压价后最终以极低的价格正式订购2000套。正式产品到货后发现和样品不同,整体变轻变脆而且手感很差;电池盒处没有了电池之间的分隔板;用于电池正负极接触的弹簧变软而且很多焊接歪斜。联系供应商得到的说法是原来的模具坏了,这是采用另外的模具生产的。并且信誓旦旦的保证这套模具生产的产品已经大批量供货从没有客诉品质问题。因为销售等不及了,老板要求工厂先挑选1000套用于发货,而且为了产品形象和以后向供应商索赔(老板原话)否定了我们加胶固定弹片的建议。
发货后不久接到用户投诉,他将我们的遥控器放在皮沙发上,居然遥控器自燃了,将崭新的沙发烧焦一大片,好在发现及时没有造成更大火灾。看到客户发过来的图片,电池部分已经烧焦变形严重。经过分析,缺少分隔板的两节电池安装歪斜加上弹片和弹簧的品质等因素,两节电池正负极短路后发热直至起火燃烧。
直到这时,公司才意识到问题的严重性。立即答应客户的索赔要求;逐个联系客户提示风险,对于担心安全的客户无条件退货;不惜成本紧急订购新的遥控器快递给所有用户。一番折腾,损失惨重。
我们的产品售价是1499元,遥控器供应商报价是每只四元,实际采购价不到三元。遥控器供应商只答应退货,其它一概不管。后来了解到所谓的模具坏了纯属谎言,他们是觉得价格太低,转包给其它的小公司生产了。
后来在另一家公司,参与处理过两起锂电池自燃着火事件,一起烧坏了地板,一起烧坏了桌面,好在因为产品外壳是阻燃材料,未导致更大的火灾。技术分析发现锂电池电芯有品质问题,电池保护板参数设置不合理,更要命的是居然没有过温保护功能。深究原因还是因为成本问题。
这两件事给我的教训:
电源无小事,出事很要命;
成本很重要,安全更重要;
电子工程师在面对成本压力时很无力,但还是应该尽量坚持品质优先;
再低的价格也有厂商接单,但品质嘛,只能是呵呵呵呵了。
作为曾经的小白到如今的老鸟,以上就是我这20年的一些经验教训分享。希望看到这篇文章的你能从中学到一点有用的东西。
作者:张发林
免责声明:本文系网络转载,版权归原作者所有。如本文所用视频、图片、文字如涉及作品版权问题,请在文末留言告知,我们将在第一时间处理!本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。
在公众号内回复您想搜索的任意内容,如问题关键字、技术名词、bug代码等,就能轻松获得与之相关的专业技术内容反馈。快去试试吧!
由于微信公众号近期改变了推送规则,如果您想经常看到我们的文章,可以在每次阅读后,在页面下方点一个「赞」或「在看」,这样每次推送的文章才会第一时间出现在您的订阅列表里。
或将我们的公众号设为星标。进入公众号主页后点击右上角「三个小点」,点击「设为星标」,我们公众号名称旁边就会出现一个黄色的五角星(Android 和 iOS 用户操作相同)。
聚焦行业热点, 了解最新前沿
敬请关注EEWorld电子头条
http://www.eeworld.com.cn/mp/wap
复制此链接至浏览器或长按下方二维码浏览
以下微信公众号均属于
EEWorld(www.eeworld.com.cn)
EEWorld订阅号:电子工程世界
热门跟贴