自己的算法连续两次运行消耗时间差20倍 - OMAP-L138 - 嵌入式开发者社区 - 51ele.net
设为首页收藏本站

嵌入式开发者社区

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 6239|回复: 3

[已解决] 自己的算法连续两次运行消耗时间差20倍

[复制链接]

2

主题

4

帖子

1040

积分

金牌会员

Rank: 6Rank: 6

积分
1040
发表于 2018-8-14 09:19:59 | 显示全部楼层 |阅读模式
本帖最后由 bobhi009 于 2018-8-16 12:00 编辑
$ |+ ~& W+ Y, u, y) Z
. I2 \) m' f5 E5 u( f5 H6 ~8 p环境: 创龙提供的mcsdk (linux3.3 + bios6 + syslink): K% E6 k9 T- m8 b  A% B
自己的算法连续两次运行消耗时间差20倍, 而且跟算法本身应该没有关系, 因为算法在dsplink 的开发环境下是运行的没有问题的9 l/ x8 J2 J" `+ |; G) o
应该是mcsdk这套开发环境的影响。 有谁知道是什么原因?
% D/ r0 ]) q! `9 f9 s- A
6 {3 Y* G. w6 i3 @# W/ V+ y
6 A1 g" m+ y+ V8 v3 B
下面是统计结果: e# o) I. p* y; j& P
统计方法: 通过EMUCNT0 EMUCNT1 寄存器统计算法执行周期 再除以主频得到运行时间    
& S- z7 ?$ N' m, }) Semucycle0_0 = EMUCNT0;: [( }, h; Q) m; u; |! Z0 z% @4 d
emucycle1_0 = EMUCNT1;
2 C! O# \' \) a$ [$ }emucycle0_1 = EMUCNT0;
7 s# g$ j4 e3 bemucycle1_1 = EMUCNT1; - A8 B! ?% ^: k, Z" q
emuoverhead = (emucycle0_1 - emucycle0_0);, E# q% i! a  k: w
' A5 s+ V! o+ U8 y. i. L4 F& }
算法();6 _5 \4 R. U  R- x( B

4 z5 _, G; _5 `: Vemucycle0_1 = EMUCNT0;& v/ A2 r) w4 Q& N  H
emucycle1_1 = EMUCNT1;
% h" I  J7 Q+ O" |5 v+ |5 H! A9 c/ ]& @4 Y8 _: W
Cycle = ((emucycle0_1 - emucycle0_0) - emuoverhead) * 4;/ ~9 E% O( |9 g) d6 C
& K- D2 y7 e1 ?: a7 z4 v# T

, M$ K% V5 ~3 U, j) c4 \% D# T统计结果: 每隔一次, 数据处理的时间会是前一次的将近20倍
. N; n& l% n* i4 Y9 b7 b; n7 J$ ] DSP> cycles: 196468  :  11814000, ]& t- M3 c/ u  g( j" y
DSP> times: 430.85 us with CPU 456.' }( ?7 t( v; @, w+ D! h; F
DSP> cycles: 3238292  :  118140002 ^- n1 `" w6 d7 d
DSP> times: 7101.52 us with CPU 456.
1 U) V$ p" c4 ]. B& n DSP> cycles: 157860  :  11814000
+ U( v5 M  L( w4 ?$ B( s9 d9 a DSP> times: 346.18 us with CPU 456./ b7 {; {! H" R5 Q- Q/ k
DSP> cycles: 3265684  :  11814000
1 I4 e. i" F: l* J DSP> times: 7161.59 us with CPU 456.7 z% H5 U# c& X+ \
DSP> cycles: 156344  :  118140001 D' u5 h9 A3 O" _% ~  m/ S5 e
DSP> times: 342.86 us with CPU 456.
5 }# l& A" h# n6 \ DSP> cycles: 3304428  :  11814000
6 G) C( n: x/ {; U0 a( M DSP> times: 7246.55 us with CPU 456.
; s" O3 S* F* E2 D, O6 O: c
! X6 o6 Z( u3 j) `: J/ C设置:相应的表放到IRAM中了) {+ f) F4 X) v' g7 g
SECTIONS* q2 C  `5 c) h# s! j
{' t/ }3 n' W; m' F2 q/ L
    .edma_data>IRAM  align = 0x80$ Y( l% O/ P8 w4 k, O  l+ U4 X
    .audio_glb> IRAM align = 0x80
( |$ [( m- p0 W) k8 m, ~4 |. j$ z        .f_table>  IRAM,  align = 0x80 ' E* L( h- D$ r, \
        .f_text>  DSP_PROG,   align = 0x80 $ I8 ?* N  |- w- m) Z5 @  [
        .f_glb> IRAM align = 0x800 _9 D- m% F3 ]! A' H/ E: i
        .ref_glb > IRAM align = 0x80* ^" Q3 `2 L- ]# D0 @
}
% Y7 B* L0 U7 {* D2 ?" l$ {9 }/ S
" V( w+ i( R" T( z3 o9 o4 ^! ?/ e6 p0 `
编译加了-O3 优化参数
2 \6 X6 p. t7 u& z3 k7 z5 s% E/ x2 }( [# Q* ?* x- ^0 d+ z

6 T2 c- w4 r7 [( Z% _$ \* H3 H

3 U. S: C& _! j; L$ y! E! k0 |( z" H3 K5 _& F) ~0 [
8 d0 x3 T+ z  m/ h- b* O! i% J/ ?

& z1 O8 Y/ S5 Q) W, x
回复

使用道具 举报

3

主题

524

帖子

2083

积分

创龙

Rank: 8Rank: 8

积分
2083
发表于 2018-8-14 15:48:56 | 显示全部楼层
您好,根据您的描述,暂时不能排查到具体的原因。建议您:可以先不跑双核,单跑dsp的情况下,测试算法的性能,再判断是否是syslink或双核的影响。
回复 支持 反对

使用道具 举报

8

主题

31

帖子

160

积分

注册会员

Rank: 2

积分
160
发表于 2018-8-14 19:16:54 | 显示全部楼层
想请问下您是在LINUX环境下使用MAKEFILE编译双核工程的嘛?另外SECTIONS中的内容是在.CMD文件中编辑的嘛?
回复 支持 反对

使用道具 举报

2

主题

4

帖子

1040

积分

金牌会员

Rank: 6Rank: 6

积分
1040
 楼主| 发表于 2018-8-16 12:03:03 | 显示全部楼层
1. 简单的说下原因, 由于创建任务时 , 由于栈空间地址较大, 所以更换了栈空间的地址, 这导致栈空间新的申请地址是没有开启cache的 , 所以开启栈空间地址的缓存就可以解决问题1 o5 l; x, J& S% E8 q
$ A, D! S- R3 L! n) I2 }
2. 相差20倍是算法本身的特性, 偶数帧的计算量比较大
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|嵌入式开发者社区 ( 粤ICP备15055271号

GMT+8, 2024-3-29 18:57 , Processed in 0.038262 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2015 Comsenz Inc.

快速回复 返回顶部 返回列表