SPRUI30 User guide

SPRUI30H November 2015 – May 2024 DRA745 , DRA746 , DRA750 , DRA756

1
Read This First
1. Support Resources
2. Glossary
3. About This Manual
4. Information About Cautions and Warnings
5. Register, Field, and Bit Calls
6. Coding Rules
7. Flow Chart Rules
8. Export Control Notice
9. DRA75x, DRA74x MIPI® Disclaimer
10. Trademarks
1 Introduction
1. 1.1 DRA75x, DRA74x Overview
2. 1.2 DRA75x, DRA74x Environment
3. 1.3 DRA75x, DRA74x Description
4. 1.4 DRA75x, DRA74x Family
5. 1.5 DRA75x, DRA74x Device Identification
6. 1.6 DRA75x, DRA74x Package Characteristics Overview
2 Memory Mapping
1. 2.1 Introduction
2. 2.2 L3_MAIN Memory Map
  1. 2.2.1 L3_INSTR Memory Map
3. 2.3 L4 Memory Map
  1. 2.3.1 L4_CFG Memory Map
  2. 2.3.2 L4_WKUP Memory Map
4. 2.4 L4_PER Memory Map
5. 2.5 MPU Memory Map
6. 2.6 IPU Memory Map
7. 2.7 DSP Memory Map
8. 2.8 EVE Memory Map
9. 2.9 TILER View Memory Map
3 Power, Reset, and Clock Management
1. 3.1 Device Power Management Introduction
  1. 3.1.1 Device Power-Management Architecture Building Blocks
  2. 3.1.2 Power-Management Techniques
2. 3.2 PRCM Subsystem Overview
  1. 3.2.1 Introduction
  2. 3.2.2 Power-Management Framework Features
3. 3.3 PRCM Subsystem Environment
4. 3.4 PRCM Subsystem Integration
  1. 3.4.1 Device Power-Management Layout
  2. 3.4.2 Power-Management Scheme, Reset, and Interrupt Requests
5. 3.5 Reset Management Functional Description
6. 3.6 Clock Management Functional Description
7. 3.7 Power Management Functional Description
8. 3.8 Voltage-Management Functional Description
9. 3.9 Device Low-Power States
10. 3.10 PRCM Module Programming Guide
11. 3.11 546
12. 3.12 PRCM Software Configuration for OPP_PLUS
13. 3.13 PRCM Register Manual
4 Dual Cortex-A15 MPU Subsystem
1. 4.1 Dual Cortex-A15 MPU Subsystem Overview
  1. 4.1.1 Introduction
  2. 4.1.2 Features
2. 4.2 Dual Cortex-A15 MPU Subsystem Integration
  1. 4.2.1 Clock Distribution
  2. 4.2.2 Reset Distribution
3. 4.3 Dual Cortex-A15 MPU Subsystem Functional Description
4. 4.4 Dual Cortex-A15 MPU Subsystem Register Manual
5 DSP Subsystems
1. 5.1 DSP Subsystems Overview
  1. 5.1.1 DSP Subsystems Key Features
2. 5.2 DSP Subsystem Integration
3. 5.3 DSP Subsystems Functional Description
4. 5.4 DSP Subsystem Register Manual
6 IVA Subsystem
7 Dual Cortex-M4 IPU Subsystem
1. 7.1 Dual Cortex-M4 IPU Subsystem Overview
  1. 7.1.1 Introduction
  2. 7.1.2 Features
2. 7.2 Dual Cortex-M4 IPU Subsystem Integration
  1. 7.2.1 Dual Cortex-M4 IPU Subsystem Clock and Reset Distribution
    1. 7.2.1.1 Clock Distribution
    2. 7.2.1.2 Reset Distribution
3. 7.3 Dual Cortex-M4 IPU Subsystem Functional Description
4. 7.4 Dual Cortex-M4 IPU Subsystem Register Manual
8 Embedded Vision Engine
1. 8.1 Embedded Vision Engine (EVE) Subsystem
2. 8.2 ARP32 CPU and Instruction Set
  1. 8.2.1 Overview
  2. 8.2.2 Features
  3. 8.2.3 Block Diagram
  4. 8.2.4 Architecture
  5. 8.2.A Instruction Set
    1. 8.2.A.1 Instruction Operation and Execution Notations
    2. 8.2.A.2 Instruction Syntax and Opcode Notations
    3. 8.2.A.3 Instruction Scheduling Restrictions
    4. 8.2.A.4 Instruction Set Encoding
    5. 8.2.A.5 Instruction Descriptions
      1. ABS
      2. ADD
      3. ADD
      4. ADD
      5. ADD
      6. ADD
      7. AND
      8. AND
      9. B(cc)
      10. B(cc)
      11. B(cc)
      12. BIRP
      13. BKPT
      14. BNRP
      15. CALL
      16. CALL
      17. CLR
      18. CLR
      19. CMP
      20. CMP
      21. CMP
      22. CMPU
      23. CMPU
      24. CMPU
      25. DIV
      26. DIVU
      27. EXT
      28. EXT
      29. EXTU
      30. EXTU
      31. IDLE
      32. LDB(U)
      33. LDB(U)
      34. LDB(U)
      35. LDB(U)
      36. LDB(U)
      37. LDB(U)
      38. LDB(U)
      39. LDB(U)
      40. LDH(U)
      41. LDH(U)
      42. LDH(U)
      43. LDH(U)
      44. LDH(U)
      45. LDH(U)
      46. LDH(U)
      47. LDH(U)
      48. LDW
      49. LDW
      50. LDW
      51. LDW
      52. LDW
      53. LDW
      54. LDW
      55. LDW
      56. LDRF
      57. LMBD
      58. MAX
      59. MAXU
      60. MIN
      61. MINU
      62. MOD
      63. MODU
      64. MPY
      65. MPYU
      66. MV
      67. MVC
      68. MVC
      69. MVC
      70. MVCH
      71. MVK
      72. MVKH
      73. MVKLS
      74. MVKS
      75. MVS
      76. MVS
      77. NEG
      78. NOP
      79. NOT
      80. OR
      81. OR
      82. RET
      83. REV
      84. ROT
      85. ROTC
      86. SADD
      87. SATN
      88. SET
      89. SET
      90. SHL
      91. SHL
      92. SHRA
      93. SHRA
      94. SHRU
      95. SHRU
      96. SLA
      97. SSUB
      98. STB
      99. STB
      100. STB
      101. STB
      102. STB
      103. STB
      104. STB
      105. STB
      106. STH
      107. STH
      108. STH
      109. STH
      110. STH
      111. STH
      112. STH
      113. STH
      114. STW
      115. STW
      116. STW
      117. STW
      118. STW
      119. STW
      120. STW
      121. STW
      122. STHI
      123. STRF
      124. SUB
      125. SUB
      126. SUB
      127. SUB
      128. SUB
      129. SWI
      130. XOR
      131. XOR
  6. 8.2.B Clock, Reset, and Dynamic Power Management
    1. 8.2.B.1 Introduction
    2. 8.2.B.2 CPU Reset Modes
    3. 8.2.B.3 Dynamic Power Management
  7. 8.2.C Notes on Programming Model
    1. 8.2.C.1 Booting
    2. 8.2.C.2 Enabling and Disabling Interrupts
      1. 8.2.C.2.1 Globally Enabling or Disabling Maskable Interrupts
      2. 8.2.C.2.2 Enabling or Disabling Individual Interrupts
    3. 8.2.C.3 Stack Usage in Interrupt Service Routine
    4. 8.2.C.4 General Restrictions
3. 8.3 VCOP CPU and Instruction Set
9 Video Input Port
1. 9.1 VIP Overview
2. 9.2 VIP Environment
3. 9.3 VIP Integration
4. 9.4 VIP Functional Description
5. 9.5 VIP Register Manual
10Video Processing Engine
1. 10.1 VPE Overview
2. 10.2 VPE Integration
3. 10.3 VPE Functional Description
4. 10.4 VPE Register Manual
11Display Subsystem
1. 11.1 Display Subsystem Overview
2. 11.2 Display Controller
3. 11.3 High-Definition Multimedia Interface
  1. 11.3.1 HDMI Overview
    1. 11.3.1.1 HDMI Main Features
    2. 11.3.1.2 HDMI Video Formats and Timings
      1. 11.3.1.2.1 HDMI CEA-861-D Video Formats and Timings
      2. 11.3.1.2.2 VESA DMT Video Formats and Timings
123D Graphics Accelerator
1. 12.1 GPU Overview
  1. 12.1.1 GPU Features Overview
  2. 12.1.2 Graphics Feature Overview
2. 12.2 GPU Integration
3. 12.3 GPU Functional Description
4. 12.4 GPU Register Manual
  1. 12.4.1 GPU Instance Summary
  2. 12.4.2 GPU Registers
    1. 12.4.2.1 GPU_WRAPPER Register Summary
    2. 12.4.2.2 GPU_WRAPPER Register Description
132D Graphics Accelerator
1. 13.1 BB2D Overview
  1. 13.1.1 BB2D Key Features Overview
2. 13.2 BB2D Integration
3. 13.3 BB2D Functional Description
4. 13.4 BB2D Register Manual
  1. 13.4.1 BB2D Instance Summary
  2. 13.4.2 BB2D Registers
    1. 13.4.2.1 BB2D Register Summary
    2. 13.4.2.2 BB2D Register Description
14Interconnect
1. 14.1 Interconnect Overview
  1. 14.1.1 Terminology
  2. 14.1.2 Architecture Overview
2. 14.2 L3_MAIN Interconnect
3. 14.3 L4 Interconnects
15Memory Subsystem
1. 15.1 Memory Subsystem Overview
2. 15.2 Dynamic Memory Manager
3. 15.3 EMIF Controller
4. 15.4 General-Purpose Memory Controller
5. 15.5 Error Location Module
6. 15.6 On-Chip Memory (OCM) Subsystem
16DMA Controllers
1. 16.1 System DMA
2. 16.2 Enhanced DMA
17Interrupt Controllers
1. 17.1 Interrupt Controllers Overview
2. 17.2 Interrupt Controllers Environment
3. 17.3 Interrupt Controllers Integration
4. 17.4 Interrupt Controllers Functional Description
18Control Module
1. 18.1 Control Module Overview
2. 18.2 Control Module Environment
3. 18.3 Control Module Integration
4. 18.4 Control Module Functional Description
5. 18.5 Control Module Register Manual
6. 18.6 IODELAYCONFIG Module Integration
7. 18.7 IODELAYCONFIG Module Register Manual
19Mailbox
1. 19.1 Mailbox Overview
2. 19.2 Mailbox Integration
3. 19.3 Mailbox Functional Description
4. 19.4 Mailbox Programming Guide
  1. 19.4.1 Mailbox Low-level Programming Models
5. 19.5 Mailbox Register Manual
  1. 19.5.1 Mailbox Instance Summary
  2. 19.5.2 Mailbox Registers
    1. 19.5.2.1 Mailbox Register Summary
    2. 19.5.2.2 Mailbox Register Description
20Memory Management Units
1. 20.1 MMU Overview
2. 20.2 MMU Integration
3. 20.3 MMU Functional Description
4. 20.4 MMU Low-level Programming Models
  1. 20.4.1 Global Initialization
5. 20.5 MMU Register Manual
  1. 20.5.1 MMU Instance Summary
  2. 20.5.2 MMU Registers
    1. 20.5.2.1 MMU Register Summary
    2. 20.5.2.2 MMU Register Description
21Spinlock
1. 21.1 Spinlock Overview
2. 21.2 Spinlock Integration
3. 21.3 Spinlock Functional Description
4. 21.4 Spinlock Programming Guide
  1. 21.4.1 Spinlock Low-level Programming Models
    1. 21.4.1.1 Surrounding Modules Global Initialization
    2. 21.4.1.2 Basic Spinlock Operations
      1. 21.4.1.2.1 Spinlocks Clearing After a System Bug Recovery
      2. 21.4.1.2.2 Take and Release Spinlock
5. 21.5 Spinlock Register Manual
  1. 21.5.1 Spinlock Instance Summary
  2. 21.5.2 Spinlock Registers
    1. 21.5.2.1 Spinlock Register Summary
    2. 21.5.2.2 Spinlock Register Description
22Timers
1. 22.1 Timers Overview
2. 22.2 General-Purpose Timers
3. 22.3 32-kHz Synchronized Timer (COUNTER_32K)
4. 22.4 Watchdog Timer
23Real-Time Clock (RTC)
1. 23.1 RTC Overview
  1. 23.1.1 RTC Features
2. 23.2 RTC Environment
  1. 23.2.1 RTC External Interface
3. 23.3 RTC Integration
4. 23.4 RTC Functional Description
5. 23.5 RTC Low-Level Programming Guide
  1. 23.5.1 Global Initialization
    1. 23.5.1.1 Surrounding Modules Global Initialization
    2. 23.5.1.2 RTC Module Global Initialization
      1. 23.5.1.2.1 Main Sequence – RTC Module Global Initialization
6. 23.6 RTC Register Manual
  1. 23.6.1 RTC Instance Summary
  2. 23.6.2 RTC_SS Registers
    1. 23.6.2.1 RTC_SS Register Summary
    2. 23.6.2.2 RTC_SS Register Description
24Serial Communication Interfaces
1. 24.1 Multimaster High-Speed I2C Controller
2. 24.2 HDQ/1-Wire
3. 24.3 UART/IrDA/CIR
4. 24.4 Multichannel Serial Peripheral Interface
5. 24.5 Quad Serial Peripheral Interface
6. 24.6 Multichannel Audio Serial Port
7. 24.7 SuperSpeed USB DRD
8. 24.8 SATA Controller
9. 24.9 PCIe Controller
10. 24.10 DCAN
11. 24.11 Gigabit Ethernet Switch (GMAC_SW)
12. 24.12 Media Local Bus (MLB)
25eMMC/SD/SDIO
1. 25.1 eMMC/SD/SDIO Overview
  1. 25.1.1 eMMC/SD/SDIO Features
2. 25.2 eMMC/SD/SDIO Environment
  1. 25.2.1 eMMC/SD/SDIO Functional Modes
    1. 25.2.1.1 eMMC/SD/SDIO Connected to an eMMC, SD, or SDIO Card
  2. 25.2.2 Protocol and Data Format
    1. 25.2.2.1 Protocol
    2. 25.2.2.2 Data Format
3. 25.3 eMMC/SD/SDIO Integration
4. 25.4 eMMC/SD/SDIO Functional Description
5. 25.5 eMMC/SD/SDIO Programming Guide
  1. 25.5.1 Low-Level Programming Models
    1. 25.5.1.1 Global Initialization
      1. 25.5.1.1.1 Surrounding Modules Global Initialization
      2. 25.5.1.1.2 eMMC/SD/SDIO Host Controller Initialization Flow
        
        25.5.1.1.2.1 Enable Interface and Functional Clock for MMC Controller
        
        25.5.1.1.2.2 MMCHS Soft Reset Flow
        
        25.5.1.1.2.3 Set MMCHS Default Capabilities
        
        25.5.1.1.2.4 Wake-Up Configuration
        
        25.5.1.1.2.5 MMC Host and Bus Configuration
    2. 25.5.1.2 Operational Modes Configuration
6. 25.6 eMMC/SD/SDIO Register Manual
  1. 25.6.1 eMMC/SD/SDIO Instance Summary
  2. 25.6.2 eMMC/SD/SDIO Registers
    1. 25.6.2.1 eMMC/SD/SDIO Register Summary
    2. 25.6.2.2 eMMC/SD/SDIO Register Description
26Shared PHY Component Subsystem
1. 26.1 SATA PHY Subsystem
2. 26.2 USB3_PHY Subsystem
3. 26.3 USB3 PHY and SATA PHY Register Manual
4. 26.4 PCIe PHY Subsystem
27General-Purpose Interface
1. 27.1 General-Purpose Interface Overview
2. 27.2 General-Purpose Interface Environment
  1. 27.2.1 General-Purpose Interface as a Keyboard Interface
  2. 27.2.2 General-Purpose Interface Signals
3. 27.3 General-Purpose Interface Integration
4. 27.4 General-Purpose Interface Functional Description
5. 27.5 General-Purpose Interface Programming Guide
  1. 27.5.1 General-Purpose Interface Low-Level Programming Models
    1. 27.5.1.1 Global Initialization
      1. 27.5.1.1.1 Surrounding Modules Global Initialization
      2. 27.5.1.1.2 General-Purpose Interface Module Global Initialization
    2. 27.5.1.2 General-Purpose Interface Operational Modes Configuration
6. 27.6 General-Purpose Interface Register Manual
  1. 27.6.1 General-Purpose Interface Instance Summary
  2. 27.6.2 General-Purpose Interface Registers
    1. 27.6.2.1 General-Purpose Interface Register Summary
    2. 27.6.2.2 General-Purpose Interface Register Description
28Keyboard Controller
1. 28.1 Keyboard Controller Overview
2. 28.2 Keyboard Controller Environment
3. 28.3 Keyboard Controller Integration
4. 28.4 Keyboard Controller Functional Description
5. 28.5 Keyboard Controller Programming Guide
  1. 28.5.1 Keyboard Controller Low-Level Programming Models
6. 28.6 Keyboard Controller Register Manual
  1. 28.6.1 Keyboard Controller Instance Summary
  2. 28.6.2 Keyboard Controller Registers
    1. 28.6.2.1 Keyboard Controller Register Summary
    2. 28.6.2.2 Keyboard Controller Register Description
29Pulse-Width Modulation Subsystem
1. 29.1 PWM Subsystem Resources
2. 29.2 Enhanced PWM (ePWM) Module
3. 29.3 Enhanced Capture (eCAP) Module
4. 29.4 Enhanced Quadrature Encoder Pulse (eQEP) Module
30Viterbi-Decoder Coprocessor
1. 30.1 VCP Overview
  1. 30.1.1 VCP Features
2. 30.2 VCP Integration
3. 30.3 VCP Functional Description
4. 30.4 VCP Modules Programming Guide
  1. 30.4.1 EDMA Resources
    1. 30.4.1.1 VCP1 and VCP2 Dedicated EDMA Resources
    2. 30.4.1.2 Special VCP EDMA Programming Considerations
  2. 30.4.2 Input Configuration Words
5. 30.5 VCP Register Manual
  1. 30.5.1 VCP1 and VCP2 Instance Summary
  2. 30.5.2 VCP Registers
31Audio Tracking Logic
1. 31.1 ATL Overview
2. 31.2 ATL Environment
  1. 31.2.1 ATL Functions
  2. 31.2.2 ATL Signals Descriptions
3. 31.3 ATL Integration
  1. 31.3.1 ATL Distribution on Interconnects
  2. 31.3.2 ATL Regions Allocations
4. 31.4 ATL Functional Description
5. 31.5 ATL Register Manual
32Initialization
1. 32.1 Initialization Overview
  1. 32.1.1 Terminology
  2. 32.1.2 Initialization Process
2. 32.2 Preinitialization
3. 32.3 Device Initialization by ROM Code
4. 32.4 Services for HLOS Support
33On-Chip Debug Support
1. 33.1 Introduction
  1. 33.1.1 Key Features
2. 33.2 Debug Interfaces
3. 33.3 Debugger Connection
4. 33.4 Primary Debug Support
5. 33.5 Real-Time Debug
  1. 33.5.1 Real-Time Debug Events
    1. 33.5.1.1 Emulation Interrupts
6. 33.6 Power, Reset, and Clock Management Debug Support
  1. 33.6.1 Power and Clock Management
    1. 33.6.1.1 Power and Clock Control Override From Debugger
      1. 33.6.1.1.1 Debugger Directives
        
        33.6.1.1.1.1 FORCEACTIVE Debugger Directive
        
        33.6.1.1.1.2 INHIBITSLEEP Debugger Directive
      2. 33.6.1.1.2 Intrusive Debug Model
    2. 33.6.1.2 Debug Across Power Transition
      1. 33.6.1.2.1 Nonintrusive Debug Model
      2. 33.6.1.2.2 Debug Context Save and Restore
        
        33.6.1.2.2.1 Debug Context Save
        
        33.6.1.2.2.2 Debug Context Restore
  2. 33.6.2 Reset Management
    1. 33.6.2.1 Debugger Directives
7. 33.7 Performance Monitoring
8. 33.8 MPU Memory Adaptor (MPU_MA) Watchpoint
9. 33.9 Processor Trace
10. 33.10 System Instrumentation
11. 33.11 Concurrent Debug Modes
12. 33.12 DRM Register Manual
  1. 33.12.1 DRM Instance Summary
  2. 33.12.2 DRM Registers
    1. 33.12.2.1 DRM Register Summary
    2. 33.12.2.2 DRM Register Description
34Glossary
35Revision History

8.3.5.5.5 Vector Arithmetic/Logic Operations

Various arithmetic and logic operations are available in the compute command, which is indicated by starting the command with:

VLOOP COMP,cmd_len, param_len

Vector arithmetic/logic instructions have the following assembly formats, depending on whether it is
1-input-1-output, 2-input-1-output, 2-input-2-output, or 3-input-1-output, whether accumulator clearing is enabled, and whether rounding is enabled.

V<op_1i1o> src1, dst

V<op_2i1o> src1, src2, dst

V<op_2i1o> src1, src2, dst, RND: rnd_param

V<op_2i2o> src1/dst1, src2/dst2

V<op_2i2o> src1, src2/dst1, dst2

V<op_3i1o> src1, src2, src3, dst

V<op_3i1o> src1, src2, src3, dst, RND: rnd_param

All operations are 40-bit, except:

Input to multiply (MPY, MADD, MSUB) is 17-bit data.
BINLOG, BITC, BITDI, BITI, BITR are 32-bit instructions.
BITPK, BITUNPK, SORT2, MIN, MAX are 33-bit instructions (to allow processing of up to 32-bit signed data)
BITTR, bit transpose, bit width is limited to ways of SIMD, thus 8-bit data for 8-way SIMD.

The operations in Table 8-354 are supported. See Section 8.3.5.9 for details on each operation.

Table 8-354 VCOP Arithmetic/Logic Operations

Operation	#In- Out	#Bits	#Del	Syntax⁽¹⁾	Note
VNOP		40		VNOP
VADD	2-1	40		VADD src1, src2, dst	src1 + src2
VSUB	2-1	40		VSUB src1, src2, dst	src1 – src2
VABSDIF	2-1	40		VABSDIF src1, src2, dst	\|src1 – src2\|
VMPY	2-1	17/33	1	VMPY src1, src2, dst, RND:rnd_param	src1 * src2
VAND	2-1	40		VAND src1, src2, dst	src1 & src2
VOR	2-1	40		VOR src1, src2, dst	src1 \| src2
VXOR	2-1	40		VXOR src1, src2, dst	src2 ^ src2
VMIN	2-1	33		VMIN src1, src2, dst	min(src1, src2)
VMAX	2-1	33		VMAX src1, src2, dst	max(src1, src2)
VANDN	2-1	40		VANDN src1, src2, dst	src1 & (~src2)
VSHF	2-1	40/6		VSHF src1, src2, dst	src1 << src2, or src1 >> (-src2)
VRND	2-1	40/5	1	VRND src1, src2, dst	(src1 + (1 << (src2-1)) >> src2
VCMPEQ	2-1	40		VCMPEQ src1, src2, dst	(src1 == src2) ? 1 : 0
VCMPGT	2-1	40		VCMPGT src1, src2, dst	(src1 > src2) ? 1 : 0
VCMPGE	2-1	40		VCMPGE src1, src2, dst	(src1 >= src2) ? 1 : 0
VBINLOG	1-1	32	1	VBINLOG src1, dst	approximate binary log
VBITC	1-1	32	1	VBITC src1, dst	count one bits
VNOT	1-1	40		VNOT src1, dst	~src1
VMADD	3-1	17/40	1 / 2	VMADD src1, src2, src3, dst, RND: rnd_param	src3 + src1 * src2
VMSUB	3-1	17/40	1 / 2	VMSUB src1, src2, src3, dst, RND: rnd_param	src3 – src1 * src2
VADD3	3-1	40	1	VADD3 src1, src2, src3, dst	src1 + src2 + src3
VSAD	3-1	40	1	VSAD src1, src2, src3, dst	src3 + abs(src1 – src2)
VSEL	3-1	40		VSEL src1, src2, src3, dst	src1 ? src2 : src3
VAND3	3-1	40	1	VAND3 src1, src2, src3, dst	src1 & src2 & src3
VOR3	3-1	40	1	VOR3 src1, src2, src3, dst	src1 \| src2 \| src3
VSHFOR	3-1	40/6	1	VSHFOR src1, src2, src3, dst	src3 \| (src1 << src2) or src3 \| (src1 >> -src2)
VSORT2	2-2	33		VSORT2 src1/dst1, src2/dst2	dst1 = min(src1, src2) dst2 = max(src1, src2)
VBITPK	2-1	33	1	VBITPK src1, src2, dst	compare, bit-pack, broadcast
VBITUNPK	2-1	40	1	VBITUNPK src1, src2, dst	bit unpack
VEXITNZ		40		VEXITNZ level, src1	exit loop at end of iteration when (src1 != 0)
VCMOV		40		VCMOV cond, src1, dst	conditional move
VBITR	1-1	32	1	VBITR src1, dst	bit reverse
VBITI	2-1	32	1	VBITI src1, src2, dst	bit interleave
VBITDI	1-2	32		VBITI src1, dst1, dst2	bit deinterleave
VABS	1-1	40		VABS src1, dst	abs(src1)
VADDH	2-1	40		VADDH src1, src2, dst	src1+ signext(src2[39:32])
VLMBD	3-1	40	1	VLMBD src1, src2, dst	left-most-bit-detect
VBITTR	1-1	NSIMD	1	VBITTR src1, dst	bit transpose
VSIGN	2-1	40		VSIGN src1, src2, dst	apply sign of src1 on src2
VADDSUB	2-2	40		VADDSUB src1/dst1, src2/dst2	dst1 = src1 + src2 dst2 = src1 – src2
VINTRLV	2-2	40		VINTRLV src1/dst1, src2/dst2	interleave
VDINTRLV	2-2	40		VDINTRLV src1/dst1, src2/dst2	deinterleave
VMINSETF	2-2	33		VMINSETF src1, src2/dst1, dst2	minimum and set flag
VMAXSETF	2-2	33		VMAXSETFsrc1, src2/dst1, dst2	maximum and set flag
VINTRLV2	2-2	40		VINTRLV2 src1/dst1, src2/dst2	interleave with 2-element frequency
VDINTRLV2	2-2	40		VDINTRLV2 src1/dst1, src2/dst2	deinterleave with 2-element frequency
VINTRLV4	2-2	40		VINTRLV2 src1/dst1, src2/dst2	interleave with 4-element frequency
VSHF16	1-2	33		VSHF16 src1, dst1, dst2	shift up 16 bits into 2 registers
VADIF3	3-1	40	1	VADIF3 src1, src2, src3, dst	add difference, dst = src1 – src2 + src3
VSWAP	3-2	40		VSWAP cond, src1/dst1, src2/dst2	conditional swap

(1) The parameters src1, src2, src3, dst, dst2 refer to the vector register entry for source or destination.

Operations with two destinations must use two different destination registers, otherwise the outcome is undefined.

The accumulating register (being a source as well as the destination of an operation) must be src1 for
2-input-1-output operations, and must be src3 for 3-input-1-output operations.

The rounding parameter is needed for VMPY, VMADD and VMSUB instructions, and specifies an index to the parameter file, see Section 8.3.5.9.

EVE hardware executes up to 2 operations in parallel per clock cycle. Assembly program (by programmer or by compiler) contains the parallel bar notation to indicate if an instruction is to be executed by itself, or is to be executed in parallel with another instruction.

VMADD, VMSUB instruction have two delay slots for the multiplication input, and one delay slot for the addition/subtraction input.

VMPY, VRND, VBINLOG, VBITC, VADD3, VSAD, VAND3, VOR3, VSHFOR, VBITPK, VBITUNPK, VBITR, VBITI, VLMBD, VBITTR, VADIF3 instructions have one delay slot.

All other operations do not have delay slots.

The hardware detects and treats write/read dependency between any two sequential instructions, but not inside parallel executed instruction pairs. When necessary for correctness, hardware inserts idle cycles automatically. Still to achieve good performance, software must try to schedule the operations to avoid automatic idle cycles.

There is a forwarding path within each functional unit and between the two functional units to forward from destination to source 3 (accumulator input) of 3-input-1-output operations.

Register forwarding, dependency checking and automatic idle cycle insertion work across iterations as well, from end of one iteration to the beginning of the next iteration. For example, the FIR filtering kernel executes in one cycle per iteration with the destination-to-source3 dependency across iterations.

Table 8-355 shows delay slots and automatically inserted idle cycles.

Table 8-355 Example of Operation Delay Slots

Time	VMPY	VMADD	VSUB	VMSUB	VAND	VOR	VADD
0	V0*V1
1	V0*V1 => V7	V2*V3	V2-V6 => V6
2		V2*V3 =>p		V4*V5	V3 & V6 => V6
3		V7 + p => V7		V4*V5 => p		wait for V7
4				V7 - p => V7		wait for V7
5						V1\|V8 => V9	V6 + V7 => V6

Zero-delay slot operation executes in one cycle. VMPY, an one-delay slot opeartion takes two cycles to execute. VMADD and VMSUB, two-delay slot operations take 3 cycles for execution, but need its additional input only on the third cycle. The dependency between the two instructions (VMADD-VMSUB) on the additional operand does not introduce idle cycles, but VMSUB-VADD dependency adds 2 idle cycles to execution per iteration.