Members/tobaru/cbc/CbC_llvm: lib/Target/X86/X86FastISel.cpp comparison

comparison lib/Target/X86/X86FastISel.cpp @ 121:803732b1fca8

LLVM 5.0

author	kono
date	Fri, 27 Oct 2017 17:07:41 +0900 (2017-10-27)
parents	1172e4bd9c6f
children

comparison

equal deleted inserted replaced

-:1172e4bd9c6f
+:803732b1fca8
 bool X86SelectCmp(const Instruction *I);
 bool X86SelectZExt(const Instruction *I);
+bool X86SelectSExt(const Instruction *I);
 bool X86SelectBranch(const Instruction *I);
 bool X86SelectShift(const Instruction *I);
 bool X86SelectDivRem(const Instruction *I);
 bool foldX86XALUIntrinsic(X86::CondCode &CC, const Instruction *I,
 const Value *Cond);
 const MachineInstrBuilder &addFullAddress(const MachineInstrBuilder &MIB,
 X86AddressMode &AM);
+unsigned fastEmitInst_rrrr(unsigned MachineInstOpcode,
+const TargetRegisterClass *RC, unsigned Op0,
+bool Op0IsKill, unsigned Op1, bool Op1IsKill,
+unsigned Op2, bool Op2IsKill, unsigned Op3,
+bool Op3IsKill);
 };
 } // end anonymous namespace.
-static std::pair<X86::CondCode, bool>
-getX86ConditionCode(CmpInst::Predicate Predicate) {
-X86::CondCode CC = X86::COND_INVALID;
-bool NeedSwap = false;
-switch (Predicate) {
-default: break;
-// Floating-point Predicates
-case CmpInst::FCMP_UEQ: CC = X86::COND_E;       break;
-case CmpInst::FCMP_OLT: NeedSwap = true;        LLVM_FALLTHROUGH;
-case CmpInst::FCMP_OGT: CC = X86::COND_A;       break;
-case CmpInst::FCMP_OLE: NeedSwap = true;        LLVM_FALLTHROUGH;
-case CmpInst::FCMP_OGE: CC = X86::COND_AE;      break;
-case CmpInst::FCMP_UGT: NeedSwap = true;        LLVM_FALLTHROUGH;
-case CmpInst::FCMP_ULT: CC = X86::COND_B;       break;
-case CmpInst::FCMP_UGE: NeedSwap = true;        LLVM_FALLTHROUGH;
-case CmpInst::FCMP_ULE: CC = X86::COND_BE;      break;
-case CmpInst::FCMP_ONE: CC = X86::COND_NE;      break;
-case CmpInst::FCMP_UNO: CC = X86::COND_P;       break;
-case CmpInst::FCMP_ORD: CC = X86::COND_NP;      break;
-case CmpInst::FCMP_OEQ:                         LLVM_FALLTHROUGH;
-case CmpInst::FCMP_UNE: CC = X86::COND_INVALID; break;
-// Integer Predicates
-case CmpInst::ICMP_EQ:  CC = X86::COND_E;       break;
-case CmpInst::ICMP_NE:  CC = X86::COND_NE;      break;
-case CmpInst::ICMP_UGT: CC = X86::COND_A;       break;
-case CmpInst::ICMP_UGE: CC = X86::COND_AE;      break;
-case CmpInst::ICMP_ULT: CC = X86::COND_B;       break;
-case CmpInst::ICMP_ULE: CC = X86::COND_BE;      break;
-case CmpInst::ICMP_SGT: CC = X86::COND_G;       break;
-case CmpInst::ICMP_SGE: CC = X86::COND_GE;      break;
-case CmpInst::ICMP_SLT: CC = X86::COND_L;       break;
-case CmpInst::ICMP_SLE: CC = X86::COND_LE;      break;
-}
-return std::make_pair(CC, NeedSwap);
-}
 static std::pair<unsigned, bool>
 getX86SSEConditionCode(CmpInst::Predicate Predicate) {
 unsigned CC;
 bool NeedSwap = false;
 case CmpInst::FCMP_ULE: NeedSwap = true; LLVM_FALLTHROUGH;
 case CmpInst::FCMP_UGE: CC = 5;          break;
 case CmpInst::FCMP_ULT: NeedSwap = true; LLVM_FALLTHROUGH;
 case CmpInst::FCMP_UGT: CC = 6;          break;
 case CmpInst::FCMP_ORD: CC = 7;          break;
-case CmpInst::FCMP_UEQ:
+case CmpInst::FCMP_UEQ: CC = 8;          break;
-case CmpInst::FCMP_ONE: CC = 8;          break;
+case CmpInst::FCMP_ONE: CC = 12;         break;
 }
 return std::make_pair(CC, NeedSwap);
 }
 break;
 case MVT::v8f32:
 assert(HasAVX);
 if (IsNonTemporal && Alignment >= 32 && HasAVX2)
 Opc = HasVLX ? X86::VMOVNTDQAZ256rm : X86::VMOVNTDQAYrm;
+else if (IsNonTemporal && Alignment >= 16)
+return false; // Force split for X86::VMOVNTDQArm
 else if (Alignment >= 32)
 Opc = HasVLX ? X86::VMOVAPSZ256rm : X86::VMOVAPSYrm;
 else
 Opc = HasVLX ? X86::VMOVUPSZ256rm : X86::VMOVUPSYrm;
 RC  = &X86::VR256RegClass;
 break;
 case MVT::v4f64:
 assert(HasAVX);
 if (IsNonTemporal && Alignment >= 32 && HasAVX2)
 Opc = X86::VMOVNTDQAYrm;
+else if (IsNonTemporal && Alignment >= 16)
+return false; // Force split for X86::VMOVNTDQArm
 else if (Alignment >= 32)
 Opc = HasVLX ? X86::VMOVAPDZ256rm : X86::VMOVAPDYrm;
 else
 Opc = HasVLX ? X86::VMOVUPDZ256rm : X86::VMOVUPDYrm;
 RC  = &X86::VR256RegClass;
 case MVT::v16i16:
 case MVT::v32i8:
 assert(HasAVX);
 if (IsNonTemporal && Alignment >= 32 && HasAVX2)
 Opc = X86::VMOVNTDQAYrm;
+else if (IsNonTemporal && Alignment >= 16)
+return false; // Force split for X86::VMOVNTDQArm
 else if (Alignment >= 32)
 Opc = HasVLX ? X86::VMOVDQA64Z256rm : X86::VMOVDQAYrm;
 else
 Opc = HasVLX ? X86::VMOVDQU64Z256rm : X86::VMOVDQUYrm;
 RC  = &X86::VR256RegClass;
 /// and a displacement offset, or a GlobalAddress,
 /// i.e. V. Return true if it is possible.
 bool X86FastISel::X86FastEmitStore(EVT VT, unsigned ValReg, bool ValIsKill,
 X86AddressMode &AM,
 MachineMemOperand *MMO, bool Aligned) {
+bool HasSSE1 = Subtarget->hasSSE1();
 bool HasSSE2 = Subtarget->hasSSE2();
 bool HasSSE4A = Subtarget->hasSSE4A();
 bool HasAVX = Subtarget->hasAVX();
 bool HasAVX512 = Subtarget->hasAVX512();
 bool HasVLX = Subtarget->hasVLX();
 else
 Opc = HasAVX512 ? X86::VMOVSDZmr :
 HasAVX ? X86::VMOVSDmr : X86::MOVSDmr;
 } else
 Opc = X86::ST_Fp64m;
+break;
+case MVT::x86mmx:
+Opc = (IsNonTemporal && HasSSE1) ? X86::MMX_MOVNTQmr : X86::MMX_MOVQ64mr;
 break;
 case MVT::v4f32:
 if (Aligned) {
 if (IsNonTemporal)
 Opc = HasVLX ? X86::VMOVNTPSZ128mr :
 // Iterate through the indices, folding what we can. Constants can be
 // folded, and one dynamic index can be handled, if the scale is supported.
 for (User::const_op_iterator i = U->op_begin() + 1, e = U->op_end();
 i != e; ++i, ++GTI) {
 const Value *Op = *i;
-if (StructType *STy = dyn_cast<StructType>(*GTI)) {
+if (StructType *STy = GTI.getStructTypeOrNull()) {
 const StructLayout *SL = DL.getStructLayout(STy);
 Disp += SL->getElementOffset(cast<ConstantInt>(Op)->getZExtValue());
 continue;
 }
 // RIP-relative addresses can't have additional register operands.
 if (Subtarget->isPICStyleRIPRel() &&
 (AM.Base.Reg != 0 || AM.IndexReg != 0))
 return false;
-// Can't handle DLL Import.
-if (GV->hasDLLImportStorageClass())
-return false;
 // Can't handle TLS.
 if (const GlobalVariable *GVar = dyn_cast<GlobalVariable>(GV))
 if (GVar->isThreadLocal())
 return false;
 // Okay, we've committed to selecting this global. Set up the basic address.
 AM.GV = GV;
-// No ABI requires an extra load for anything other than DLLImport, which
+// Return a direct reference to the global. Fastisel can handle calls to
-// we rejected above. Return a direct reference to the global.
+// functions that require loads, such as dllimport and nonlazybind
+// functions.
 if (Subtarget->isPICStyleRIPRel()) {
 // Use rip-relative addressing if we can.  Above we verified that the
 // base and index registers are unused.
 assert(AM.Base.Reg == 0 && AM.IndexReg == 0);
 AM.Base.Reg = X86::RIP;
 CC != CallingConv::Fast &&
 CC != CallingConv::X86_FastCall &&
 CC != CallingConv::X86_StdCall &&
 CC != CallingConv::X86_ThisCall &&
 CC != CallingConv::X86_64_SysV &&
-CC != CallingConv::X86_64_Win64)
+CC != CallingConv::Win64)
 return false;
 // Don't handle popping bytes if they don't fit the ret's immediate.
 if (!isUInt<16>(X86MFInfo->getBytesToPopOnReturn()))
 return false;
 return true;
 }
 X86::CondCode CC;
 bool SwapArgs;
-std::tie(CC, SwapArgs) = getX86ConditionCode(Predicate);
+std::tie(CC, SwapArgs) = X86::getX86ConditionCode(Predicate);
 assert(CC <= X86::LAST_VALID_COND && "Unexpected condition code.");
 unsigned Opc = X86::getSETFromCond(CC);
 if (SwapArgs)
 std::swap(LHS, RHS);
 if (ResultReg == 0)
 return false;
 // Handle zero-extension from i1 to i8, which is common.
 MVT SrcVT = TLI.getSimpleValueType(DL, I->getOperand(0)->getType());
-if (SrcVT.SimpleTy == MVT::i1) {
+if (SrcVT == MVT::i1) {
 // Set the high bits to zero.
 ResultReg = fastEmitZExtFromI1(MVT::i8, ResultReg, /*TODO: Kill=*/false);
 SrcVT = MVT::i8;
 if (ResultReg == 0)
 ResultReg = createResultReg(&X86::GR64RegClass);
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(TargetOpcode::SUBREG_TO_REG),
 ResultReg)
 .addImm(0).addReg(Result32).addImm(X86::sub_32bit);
+} else if (DstVT == MVT::i16) {
+// i8->i16 doesn't exist in the autogenerated isel table. Need to zero
+// extend to 32-bits and then extract down to 16-bits.
+unsigned Result32 = createResultReg(&X86::GR32RegClass);
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(X86::MOVZX32rr8),
+Result32).addReg(ResultReg);
+ResultReg = fastEmitInst_extractsubreg(MVT::i16, Result32, /*Kill=*/true,
+X86::sub_16bit);
 } else if (DstVT != MVT::i8) {
 ResultReg = fastEmit_r(MVT::i8, DstVT.getSimpleVT(), ISD::ZERO_EXTEND,
+ResultReg, /*Kill=*/true);
+if (ResultReg == 0)
+return false;
+}
+updateValueMap(I, ResultReg);
+return true;
+}
+bool X86FastISel::X86SelectSExt(const Instruction *I) {
+EVT DstVT = TLI.getValueType(DL, I->getType());
+if (!TLI.isTypeLegal(DstVT))
+return false;
+unsigned ResultReg = getRegForValue(I->getOperand(0));
+if (ResultReg == 0)
+return false;
+// Handle sign-extension from i1 to i8.
+MVT SrcVT = TLI.getSimpleValueType(DL, I->getOperand(0)->getType());
+if (SrcVT == MVT::i1) {
+// Set the high bits to zero.
+unsigned ZExtReg = fastEmitZExtFromI1(MVT::i8, ResultReg,
+/*TODO: Kill=*/false);
+if (ZExtReg == 0)
+return false;
+// Negate the result to make an 8-bit sign extended value.
+ResultReg = createResultReg(&X86::GR8RegClass);
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(X86::NEG8r),
+ResultReg).addReg(ZExtReg);
+SrcVT = MVT::i8;
+}
+if (DstVT == MVT::i16) {
+// i8->i16 doesn't exist in the autogenerated isel table. Need to sign
+// extend to 32-bits and then extract down to 16-bits.
+unsigned Result32 = createResultReg(&X86::GR32RegClass);
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(X86::MOVSX32rr8),
+Result32).addReg(ResultReg);
+ResultReg = fastEmitInst_extractsubreg(MVT::i16, Result32, /*Kill=*/true,
+X86::sub_16bit);
+} else if (DstVT != MVT::i8) {
+ResultReg = fastEmit_r(MVT::i8, DstVT.getSimpleVT(), ISD::SIGN_EXTEND,
 ResultReg, /*Kill=*/true);
 if (ResultReg == 0)
 return false;
 }
 break;
 }
 bool SwapArgs;
 unsigned BranchOpc;
-std::tie(CC, SwapArgs) = getX86ConditionCode(Predicate);
+std::tie(CC, SwapArgs) = X86::getX86ConditionCode(Predicate);
 assert(CC <= X86::LAST_VALID_COND && "Unexpected condition code.");
 BranchOpc = X86::GetCondBranchFromCond(CC);
 if (SwapArgs)
 std::swap(CmpLHS, CmpRHS);
 if (OpReg == 0) return false;
 // In case OpReg is a K register, COPY to a GPR
 if (MRI.getRegClass(OpReg) == &X86::VK1RegClass) {
 unsigned KOpReg = OpReg;
-OpReg = createResultReg(&X86::GR8RegClass);
+OpReg = createResultReg(&X86::GR32RegClass);
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
 TII.get(TargetOpcode::COPY), OpReg)
 .addReg(KOpReg);
+OpReg = fastEmitInst_extractsubreg(MVT::i8, OpReg, /*Kill=*/true,
+X86::sub_8bit);
 }
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(X86::TEST8ri))
 .addReg(OpReg)
 .addImm(1);
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(X86::JNE_1))
 TII.get(X86::MOV32r0), Zero32);
 // Copy the zero into the appropriate sub/super/identical physical
 // register. Unfortunately the operations needed are not uniform enough
 // to fit neatly into the table above.
-if (VT.SimpleTy == MVT::i16) {
+if (VT == MVT::i16) {
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
 TII.get(Copy), TypeEntry.HighInReg)
 .addReg(Zero32, 0, X86::sub_16bit);
-} else if (VT.SimpleTy == MVT::i32) {
+} else if (VT == MVT::i32) {
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
 TII.get(Copy), TypeEntry.HighInReg)
 .addReg(Zero32);
-} else if (VT.SimpleTy == MVT::i64) {
+} else if (VT == MVT::i64) {
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
 TII.get(TargetOpcode::SUBREG_TO_REG), TypeEntry.HighInReg)
 .addImm(0).addReg(Zero32).addImm(X86::sub_32bit);
 }
 }
 // For i8 remainder, we can't reference AH directly, as we'll end
 // up with bogus copies like %R9B = COPY %AH. Reference AX
 // instead to prevent AH references in a REX instruction.
 //
 // The current assumption of the fast register allocator is that isel
-// won't generate explicit references to the GPR8_NOREX registers. If
+// won't generate explicit references to the GR8_NOREX registers. If
 // the allocator and/or the backend get enhanced to be more robust in
 // that regard, this can be, and should be, removed.
 unsigned ResultReg = 0;
 if ((I->getOpcode() == Instruction::SRem ||
 I->getOpcode() == Instruction::URem) &&
 Predicate = CmpInst::ICMP_NE;
 break;
 }
 bool NeedSwap;
-std::tie(CC, NeedSwap) = getX86ConditionCode(Predicate);
+std::tie(CC, NeedSwap) = X86::getX86ConditionCode(Predicate);
 assert(CC <= X86::LAST_VALID_COND && "Unexpected condition code.");
 const Value *CmpLHS = CI->getOperand(0);
 const Value *CmpRHS = CI->getOperand(1);
 if (NeedSwap)
 bool CondIsKill = hasTrivialKill(Cond);
 // In case OpReg is a K register, COPY to a GPR
 if (MRI.getRegClass(CondReg) == &X86::VK1RegClass) {
 unsigned KCondReg = CondReg;
-CondReg = createResultReg(&X86::GR8RegClass);
+CondReg = createResultReg(&X86::GR32RegClass);
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
 TII.get(TargetOpcode::COPY), CondReg)
 .addReg(KCondReg, getKillRegState(CondIsKill));
+CondReg = fastEmitInst_extractsubreg(MVT::i8, CondReg, /*Kill=*/true,
+X86::sub_8bit);
 }
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(X86::TEST8ri))
 .addReg(CondReg, getKillRegState(CondIsKill))
 .addImm(1);
 }
 bool LHSIsKill = hasTrivialKill(LHS);
 if (!LHSReg || !RHSReg)
 return false;
-unsigned Opc = X86::getCMovFromCond(CC, RC->getSize());
+const TargetRegisterInfo &TRI = *Subtarget->getRegisterInfo();
+unsigned Opc = X86::getCMovFromCond(CC, TRI.getRegSizeInBits(*RC)/8);
 unsigned ResultReg = fastEmitInst_rr(Opc, RC, RHSReg, RHSIsKill,
 LHSReg, LHSIsKill);
 updateValueMap(I, ResultReg);
 return true;
 }
 }
 unsigned CC;
 bool NeedSwap;
 std::tie(CC, NeedSwap) = getX86SSEConditionCode(Predicate);
-if (CC > 7)
+if (CC > 7 && !Subtarget->hasAVX())
 return false;
 if (NeedSwap)
 std::swap(CmpLHS, CmpRHS);
 // Choose the SSE instruction sequence based on data type (float or double).
 static const uint16_t OpcTable[2][4] = {
-{ X86::CMPSSrr,  X86::FsANDPSrr,  X86::FsANDNPSrr,  X86::FsORPSrr  },
+{ X86::CMPSSrr,  X86::ANDPSrr,  X86::ANDNPSrr,  X86::ORPSrr  },
-{ X86::CMPSDrr,  X86::FsANDPDrr,  X86::FsANDNPDrr,  X86::FsORPDrr  }
+{ X86::CMPSDrr,  X86::ANDPDrr,  X86::ANDNPDrr,  X86::ORPDrr  }
 };
 const uint16_t *Opc = nullptr;
 switch (RetVT.SimpleTy) {
 default: return false;
 if (!LHSReg || !RHSReg || !CmpLHS || !CmpRHS)
 return false;
 const TargetRegisterClass *RC = TLI.getRegClassFor(RetVT);
 unsigned ResultReg;
-if (Subtarget->hasAVX()) {
+if (Subtarget->hasAVX512()) {
-const TargetRegisterClass *FR32 = &X86::FR32RegClass;
+// If we have AVX512 we can use a mask compare and masked movss/sd.
+const TargetRegisterClass *VR128X = &X86::VR128XRegClass;
+const TargetRegisterClass *VK1 = &X86::VK1RegClass;
+unsigned CmpOpcode =
+(RetVT == MVT::f32) ? X86::VCMPSSZrr : X86::VCMPSDZrr;
+unsigned CmpReg = fastEmitInst_rri(CmpOpcode, VK1, CmpLHSReg, CmpLHSIsKill,
+CmpRHSReg, CmpRHSIsKill, CC);
+// Need an IMPLICIT_DEF for the input that is used to generate the upper
+// bits of the result register since its not based on any of the inputs.
+unsigned ImplicitDefReg = createResultReg(VR128X);
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
+TII.get(TargetOpcode::IMPLICIT_DEF), ImplicitDefReg);
+// Place RHSReg is the passthru of the masked movss/sd operation and put
+// LHS in the input. The mask input comes from the compare.
+unsigned MovOpcode =
+(RetVT == MVT::f32) ? X86::VMOVSSZrrk : X86::VMOVSDZrrk;
+unsigned MovReg = fastEmitInst_rrrr(MovOpcode, VR128X, RHSReg, RHSIsKill,
+CmpReg, true, ImplicitDefReg, true,
+LHSReg, LHSIsKill);
+ResultReg = createResultReg(RC);
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
+TII.get(TargetOpcode::COPY), ResultReg).addReg(MovReg);
+} else if (Subtarget->hasAVX()) {
 const TargetRegisterClass *VR128 = &X86::VR128RegClass;
 // If we have AVX, create 1 blendv instead of 3 logic instructions.
 // Blendv was introduced with SSE 4.1, but the 2 register form implicitly
 // uses XMM0 as the selection register. That may need just as many
 // instructions as the AND/ANDN/OR sequence due to register moves, so
 // don't bother.
 unsigned CmpOpcode =
-(RetVT.SimpleTy == MVT::f32) ? X86::VCMPSSrr : X86::VCMPSDrr;
+(RetVT == MVT::f32) ? X86::VCMPSSrr : X86::VCMPSDrr;
 unsigned BlendOpcode =
-(RetVT.SimpleTy == MVT::f32) ? X86::VBLENDVPSrr : X86::VBLENDVPDrr;
+(RetVT == MVT::f32) ? X86::VBLENDVPSrr : X86::VBLENDVPDrr;
-unsigned CmpReg = fastEmitInst_rri(CmpOpcode, FR32, CmpLHSReg, CmpLHSIsKill,
+unsigned CmpReg = fastEmitInst_rri(CmpOpcode, RC, CmpLHSReg, CmpLHSIsKill,
 CmpRHSReg, CmpRHSIsKill, CC);
 unsigned VBlendReg = fastEmitInst_rrr(BlendOpcode, VR128, RHSReg, RHSIsKill,
 LHSReg, LHSIsKill, CmpReg, true);
 ResultReg = createResultReg(RC);
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
 TII.get(TargetOpcode::COPY), ResultReg).addReg(VBlendReg);
 } else {
+const TargetRegisterClass *VR128 = &X86::VR128RegClass;
 unsigned CmpReg = fastEmitInst_rri(Opc[0], RC, CmpLHSReg, CmpLHSIsKill,
 CmpRHSReg, CmpRHSIsKill, CC);
-unsigned AndReg = fastEmitInst_rr(Opc[1], RC, CmpReg, /*IsKill=*/false,
+unsigned AndReg = fastEmitInst_rr(Opc[1], VR128, CmpReg, /*IsKill=*/false,
 LHSReg, LHSIsKill);
-unsigned AndNReg = fastEmitInst_rr(Opc[2], RC, CmpReg, /*IsKill=*/true,
+unsigned AndNReg = fastEmitInst_rr(Opc[2], VR128, CmpReg, /*IsKill=*/true,
 RHSReg, RHSIsKill);
-ResultReg = fastEmitInst_rr(Opc[3], RC, AndNReg, /*IsKill=*/true,
+unsigned OrReg = fastEmitInst_rr(Opc[3], VR128, AndNReg, /*IsKill=*/true,
 AndReg, /*IsKill=*/true);
+ResultReg = createResultReg(RC);
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
+TII.get(TargetOpcode::COPY), ResultReg).addReg(OrReg);
 }
 updateValueMap(I, ResultReg);
 return true;
 }
 // same basic block (values defined in other basic blocks may not have
 // initialized registers).
 const auto *CI = dyn_cast<CmpInst>(Cond);
 if (CI && (CI->getParent() == I->getParent())) {
 bool NeedSwap;
-std::tie(CC, NeedSwap) = getX86ConditionCode(CI->getPredicate());
+std::tie(CC, NeedSwap) = X86::getX86ConditionCode(CI->getPredicate());
 if (CC > X86::LAST_VALID_COND)
 return false;
 const Value *CmpLHS = CI->getOperand(0);
 const Value *CmpRHS = CI->getOperand(1);
 bool CondIsKill = hasTrivialKill(Cond);
 // In case OpReg is a K register, COPY to a GPR
 if (MRI.getRegClass(CondReg) == &X86::VK1RegClass) {
 unsigned KCondReg = CondReg;
-CondReg = createResultReg(&X86::GR8RegClass);
+CondReg = createResultReg(&X86::GR32RegClass);
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
 TII.get(TargetOpcode::COPY), CondReg)
 .addReg(KCondReg, getKillRegState(CondIsKill));
+CondReg = fastEmitInst_extractsubreg(MVT::i8, CondReg, /*Kill=*/true,
+X86::sub_8bit);
 }
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(X86::TEST8ri))
 .addReg(CondReg, getKillRegState(CondIsKill))
 .addImm(1);
 }
 unsigned OpReg = getRegForValue(I->getOperand(0));
 if (OpReg == 0)
 return false;
+unsigned ImplicitDefReg;
+if (Subtarget->hasAVX()) {
+ImplicitDefReg = createResultReg(RC);
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
+TII.get(TargetOpcode::IMPLICIT_DEF), ImplicitDefReg);
+}
 unsigned ResultReg = createResultReg(RC);
 MachineInstrBuilder MIB;
 MIB = BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(TargetOpc),
 ResultReg);
 if (Subtarget->hasAVX())
-MIB.addReg(OpReg);
+MIB.addReg(ImplicitDefReg);
 MIB.addReg(OpReg);
 updateValueMap(I, ResultReg);
 return true;
 }
 // Truncate from i8 to i1; no code needed.
 updateValueMap(I, InputReg);
 return true;
 }
-bool KillInputReg = false;
-if (!Subtarget->is64Bit()) {
-// If we're on x86-32; we can't extract an i8 from a general register.
-// First issue a copy to GR16_ABCD or GR32_ABCD.
-const TargetRegisterClass *CopyRC =
-(SrcVT == MVT::i16) ? &X86::GR16_ABCDRegClass : &X86::GR32_ABCDRegClass;
-unsigned CopyReg = createResultReg(CopyRC);
-BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
-TII.get(TargetOpcode::COPY), CopyReg).addReg(InputReg);
-InputReg = CopyReg;
-KillInputReg = true;
-}
 // Issue an extract_subreg.
 unsigned ResultReg = fastEmitInst_extractsubreg(MVT::i8,
-InputReg, KillInputReg,
+InputReg, false,
 X86::sub_8bit);
 if (!ResultReg)
 return false;
 updateValueMap(I, ResultReg);
 return false;
 if (!Subtarget->is64Bit())
 return false;
+if (Subtarget->useSoftFloat())
+return false;
 // Only handle simple cases. i.e. Up to 6 i32/i64 scalar arguments.
 unsigned GPRCnt = 0;
 unsigned FPRCnt = 0;
-unsigned Idx = 0;
 for (auto const &Arg : F->args()) {
-// The first argument is at index 1.
+if (Arg.hasAttribute(Attribute::ByVal) ||
-++Idx;
+Arg.hasAttribute(Attribute::InReg) ||
-if (F->getAttributes().hasAttribute(Idx, Attribute::ByVal) ||
+Arg.hasAttribute(Attribute::StructRet) ||
-F->getAttributes().hasAttribute(Idx, Attribute::InReg) ||
+Arg.hasAttribute(Attribute::SwiftSelf) ||
-F->getAttributes().hasAttribute(Idx, Attribute::StructRet) ||
+Arg.hasAttribute(Attribute::SwiftError) ||
-F->getAttributes().hasAttribute(Idx, Attribute::SwiftSelf) ||
+Arg.hasAttribute(Attribute::Nest))
-F->getAttributes().hasAttribute(Idx, Attribute::SwiftError) ||
-F->getAttributes().hasAttribute(Idx, Attribute::Nest))
 return false;
 Type *ArgTy = Arg.getType();
 if (ArgTy->isStructTy() || ArgTy->isArrayTy() || ArgTy->isVectorTy())
 return false;
 if (CC == CallingConv::Fast || CC == CallingConv::GHC ||
 CC == CallingConv::HiPE)
 return 0;
 if (CS)
-if (CS->arg_empty() || !CS->paramHasAttr(1, Attribute::StructRet) ||
+if (CS->arg_empty() || !CS->paramHasAttr(0, Attribute::StructRet) ||
-CS->paramHasAttr(1, Attribute::InReg) || Subtarget->isTargetMCU())
+CS->paramHasAttr(0, Attribute::InReg) || Subtarget->isTargetMCU())
 return 0;
 return 4;
 }
 MCSymbol *Symbol = CLI.Symbol;
 bool Is64Bit        = Subtarget->is64Bit();
 bool IsWin64        = Subtarget->isCallingConvWin64(CC);
+const CallInst *CI =
+CLI.CS ? dyn_cast<CallInst>(CLI.CS->getInstruction()) : nullptr;
+const Function *CalledFn = CI ? CI->getCalledFunction() : nullptr;
+// Functions with no_caller_saved_registers that need special handling.
+if ((CI && CI->hasFnAttr("no_caller_saved_registers")) ||
+(CalledFn && CalledFn->hasFnAttribute("no_caller_saved_registers")))
+return false;
 // Handle only C, fastcc, and webkit_js calling conventions for now.
 switch (CC) {
 default: return false;
 case CallingConv::C:
 case CallingConv::Fast:
 case CallingConv::WebKit_JS:
 case CallingConv::Swift:
 case CallingConv::X86_FastCall:
 case CallingConv::X86_StdCall:
 case CallingConv::X86_ThisCall:
-case CallingConv::X86_64_Win64:
+case CallingConv::Win64:
 case CallingConv::X86_64_SysV:
 break;
 }
 // Allow SelectionDAG isel to handle tail calls.
 unsigned NumBytes = CCInfo.getAlignedCallFrameSize();
 // Issue CALLSEQ_START
 unsigned AdjStackDown = TII.getCallFrameSetupOpcode();
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(AdjStackDown))
-.addImm(NumBytes).addImm(0);
+.addImm(NumBytes).addImm(0).addImm(0);
 // Walk the register/memloc assignments, inserting copies/loads.
 const X86RegisterInfo *RegInfo = Subtarget->getRegisterInfo();
 for (unsigned i = 0, e = ArgLocs.size(); i != e; ++i) {
 CCValAssign const &VA = ArgLocs[i];
 case CCValAssign::Full: break;
 case CCValAssign::SExt: {
 assert(VA.getLocVT().isInteger() && !VA.getLocVT().isVector() &&
 "Unexpected extend");
-if (ArgVT.SimpleTy == MVT::i1)
+if (ArgVT == MVT::i1)
 return false;
 bool Emitted = X86FastEmitExtend(ISD::SIGN_EXTEND, VA.getLocVT(), ArgReg,
 ArgVT, ArgReg);
 assert(Emitted && "Failed to emit a sext!"); (void)Emitted;
 case CCValAssign::ZExt: {
 assert(VA.getLocVT().isInteger() && !VA.getLocVT().isVector() &&
 "Unexpected extend");
 // Handle zero-extension from i1 to i8, which is common.
-if (ArgVT.SimpleTy == MVT::i1) {
+if (ArgVT == MVT::i1) {
 // Set the high bits to zero.
 ArgReg = fastEmitZExtFromI1(MVT::i8, ArgReg, /*TODO: Kill=*/false);
 ArgVT = MVT::i8;
 if (ArgReg == 0)
 MIB = BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(CallOpc))
 .addReg(CalleeOp);
 } else {
 // Direct call.
 assert(GV && "Not a direct call");
-unsigned CallOpc = Is64Bit ? X86::CALL64pcrel32 : X86::CALLpcrel32;
 // See if we need any target-specific flags on the GV operand.
 unsigned char OpFlags = Subtarget->classifyGlobalFunctionReference(GV);
 // Ignore NonLazyBind attribute in FastISel
 if (OpFlags == X86II::MO_GOTPCREL)
 OpFlags = 0;
+// This will be a direct call, or an indirect call through memory for
+// NonLazyBind calls or dllimport calls.
+bool NeedLoad = OpFlags == X86II::MO_DLLIMPORT;
+unsigned CallOpc = NeedLoad
+? (Is64Bit ? X86::CALL64m : X86::CALL32m)
+: (Is64Bit ? X86::CALL64pcrel32 : X86::CALLpcrel32);
 MIB = BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, TII.get(CallOpc));
+if (NeedLoad)
+MIB.addReg(Is64Bit ? X86::RIP : 0).addImm(1).addReg(0);
 if (Symbol)
 MIB.addSym(Symbol, OpFlags);
 else
 MIB.addGlobalAddress(GV, 0, OpFlags);
+if (NeedLoad)
+MIB.addReg(0);
 }
 // Add a register mask operand representing the call-preserved registers.
 // Proper defs for return values will be added by setPhysRegsDeadExcept().
 MIB.addRegMask(TRI.getCallPreservedMask(*FuncInfo.MF, CC));
 unsigned ResultReg = FuncInfo.CreateRegs(CLI.RetTy);
 for (unsigned i = 0; i != RVLocs.size(); ++i) {
 CCValAssign &VA = RVLocs[i];
 EVT CopyVT = VA.getValVT();
 unsigned CopyReg = ResultReg + i;
+unsigned SrcReg = VA.getLocReg();
 // If this is x86-64, and we disabled SSE, we can't return FP values
 if ((CopyVT == MVT::f32 || CopyVT == MVT::f64) &&
 ((Is64Bit || Ins[i].Flags.isInReg()) && !Subtarget->hasSSE1())) {
 report_fatal_error("SSE register return with SSE disabled");
 }
+// If the return value is an i1 and AVX-512 is enabled, we need
+// to do a fixup to make the copy legal.
+if (CopyVT == MVT::i1 && SrcReg == X86::AL && Subtarget->hasAVX512()) {
+// Need to copy to a GR32 first.
+// TODO: MOVZX isn't great here. We don't care about the upper bits.
+SrcReg = createResultReg(&X86::GR32RegClass);
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
+TII.get(X86::MOVZX32rr8), SrcReg).addReg(X86::AL);
+}
 // If we prefer to use the value in xmm registers, copy it out as f80 and
 // use a truncate to move it from fp stack reg to xmm reg.
-if ((VA.getLocReg() == X86::FP0 || VA.getLocReg() == X86::FP1) &&
+if ((SrcReg == X86::FP0 || SrcReg == X86::FP1) &&
 isScalarFPTypeInSSEReg(VA.getValVT())) {
 CopyVT = MVT::f80;
 CopyReg = createResultReg(&X86::RFP80RegClass);
 }
 // Copy out the result.
 BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
-TII.get(TargetOpcode::COPY), CopyReg).addReg(VA.getLocReg());
+TII.get(TargetOpcode::COPY), CopyReg).addReg(SrcReg);
 InRegs.push_back(VA.getLocReg());
 // Round the f80 to the right size, which also moves it to the appropriate
 // xmm register. This is accomplished by storing the f80 value in memory
 // and then loading it back.
 case Instruction::ICmp:
 case Instruction::FCmp:
 return X86SelectCmp(I);
 case Instruction::ZExt:
 return X86SelectZExt(I);
+case Instruction::SExt:
+return X86SelectSExt(I);
 case Instruction::Br:
 return X86SelectBranch(I);
 case Instruction::LShr:
 case Instruction::AShr:
 case Instruction::Shl:
 EVT DstVT = TLI.getValueType(DL, I->getType());
 if (!SrcVT.isSimple() || !DstVT.isSimple())
 return false;
-if (!SrcVT.is128BitVector() &&
+MVT SVT = SrcVT.getSimpleVT();
-!(Subtarget->hasAVX() && SrcVT.is256BitVector()))
+MVT DVT = DstVT.getSimpleVT();
+if (!SVT.is128BitVector() &&
+!(Subtarget->hasAVX() && SVT.is256BitVector()) &&
+!(Subtarget->hasAVX512() && SVT.is512BitVector() &&
+(Subtarget->hasBWI() || (SVT.getScalarSizeInBits() >= 32 &&
+DVT.getScalarSizeInBits() >= 32))))
 return false;
 unsigned Reg = getRegForValue(I->getOperand(0));
 if (Reg == 0)
 return false;
 }
 unsigned Opc = 0;
 switch (VT.SimpleTy) {
 default: llvm_unreachable("Unexpected value type");
-case MVT::i1:  VT = MVT::i8;       LLVM_FALLTHROUGH;
+case MVT::i1:
+// TODO: Support this properly.
+if (Subtarget->hasAVX512())
+return 0;
+VT = MVT::i8;
+LLVM_FALLTHROUGH;
 case MVT::i8:  Opc = X86::MOV8ri;  break;
 case MVT::i16: Opc = X86::MOV16ri; break;
 case MVT::i32: Opc = X86::MOV32ri; break;
 case MVT::i64: {
 if (isUInt<32>(Imm))
 Result->addMemOperand(*FuncInfo.MF, createMachineMemOperandFor(LI));
 MI->eraseFromParent();
 return true;
 }
+unsigned X86FastISel::fastEmitInst_rrrr(unsigned MachineInstOpcode,
+const TargetRegisterClass *RC,
+unsigned Op0, bool Op0IsKill,
+unsigned Op1, bool Op1IsKill,
+unsigned Op2, bool Op2IsKill,
+unsigned Op3, bool Op3IsKill) {
+const MCInstrDesc &II = TII.get(MachineInstOpcode);
+unsigned ResultReg = createResultReg(RC);
+Op0 = constrainOperandRegClass(II, Op0, II.getNumDefs());
+Op1 = constrainOperandRegClass(II, Op1, II.getNumDefs() + 1);
+Op2 = constrainOperandRegClass(II, Op2, II.getNumDefs() + 2);
+Op3 = constrainOperandRegClass(II, Op3, II.getNumDefs() + 3);
+if (II.getNumDefs() >= 1)
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, II, ResultReg)
+.addReg(Op0, getKillRegState(Op0IsKill))
+.addReg(Op1, getKillRegState(Op1IsKill))
+.addReg(Op2, getKillRegState(Op2IsKill))
+.addReg(Op3, getKillRegState(Op3IsKill));
+else {
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc, II)
+.addReg(Op0, getKillRegState(Op0IsKill))
+.addReg(Op1, getKillRegState(Op1IsKill))
+.addReg(Op2, getKillRegState(Op2IsKill))
+.addReg(Op3, getKillRegState(Op3IsKill));
+BuildMI(*FuncInfo.MBB, FuncInfo.InsertPt, DbgLoc,
+TII.get(TargetOpcode::COPY), ResultReg).addReg(II.ImplicitDefs[0]);
+}
+return ResultReg;
+}
 namespace llvm {
 FastISel *X86::createFastISel(FunctionLoweringInfo &funcInfo,
 const TargetLibraryInfo *libInfo) {
 return new X86FastISel(funcInfo, libInfo);

Mercurial > hg > Members > tobaru > cbc > CbC_llvm

comparison lib/Target/X86/X86FastISel.cpp @ 121:803732b1fca8