Name Endpoints

Match

Babel Street Match uses machine learning and cutting-edge NLP techniques to perform name matches, address matches, record matches, and name deduplication across a large set of languages and writing scripts. Match functionality is provided through four endpoints:

Names are complex to match because of the large number of variations that occur within a language and across languages. Match breaks a name into tokens and compares the matching tokens. Match can identify variations between matching tokens including, but not limited to, typographical errors, phonetic spelling variations, transliteration differences, initials, and nicknames.

Table 2. Examples of Name Variations

Variation	Example(s)
Phonetic and/or spelling differences	Nayif Hawatmeh and Nayif Hawatma
Missing name components	Mohammad Salah and Mohammad Abd El-Hamid Salah
Rarity of a shared name component	Two English names that contain Ditters are more likely to match than two names that contain Smith
Initials	John F. Kennedy and John Fitzgerald Kennedy
Nicknames	Bobby Holguin and Robert Holguin
"Cousin" or cognate names	Pedro Calzon and Peter Calzon
Uppercase/Lowercase	Rosa Elena PACHECO and Rosa Elena Pacheco
Reordered name components	Zedong Mao and Mao Zedong
Variable Segmentation	Henry Van Dick and Henri VanDick, Robert Smith and Robert JohnSmyth
Corresponding name fields	For [Katherine][Anne][Cox], the similarity with [Katherine][Ann][Cox] is higher than the similarity with [Katherine Ann][Cox]
Truncation of name elements	For Sawyer, the similarity with Sawy is higher than the similarity with Sawi.

Supported Language Matches

Name matching within a language

Match fully supports matches between names in the following languages. It also fully supports matching names between all languages and English.

Language (ISO 639-3)	Scripts (ISO 15924)	Real world ID dictionary
Arabic (ara)	Arabic (Arab)	✓
Burmese (mya)	Burmese (Mymr)	✓
Chinese (zho)^[a]	Han (Hanzi) (Hani), Han (Simplified variant) (Hans), Han (Traditional variant) (Hant)	✓
Chinese, Cantonese (yue)	Han (Hanzi) (Hani), Han (Simplified variant) (Hans), Han (Traditional variant) (Hant)
English (eng)	Latin (Latn)	✓
French (fra)	Latin (Latn)	✓
German (deu)	Latin (Latn)	✓
Greek (ell)	Greek (Grek)	✓
Hebrew (heb)	Hebrew (Hebr)	✓
Hindi (hin)	Devanagari (Deva)	✓
Hungarian (hun)	Latin (Latn)	✓
Italian (ita)	Latin (Latn)	✓
Japanese (jpn)	Han (Kanji) (Hani), Hiragana (Hira), Japanese syllabaries (alias for Hiragana + Katakana) (Hrkt), Japanese (alias for Han + Hiragana + Katakana) (Jpan), Katakana (Kana)	✓
Khmer (khm)	Khmer (Khmr)
Korean (kor)	Hangul (Hangŭl, Hangeul) (Hang), Han (Hanja) (Hani), Korean (alias for Hangul + Han) (Kore)	✓
Malay (zsm)	Latin (Latn)
Pashto (pus)	Arabic (Arab)
Persian (fas) ^[b]	Arabic (Arab)
Persian, Afghan (prs)	Arabic (Arab)
Persian, Iranian (pes)	Arabic (Arab)
Portuguese (por)	Latin (Latn)	✓
Russian (rus)	Cyrillic (Cyrl)	✓
Spanish (spa)	Latin (Latn)	✓
Thai (tha)	Thai (Thai)	✓
Turkish (tur)	Latin (Latn)
Urdu (urd)	Arabic (Arab)
Vietnamese (vie)	Latin (Latn)	✓
^[a]This is a macro language consisting of Mandarin (cnm) and Cantonese (yue). ^[b]Persian is the macro language that includes Afghan Persian (prs) and Iranian Persian (pes)

Cross-language matches

This table identifies the range of cross-language matching that Match fully supports.

Query Domain	Index Domain / Match Domain
Language (ISO 639-3)	Language (ISO 639-3)	Scripts (ISO 15924)
Arabic (ara)	Arabic (ara)	Arabic (Arab)
Arabic (ara)	English (eng)	Latin (Latn)
Burmese (mya)	Burmese (mya)	Burmese (Mymr)
Burmese (mya)	English (eng)	Latin (Latn)
Chinese (zho)^[a]	Chinese (zho)^[a]	(Hani), (Hans), (Hant)
	English (eng)	Latin (Latn)
	Japanese (jpn)	(Hani), (Hira), (Jpan), (Hrkt), (Kana)
	Korean (kor)	(Hani), (Hang), (Kore)
English (eng)	Arabic (ara)	Arabic (Arab)
	Burmese (mya)	Burmese (Mymr)
	Chinese (zho)^[a]	(Hani), (Hans), (Hant)
	English (eng)	Latin (Latn)
	French (fra)	Latin (Latn)
	German (deu)	Latin (Latn)
	Greek (ell)	Greek (Grek)
	Hebrew (heb)	Hebrew (Hebr)
	Hindi (hin)	Devanagari (Deva)
	Hungarian (hun)	Latin (Latn)
	Italian (ita)	Latin (Latn)
	Japanese (jpn)	(Hani), (Hira), (Jpan), (Hrkt), (Kana)
	Khmer (khm)	Khmer (Khmr)
	Korean (kor)	(Hani), (Hang), (Kore)
	Malay (zsm)	Latin (Latn)
	Pashto (pus)	Arabic (Arab)
	Persian (fas)	Arabic (Arab)
	Persian, Afghan (prs)	Arabic (Arab)
	Persian, Iranian (pes)	Arabic (Arab)
	Portuguese (por)	Latin (Latn)
	Russian (rus)	Cyrillic (Cyrl)
	Spanish (spa)	Latin (Latn)
	Thai (tha)	Thai (Thai)
	Urdu (urd)	Arabic (Arab)
	Turkish (tur)	Latin (Latn)
	Vietnamese (vie)	Latin (Latn)
French (fra)	English (eng)	Latin (Latn)
French (fra)	French (fra)	Latin (Latn)
German (deu)	English (eng)	Latin (Latn)
German (deu)	German (deu)	Latin (Latn)
Greek (ell)	English (eng)	Latin (Latn)
Greek (ell)	Greek (ell)	Greek (Grek)
Hebrew (heb)	English (eng)	Latin (Latn)
Hebrew (heb)	Hebrew (heb)	Hebrew (Hebr)
Hindi (hin)	English (eng)	Latin (Latn)
Hindi (hin)	Hindi (hin)	Devanagari (Deva)
Hungarian (hun)	English (eng)	Latin (Latn)
Hungarian (hun)	Hungarian (hun)	Latin (Latn)
Italian (ita)	English (eng)	Latin (Latn)
Italian (ita)	Italian (ita)	Latin (Latn)
Japanese (jpn)	Chinese (zho)^[a]	(Hani), (Hans), (Hant)
	English (eng)	Latin (Latn)
	Japanese (jpn)	(Hani), (Hira), (Jpan), (Hrkt), (Kana)
	Korean (kor)	(Hani), (Hang), (Kore)
Khmer (khm)	English (eng)	Latin (Latn)
Khmer (khm)	Khmer (khm)	Khmer (Khmr)
Korean (kor)	Chinese (zho)^[a]	(Hani), (Hans), (Hant)
	English (eng)	Latin (Latn)
	Japanese (jpn)	(Hani), (Hira), (Jpan), (Hrkt), (Kana)
	Korean (kor)	(Hani), (Hang), (Kore)
Malay (zsm)	English (eng)	Latin (Latn)
Malay (zsm)	Malay (zsm)	Latin (Latn)
Pashto (pus)	English (eng)	Latin (Latn)
Pashto (pus)	Pashto (pus)	Arabic (Arab)
Persian^[b] (fas)	English (eng)	Latin (Latn)
Persian^[b] (fas)	Persian (fas)	Arabic (Arab)
Persian, Afghan (prs)	Afghan Persian (prs)	Arabic (Arab)
Persian, Afghan (prs)	English (eng)	Latin (Latn)
Persian, Iranian (pes)	English (eng)	Latin (Latn)
Persian, Iranian (pes)	Iranian Persian (pes)	Arabic (Arab)
Portuguese (por)	English (eng)	Latin (Latn)
Portuguese (por)	Portuguese (por)	Latin (Latn)
Russian (rus)	English (eng)	Latin (Latn)
Russian (rus)	Russian (rus)	Cyrillic (Cyrl)
Spanish (spa)	English (eng)	Latin (Latn)
Spanish (spa)	Spanish (spa)	Latin (Latn)
Thai (tha)	English (eng)	Latin (Latn)
Thai (tha)	Thai (tha)	Thai (Thai)
Turkish (tur)	English (eng)	Latin (Latn)
Turkish (tur)	Turkish (tur)	Latin (Latn)
Urdu (urd)	English (eng)	Latin (Latn)
Urdu (urd)	Urdu (urd)	Arabic (Arab)
Vietnamese (vie)	English (eng)	Latin (Latn)
Vietnamese (vie)	Vietnamese (vie)	Latin (Latn)
^[a]This is a macro language consisting of Mandarin (cnm) and Cantonese (yue). ^[b]Persian is the macro language that includes Afghan Persian ("prs") and Iranian Persian ("pes")

Babel Street Analytics API

Name Endpoints

Match

Supported Language Matches

Name matching within a language

Cross-language matches

Search results